Sign in to follow this  
Ottimio

Attivare il supporto Unicode nel forum

Recommended Posts

Si potrebbe attivare il supporto unicode nel forum? Da quel che ho capito, basterebbe andare nella pagina di amministrazione che si vede qui e impostare "utf-8" al posto di "ISO-8859-1" come HTML Character Set.

Share this post


Link to post
Share on other sites

da wikipedia -- UTF 8

Vantaggi

Il vantaggio più ovvio di qualsiasi codifica UTF è che permette di rappresentare tutti i caratteri, a differenza di codifiche più vecchie.

Alcuni caratteri di Unicode (per esempio l'alfabeto latino) occupano in UTF-8 un solo byte, altri richiedono fino a quattro byte. In generale un testo codificato in UTF-8 occuperà meno spazio del corrispondente UTF-16 o UTF-32 se contiene molti caratteri ASCII a 7 bit.

Una sequenza di byte che codifica un carattere non può apparire come parte di una sequenza più lunga che codifica un altro carattere, come succedeva per codifiche a lunghezza variabile meno recenti (vedi la sezione precedente).

Il primo byte di una sequenza è sufficiente a determinarne la lunghezza (è sufficiente contare il numero di bit più significativi con valore uno). Questo rende molto semplice estrarre una sotto-stringa da una stringa più lunga, senza bisogno di decodificare la sequenza di byte UTF-8

La maggioranza del software esistente (inclusi i sistemi operativi) è stata scritta senza tener conto di Unicode, e l'uso di Unicode creerebbe problemi di compatibilità. Per esempio la libreria standard del C (linguaggio) marca la fine di una stringa con un byte nullo (0x00). Usando UTF-16 il carattere Unicode "A" verrebbe codificato come 0x0041. Il primo byte verrebbe trattato come il marcatore di fine stringa, e il secondo e tutti i successivi verrebbero ignorati. UTF-8 è pensato in modo che nessuno dei byte codificati possa assumere uno dei valori speciali del codice ASCII, evitando questo e problemi simili.

UTF-8 è la codifica predefinita per il formato XML.

Svantaggi

UTF-8 usa sequenze di lunghezza variabile, cioè caratteri differenti vengono rappresentati con sequenze di byte di lunghezze diverse. La gravità del problema tuttavia potrebbe essere limitata creando un interfaccia astratta che lavori con le stringhe UTF-8, e rendendola completamente trasparente all'utente. Inoltre anche UTF-16 usa sequenze di lunghezza variabile, anche se molti non lo sanno (o non sono interessati ai caratteri al di fuori del Basic Multilingual Plane).

Un decoder mal programmato (e non conforme alle ultime versioni dello standard) potrebbe accettare diverse pseudo-codifiche UTF-8 e convertirle nello stesso carattere Unicode, scavalcando in questo modo eventuali controlli di sicurezza progettati per lavorare su rappresentazioni dei dati a 8 bit.

Gli ideogrammi vengono rappresentati in UTF-8 con tre byte, mentre ne richiedono solo due in UTF-16. Di conseguenza i testi in Cinese / Giapponese / Coreano, oltre ad alcuni gruppi di caratteri Unicode meno noti, occupano più spazio quando vengono codificati con UTF-8.

Share this post


Link to post
Share on other sites

Create an account or sign in to comment

You need to be a member in order to leave a comment

Create an account

Sign up for a new account in our community. It's easy!

Register a new account

Sign in

Already have an account? Sign in here.

Sign In Now
Sign in to follow this