string - code - ñ utf 8




UTF8 rispetto a UTF16 vs char*rispetto a cosa? Qualcuno mi spiega questo casino! (4)

C'è anche il problema con i caratteri. Esistono due modi per gestire i caratteri. O usi un gigantesco font con glifi per tutti i caratteri Unicode di cui hai bisogno (penso che le versioni recenti di Windows abbiano uno o due di questi tipi). Oppure si utilizza una libreria som in grado di combinare glifi da vari font dedicati ai sottoinsiemi dello standard Unicode.

Sono riuscito a ignorare per lo più tutta questa roba di carattere multi-byte, ma ora ho bisogno di fare un po 'di interfaccia utente e so che la mia ignoranza in questo settore mi raggiungerà! Qualcuno può spiegare in pochi paragrafi o meno solo ciò che ho bisogno di sapere in modo da poter localizzare le mie applicazioni? Che tipi dovrei usare (io uso entrambi .Net e C / C ++, e ho bisogno di questa risposta sia per Unix che per Windows).


I vari standard UTF sono modi per codificare i "code point". Un punto di codice è l'indice nel set di caratteri Unicode.

Un'altra codifica è UCS2 che è sempre a 16 bit e quindi non supporta l'intero intervallo Unicode.

Buono a sapersi è anche che un punto di codice non è uguale a un personaggio. Ad esempio un carattere come å può essere rappresentato sia come punto di codice sia come due punti di codice uno per la a e uno per l'anello.

Il confronto di due stringhe unicode richiede quindi la normalizzazione per ottenere la rappresentazione canonica prima del confronto.









multibyte