UTF-8과 ISO-8859-1의 차이점은 무엇입니까?


2 Answers

Wikipedia는 UTF-8Latin-1 (ISO-8859-1)을 합리적으로 설명합니다. 이전은 가변 길이 인코딩이며, 후자의 단일 바이트 고정 길이 인코딩입니다. Latin-1은 유니 코드 문자 세트의 처음 256 코드 포인트 만 인코딩하지만 UTF-8은 모든 코드 포인트를 인코딩하는 데 사용할 수 있습니다. 물리적 인 인코딩 레벨에서는 코드 포인트 0-127만이 동일하게 인코딩됩니다. 코드 포인트 128-255는 UTF-8과 2 바이트 시퀀스가 ​​됨으로써 다르지만 라틴 -1이있는 단일 바이트입니다.

Question

UTF-8ISO-8859-1 의 차이점은 무엇입니까?




다른 관점에서, 유니 코드와 아스키 인코딩이 모두 0xc0 바이트를 가지고 있기 때문에 읽지 못하는 파일은 iso-8859-1에 의해 올바르게 읽혀지는 것 같습니다. 단점은 물론 파일에 유니 코드 문자가 없어야한다는 것입니다.




ISO-8859-1은 1980 년대의 유산 표준입니다. 서양에서 일부 언어에만 적합하도록 256자를 나타낼 수 있습니다. 지원되는 언어가 많아도 일부 문자가 누락되었습니다. 이 인코딩으로 텍스트 파일을 만들고 일부 중국어 문자를 복사 / 붙여 넣기를 시도하면 이상한 결과가 표시됩니다. 즉, 사용하지 마십시오. 유니 코드는 전 세계를 장악했으며 UTF-8은 요즘에는 어떤 이유 (예 : 모든 것과 호환되어야하는 HTTP 헤더)가 없다면 요즘 표준입니다.




Related