string 中文unicode编码表 角色,代码点,字形和字形之间有什么区别?




中文unicode编码表 (2)

在Unicode标准之外, 字符是由一个或多个字素组成的单个文本单元 。 Unicode标准定义为“字符”实际上是字形和字符的混合。 Unicode提供了将并列字素解释为单个字符的规则。

Unicode 代码点是分配给每个Unicode字符 (可以是字符或字母)的唯一编号。

不幸的是,Unicode规则允许将一些并置的字形解释为已经具有其自己的代码点( 预合成形式 )的其他字形。 这意味着Unicode中有多种方式来表示字符。 Unicode规范化解决了这个问题。

字形是角色的直观表示。 字体为特定字符集(非Unicode字符)提供一组字形。 对于每个角色,都有无数个可能的字形。

对Mark Amery的回复

首先,正如我所说的,每个字符都有无数个可能的字形,所以不,字符不是“总是由单个字形表示”。 Unicode与字形无关,它在代码图中定义的东西肯定不是字形。 问题是他们都不是所有角色。 那他们是什么?

哪个是更大的实体,字形或字符? 人们在文本中称那些不是字母或标点符号的图形元素是什么? 一个让人想起的术语是“字形”。 这个词恰好形成了“文本中的图形单元”的概念。 我提供了这个定义:字素是书面文本中最小的不同组成部分

一个人可以走另一条路,说那些字形由字符组成,但之后它们将被称为“中国字形”,所有那些由中国字母组成的点点滴滴都必须被称为“字符”。 但是,这都是倒退的。 字素是独特的小点点。 人物更发达。 短语“字形是可组合的”,在Unicode的上下文中会更好地说明“字符是可组合的”。

Unicode定义了字符,但它也定义了与其他字形或字符组成的字形。 你组成的那些怪物就是一个很好的例子。 如果他们抓住了,他们可能会在更高版本的Unicode中获得自己的代码点;)

所有这些都有一个递归元素。 在更高的层次上,字形成为字形成为字形,但它一直是字形。

https://code.i-harness.com

试图理解现代Unicode的微妙之处让我头疼。 特别是,代码点,字符,字形和字形之间的区别 - 在最简单的情况下,当使用ASCII字符处理英文文本时,所有这些概念彼此都具有一对一的关系 - 这些概念给我带来了麻烦。

看看这些术语如何在像Matthias Bynens的JavaScript这样的文档中使用有一个unicode问题或维基百科关于Han统一的文章 ,我发现这些概念不是一回事,把它们混淆是危险的,但我有点像努力掌握每个术语的含义

Unicode Consortium提供了一个glossary来解释这些东西,但它充满了这样的“定义”:

抽象字符 。 用于组织,控制或表示文本数据的信息单元。 ...

...

性格 。 ...(2)抽象字符的同义词。 (3)Unicode字符编码的基本编码单位。 ...

...

雕文 。 (1)表示一个或多个字形图像的抽象形式。 (2)字形图像的同义词。 在显示Unicode字符数据时,可以选择一个或多个字形来描绘特定字符。

...

Grapheme 。 (1)在特定书写系统的背景下最低限度的独特写作单位。 ...

这些定义中的大多数具有非常学术和正式的声音质量,但缺乏任何意义的质量,或者将定义问题推迟到另一个词汇表条目或标准的一部分。

因此,我寻求那些比我更有学问的人的神秘智慧。这些概念中的每一个究竟是如何彼此不同的,在什么情况下他们彼此之间没有一对一的关系?


  • 角色是一个超载的术语,可能意味着许多事情。

  • 代码点是信息的原子单位。 文本是一系列代码点。 每个代码点都是一个由Unicode标准赋予的数字。

  • 代码单元是编码代码点的一部分的存储单元。 在UTF-8中,这意味着8位,在UTF-16中这意味着16位。 单个代码单元可以表示完整的代码点,或代码点的一部分。 例如,雪人字形( )是单个代码点,但是3个UTF-8代码单元和1个UTF-16代码单元。

  • 字素是一个或多个代码点的序列,它们显示为单个图形单元,读者将其识别为书写系统的单个元素。 例如, aä都是字形,但它们可能由多个代码点组成(例如, ä可能是两个代码点,一个用于基本字符a后面跟一个用于diaresis;但也有一个替代的,遗留的,单个代码代表这个字形的点)。 某些代码点永远不会是任何字形的一部分(例如,零宽度非连接器或方向覆盖)。

  • 字形是一种图像,通常以字体 (字形集合)存储,用于表示字形或其部分。 字体可以将多个字形组合成单个表示,例如,如果上面的ä是单个代码点,则字体可以选择将其呈现为两个单独的,空间上重叠的字形。 对于OTF,字体的GSUB和GPOS表包含替换和定位信息以使其工作。 字体也可以包含同一字素的多个替代字形。





terminology