预组字符
预组字符 (precomposed character,或者称composite character、decomposable character)是Unicode字符集中的实体,定义为一个或多字符序列。预组字符可以表示一个字母与一个附加符号, 例如é (小写拉丁字母e带一个尖音符). 技术上, é (U+00E9)是一个字符,可以分解为Unicode等效字符串e (U+0065)与尖音符(U+0301). 类似地, 二合字是它们的组成的字母或字位的预组字符.
下述瑞典语的姓氏Åström可以有两种Unicode表示方式,第一种采用预组字符Å (U+00C5)与ö (U+00F6), 第二种采用可分解基本字符A (U+0041)与上圆圈 (附加符号) (U+030A) 以及o (U+006F)与分音符 (U+0308).
- Åström (U+00C5 U+0073 U+0074 U+0072 U+00F6 U+006D)
- Åström (U+0041 U+030A U+0073 U+0074 U+0072 U+006F U+0308 U+006D)
下述例子中,原始印欧语单词"狗":
- ḱṷṓn (U+1E31 U+1E77 U+1E53 U+006E)
- ḱṷṓn (U+006B U+0301 U+0075 U+032D U+006F U+0304 U+0301 U+006E)
汉字一般类似于预组字符,因为它们可以分解为组成的笔划并且可以用Unicode的表意文字描述字符。
参见
参考文献
- The Unicode Standard, Version 5.2: Conformance (页面存档备份,存于互联网档案馆) (see Section 3.7 for Decomposition). The Unicode Consortium, December 2009.
- Aaron Weiss: Composite and Precomposed Characters. Web Developer's Virtual Library. February 20, 2001.
- MSDN: Defining a Character Set (页面存档备份,存于互联网档案馆). April 8, 2010.
外部链接
- Free Idg Serif, a derivative of the FreeSerif font with added declarations of precomposed characters.