預組字符
預組字符 (precomposed character,或者稱composite character、decomposable character)是Unicode字符集中的實體,定義為一個或多字符序列。預組字符可以表示一個字母與一個附加符號, 例如é (小寫拉丁字母e帶一個尖音符). 技術上, é (U+00E9)是一個字符,可以分解為Unicode等效字符串e (U+0065)與尖音符(U+0301). 類似地, 二合字是它們的組成的字母或字位的預組字符.
下述瑞典語的姓氏Åström可以有兩種Unicode表示方式,第一種採用預組字符Å (U+00C5)與ö (U+00F6), 第二種採用可分解基本字符A (U+0041)與上圓圈 (附加符號) (U+030A) 以及o (U+006F)與分音符 (U+0308).
- Åström (U+00C5 U+0073 U+0074 U+0072 U+00F6 U+006D)
- Åström (U+0041 U+030A U+0073 U+0074 U+0072 U+006F U+0308 U+006D)
下述例子中,原始印歐語單詞"狗":
- ḱṷṓn (U+1E31 U+1E77 U+1E53 U+006E)
- ḱṷṓn (U+006B U+0301 U+0075 U+032D U+006F U+0304 U+0301 U+006E)
漢字一般類似於預組字符,因為它們可以分解為組成的筆劃並且可以用Unicode的表意文字描述字符。
參見
參考文獻
- The Unicode Standard, Version 5.2: Conformance (頁面存檔備份,存於網際網路檔案館) (see Section 3.7 for Decomposition). The Unicode Consortium, December 2009.
- Aaron Weiss: Composite and Precomposed Characters. Web Developer's Virtual Library. February 20, 2001.
- MSDN: Defining a Character Set (頁面存檔備份,存於網際網路檔案館). April 8, 2010.
外部連結
- Free Idg Serif, a derivative of the FreeSerif font with added declarations of precomposed characters.