KS X 1001
KS X 1001是韩国用于书写的谚文和汉字的字符编码规格。以前称作KS C 5601,现在多称作KS X 1001,有时也简称为KS编码。
其与JIS X 0208的94×94字集类似,包含谚文2,350字、汉字4,888字、英文字母、数字和假名共,8226字。谚文是由字母组合成一个音节的,但在这种编码中用一个字符表示一整个音节,难以包括所有可能的组成符号,存在许多无法表示的音节,受到许多批评。百事可乐的韩国法人因 KS X 1001 不含“펲”,在1992年改用 KS X 1001 中存在的谚文“펩”表示。[1]
汉字则是照读音顺序来配置的。朝鲜语原则上一字一音,但也存在破音字,KS X 1001对这样的汉字在不同的读音位置重复编码。这被称为“预组合字符编码”(Wansung,韩语:완성,罗马化:wanseong,直译:预组合[2])。
虽然也有不一样的,使用头音法则,即转成最先遇到的那个读音,但如“盧”和“李”如此常用的字也有别的读音和重复编码。最多的是有4个重复编码的“樂”。这个方式的好处是、字的读音利于机械的判定,但却也被批评违反字符编码的大原则。此外,这样重复编码的汉字在统一码和通用字符集中因互换性的关系,中日韩统一表意文字只收录一个、其它的则收录于中日韩兼容汉字。
KS X 1001在EUC的编码称作韩文EUC(EUC-KR)。实际上,KS X 1001 完全没有被用于其它编码(ISO-2022-KR完全没有被使用),单独的 KS C 5601 通常意指 EUC-KR 。
一些电脑系统将此标准改编成诸多版本。但他们并非完全一致,如将原标准中放在 0x5C 的反斜线改成韩圆(₩)。有些系统则使用非常规方法来扩展此标准。KS X 1001 可编码成 EUC-KR、Windows-949(EUC-KR 的超集)、ISO-2022-KR 和“双字节合型符号”(Johab)。但后二个很少使用。
历史
- 1974年9月27日 - 制订 KS C 5601 为 7 比特谚文编码。当时的配置为30个谚文子音字母(头子音和终子音的集合)在 0x41-0x5E ,21个母音字母散布在 0x62 - 0x7C 。这种系统无法区别头子音和终子音。
- 1982年6月14日 - 修订 KS C 5601。增加“十六比特符号”附录。“十六比特符号”为初声、中声、终声各5 比特的表示。最高比特为 1 的编码。
- 1987年3月1日 - KS C 5601再次修订,7 比特谚文码和“十六比特符号”移动到附录。本文定为94×94文字集合,含有2350个谚文字符、4888个汉字、986个其他文字。
- 1992年10月15日 - 修订 KS C 5601。附录中“16位符号”变更为“双字节合型符号”。表示的码点和初声、中声、终声一样,比特型式则完全不同。
- 1997年8月20日 - 伴随新的情报部门(X)的设立,KS C 5601 改为 KS X 1001 。
- 1998年12月31日 - 修改 KS X 1001,增加欧元符号(€)和注册商标符号(®)。
参考
- ^ 【概論】パソコン上のハングル環境. [2016-02-19]. (原始内容存档于2015-04-29).
- ^ Lunde, Ken. Chapter 3: Character Set Standards. CJKV Information Processing. 2009: 146 [2021-12-22]. ISBN 978-0596514471. (原始内容存档于2021-12-22).
另见
- JIS X 0208
- GB 2312
- GB 12052《信息交换用朝鲜文字编码字符集》
- 大五码
- 中日韩统一表意文字