EUC
EUC全名為Extended Unix Code,是一個使用8位編碼來表示字符的方法。
EUC最初是針對Unix系統,由一些Unix公司所開發,於1991年標準化。EUC基於ISO/IEC 2022的7位編碼標準,因此單字節的編碼空間為94,雙字節的編碼空間(區位碼)為94x94。把每個區位加上0xA0來表示,以便符合ISO 2022。它主要用於表示及儲存漢語文字、日語文字及朝鮮文字。
EUC定義了4個單獨的碼集(code set)。碼集0總是對應於7位的ASCII(或其它的各國定義的ISO 646),包括了ISO 2022定義的C0與G0空間的值。碼集1, 2, 3表示G1空間的值。其中,碼集1表示一些未經修飾(unadorned)的字符。碼集2的字符編碼以0x8E(屬於C1控制字符,或稱SS2)為第一字節。碼集3的字符編碼以0x8F(另一個屬於C1的控制字符,或稱SS3)為第一字節。碼集0總是編碼為單字節;碼集2、3總是編碼為至少2個字節;碼集1編碼為1-3個字節。
EUC-CN
EUC-CN是GB 2312最常用的表示方法。瀏覽器編碼表上的「GB2312」,通常都是指「EUC-CN」表示法。
ASCII字符,範圍為0x21-0x7E,直接用單字節表示。這是碼集0.
GB 2312字元使用兩個字節來表示。這是碼集1.
- 「第一位字節」使用0xA1-0xFE
- 「第二位字節」使用0xA1-0xFE
GB2312沒有使用碼集2、碼集3部分。
舉例來說,「啊」字是GB 2312之中的第一個漢字,它的區位碼是1601。
在EUC-CN之中,它把0xA0+16=0xB0,0xA0+1=0xA1,得出0xB0A1。
EUC-JP
EUC-JP用來儲存日本JIS X 0208(舊稱JIS C 6226)及JIS X 0212字集的字符,主要影響了類Unix作業系統的日文表示與處理。但是,日文Windows作業系統較多使用ISO-2022-JP或Shift JIS的方法來表示。
ASCII字符,範圍為0x21-0x7E,直接用單字節表示。這是碼集0.
半角片假名使用兩個字節來表示。這是碼集2
- 「第一位字節」使用0x8E
- 「第二位字節」使用0xA1-0xDF
JIS X 0208字元使用兩個字節來表示。這是碼集1.
- 「第一位字節」使用0xA1-0xFE
- 「第二位字節」使用0xA1-0xFE
JIS X 0212字元使用三個字節來表示。這是碼集3
- 「第一位字節」使用0x8F
- 「第二位字節」使用0xA1-0xFE
- 「第三位字節」使用0xA1-0xFE
EUC-JISX0213
EUC-JISX0213是一個制定中的EUC規格,用來表示JIS X 0213字集的字符。
半角片假名使用兩個字節來表示。
- 「第一位字節」使用0x8E
- 「第二位字節」使用0xA1-0xDF
JIS X 0213第一字面字元使用兩個字節來表示。
- 「第一位字節」使用0xA1-0xFE
- 「第二位字節」使用0xA1-0xFE
JIS X 0213第二字面字元使用三個字節來表示。
- 「第一位字節」使用0x8F
- 「第二位字節」使用0xA1-0xFE
- 「第三位字節」使用0xA1-0xFE
EUC-KR
EUC-KR用來儲存韓國KS X 1001字集(舊稱KS C 5601)的字符。此規格由KS X 2901(舊稱KS C 5861)定義。
KS X 1001字元使用兩個字節來表示。
- 「高位字節」使用0xA1-0xFE
- 「低位字節」使用0xA1-0xFE
EUC-TW
EUC-TW為台灣使用的漢字編碼方法之一,以CNS 11643字表為基礎;但是台灣普遍使用大五碼,EUC-TW甚少使用。
CNS 11643第一字面的字元使用兩個字節來表示。
- 「第一位字節」使用0xA1-0xFE
- 「第二位字節」使用0xA1-0xFE
CNS 11643其他字面的字元使用四個字節來表示。
- 「第一位字節」使用0x8E
- 「第二位字節」使用0xA1-0xB0(0xA1-0xA7分別代表第1至第7個字面,其餘未定義)
- 「第三位字節」使用0xA1-0xFE
- 「第四位字節」使用0xA1-0xFE
(CNS 11643第一字面可選擇使用兩個字節或四個字節來表示)
參看
參考文獻
- 小林劍,(1999年). CJKV Information Processing. First Edition. O'Reilly and Associates, Inc. ISBN 1-56592-224-7;中文版,鄭褚璋譯,(2002年)中日韓越資訊處理 第一版,台北市,美商歐萊禮股份有限公司。 ISBN 986-7794-03-6