跳至內容

EUC

維基百科,自由的百科全書

EUC全名為Extended Unix Code,是一個使用8編碼來表示字符的方法。

EUC最初是針對Unix系統,由一些Unix公司所開發,於1991年標準化。EUC基於ISO/IEC 2022的7位編碼標準,因此單字節的編碼空間為94,雙字節的編碼空間(區位碼)為94x94。把每個區位加上0xA0來表示,以便符合ISO 2022。它主要用於表示及儲存漢語文字日語文字朝鮮文字

EUC定義了4個單獨的碼集(code set)。碼集0總是對應於7位的ASCII(或其它的各國定義的ISO 646),包括了ISO 2022定義的C0與G0空間的值。碼集1, 2, 3表示G1空間的值。其中,碼集1表示一些未經修飾(unadorned)的字符。碼集2的字符編碼以0x8E(屬於C1控制字符,或稱SS2)為第一字節。碼集3的字符編碼以0x8F(另一個屬於C1的控制字符,或稱SS3)為第一字節。碼集0總是編碼為單字節;碼集2、3總是編碼為至少2個字節;碼集1編碼為1-3個字節。

EUC-CN

EUC-CNGB 2312最常用的表示方法。瀏覽器編碼表上的「GB2312」,通常都是指「EUC-CN」表示法。

ASCII字符,範圍為0x21-0x7E,直接用單字節表示。這是碼集0.

GB 2312字元使用兩個字節來表示。這是碼集1.

「第一位字節」使用0xA1-0xFE
「第二位字節」使用0xA1-0xFE

GB2312沒有使用碼集2、碼集3部分。

舉例來說,「啊」字是GB 2312之中的第一個漢字,它的區位碼是1601。

在EUC-CN之中,它把0xA0+16=0xB0,0xA0+1=0xA1,得出0xB0A1。

EUC-JP

EUC-JP用來儲存日本JIS X 0208(舊稱JIS C 6226)及JIS X 0212字集的字符,主要影響了類Unix作業系統的日文表示與處理。但是,日文Windows作業系統較多使用ISO-2022-JPShift JIS的方法來表示。

ASCII字符,範圍為0x21-0x7E,直接用單字節表示。這是碼集0.

半角片假名使用兩個字節來表示。這是碼集2

「第一位字節」使用0x8E
「第二位字節」使用0xA1-0xDF

JIS X 0208字元使用兩個字節來表示。這是碼集1.

「第一位字節」使用0xA1-0xFE
「第二位字節」使用0xA1-0xFE

JIS X 0212字元使用三個字節來表示。這是碼集3

「第一位字節」使用0x8F
「第二位字節」使用0xA1-0xFE
「第三位字節」使用0xA1-0xFE

EUC-JISX0213

EUC-JISX0213是一個制定中的EUC規格,用來表示JIS X 0213字集的字符。

半角片假名使用兩個字節來表示。

「第一位字節」使用0x8E
「第二位字節」使用0xA1-0xDF

JIS X 0213第一字面字元使用兩個字節來表示。

「第一位字節」使用0xA1-0xFE
「第二位字節」使用0xA1-0xFE

JIS X 0213第二字面字元使用三個字節來表示。

「第一位字節」使用0x8F
「第二位字節」使用0xA1-0xFE
「第三位字節」使用0xA1-0xFE

EUC-KR

EUC-KR用來儲存韓國KS X 1001字集(舊稱KS C 5601)的字符。此規格由KS X 2901(舊稱KS C 5861)定義。

KS X 1001字元使用兩個字節來表示。

「高位字節」使用0xA1-0xFE
「低位字節」使用0xA1-0xFE

EUC-TW

EUC-TW為台灣使用的漢字編碼方法之一,以CNS 11643字表為基礎;但是台灣普遍使用大五碼,EUC-TW甚少使用。

CNS 11643第一字面的字元使用兩個字節來表示。

「第一位字節」使用0xA1-0xFE
「第二位字節」使用0xA1-0xFE

CNS 11643其他字面的字元使用四個字節來表示。

「第一位字節」使用0x8E
「第二位字節」使用0xA1-0xB0(0xA1-0xA7分別代表第1至第7個字面,其餘未定義)
「第三位字節」使用0xA1-0xFE
「第四位字節」使用0xA1-0xFE

(CNS 11643第一字面可選擇使用兩個字節或四個字節來表示)

參看

參考文獻

  • 小林劍,(1999年). CJKV Information Processing. First Edition. O'Reilly and Associates, Inc. ISBN 1-56592-224-7;中文版,鄭褚璋譯,(2002年)中日韓越資訊處理 第一版,台北市,美商歐萊禮股份有限公司。 ISBN 986-7794-03-6