漢字內碼擴展規範

漢字內碼擴展規範
	GBK 字節分配。
MIME / IANA	GBK
別名	CP936, MS936, windows-936, csGBK
語言	國際，但以簡體中文為主，瀏覽器多以GB 18030解碼
標準	GBK 1.0
現狀	非正式國標編碼，已被GB 18030取代
分類	擴展ASCII、變長編碼、CJK
拓展自	EUC-CN
前用	GB2312
後續	GB 18030
	閱; 論; 編;

漢字內碼擴展規範，簡稱GBK，全名為《漢字內碼擴展規範(GBK)》1.0版，由中華人民共和國全國信息技術標準化技術委員會1995年12月1日制訂，國家技術監督局標準化司和電子工業部科技與質量監督司1995年12月15日聯合以《技術標函[1995]229號》文件的形式公佈。 GBK共收錄21886個漢字和圖形符號，其中漢字（包括部首和構件）21003個，圖形符號883個。

GBK為「國家標準擴展」的漢語拼音（Guójiā Biāozhǔn Kuòzhǎn）中的「國」「標」「擴」第一個聲母。英文全稱Chinese Internal Code Extension Specification。

GBK 只為「技術規範指導性文件」，不屬於國家標準。國家質量技術監督局於2000年3月17日推出了GB 18030-2000標準，以取代GBK。GB 18030-2000除保留全部GBK編碼漢字，在第二字節把能使用範圍再度進行擴展，增加了大約一百個漢字及四字節編碼空間，但是將GBK作為子集全部保留。

歷史

1993年，Unicode 1.1版本推出，收錄中國大陸、台灣、日本及韓國通用字符集的漢字，總共有20,902個。中國大陸訂定了等同於Unicode 1.1版本的「GB 13000.1-93」「信息技術通用多八位編碼字符集（UCS）第一部分：體系結構與基本多文種平面」。

由於GB 2312-80只收錄6763個漢字，有不少漢字，如部分在GB 2312-80推出以後才簡化的漢字（如「啰」），部分人名用字（如中國前總理朱鎔基的「镕」字），台灣及香港使用的繁體字，日語及韓語漢字等，並未有收錄在內。於是廠商微軟利用GB 2312-80未使用的編碼空間，收錄GB 13000.1-93全部字符制定了GBK編碼。

根據微軟資料，GBK是對GB2312-80的擴展，也就是CP936字碼表（Code Page 936）的擴展（之前CP936和GB 2312-80一模一樣），最早實現於Windows 95簡體中文版。雖然GBK收錄GB 13000.1-93的全部字符，但GBK是一種編碼方式並向下兼容GB2312；而GB 13000.1-93等同於Unicode 1.1是一種字符集，它的幾種編碼方式如UTF8、UTF16LE等，與GBK完全不兼容。

編碼方式

字符有一字節和雙字節編碼，00–7F範圍內是第一個字節，和ASCII保持一致，此範圍內嚴格上說有96個文字和32個控制符號。

之後的雙字節中，前一字節是雙字節的第一位。總體上說第一字節的範圍是81–FE（也就是不含80和FF），第二字節的一部分領域在40–7E，其他領域在80–FE。

具體來說，定義的是下列字節：

GBK的編碼範圍
範圍	第1位元組	第2位元組	編碼數	字數
水準GBK/1	`A1`–`A9`	`A1`–`FE`	846	717
水準GBK/2	`B0`–`F7`	`A1`–`FE`	6,768	6,763
水準GBK/3	`81`–`A0`	`40`–`FE` (`7F`除外)	6,080	6,080
水準GBK/4	`AA`–`FE`	`40`–`A0` (`7F`除外)	8,160	8,160
水準GBK/5	`A8`–`A9`	`40`–`A0` (`7F`除外)	192	166
用戶定義	`AA`–`AF`	`A1`–`FE`	564
用戶定義	`F8`–`FE`	`A1`–`FE`	658
用戶定義	`A1`–`A7`	`40`–`A0` (`7F`除外)	672
合計：			23,940	21,886

雙字節符號可以表達的64K空間如下圖所示。綠色和黃色區域是GBK的編碼，紅色是用戶定義區域。沒有顏色區域是不正確的代碼組合。

與其他編碼的關係

GBK向下完全兼容GB2312-80編碼。支持GB2312-80編碼不支持的部分中文姓，中文繁體，日文假名，還包括希臘字母以及俄語字母等字母。不過這種編碼不支持韓國字，也是其在實際使用中與unicode編碼相比欠缺的部分。

上述GBK/1和GBK/2的領域即GB 2312-80用通常方法編碼的區域。GB 2312（正確說法是其根據EUC-CN的編碼）和ISO/IEC 2022中調用GR其他的94²字符集一樣，A1–FE的範圍開始讀取字節對。這是上圖中右下角的部分。但是，GB 2312中對於AA–AF和F8–FE區域是空的，沒有賦予編碼。於是GBK就在這些領域裏進行拓展。二者剩餘部分作為用戶定義區。

更重要的是，GBK進行了字節範圍的擴展。ISO/IEC 2022中GR區域的字數有94²=8,836字的限制。只要放棄ISO/IEC 2022中針對圖形文字和控制文字賦予嚴格的範圍的模式，下位字節為單字節文字，上位字節對保留對應字符的功能，潛在的128²=16,384的代碼位置就可以使用。GBK採用其中的一部分，第一個字節從A1–FE（每個字節有94個選項）擴展成81–FE（126個選項），第二字節的範圍是40–FE（191個選項），總共有24066（126*191）個位置。

與CP936字碼表比較

微軟在稍新一點的CP936中使用單字節 0x80 代表歐元字符（U+20AC），而《規範》之GBK編碼不含此字符。

輸入方法

VimIM在Vim環境中，可以直接鍵入十進制或十六進制GBK （頁面存檔備份，存於互聯網檔案館）碼。既不需要啟動輸入法，也不需要碼表。

參見

註釋

^ 嚴格來說不是，因為ASCII字節會出現在GBK拓展二字節部分的後半字

參考文獻

外部連結

[1] 嚴格來說不是，因為ASCII字節會出現在GBK拓展二字節部分的後半字

[a]

閱論編字元編碼
早期電信	電報電碼（英語：Telegraph code）庫克與惠斯通（英語：Cooke and Wheatstone telegraph）摩斯非拉丁字母（英語：Morse code for non-Latin alphabets）日文（英語：Wabun code）中文西里爾字母（英語：Russian Morse code）韓文（英語：SKATS）博多與莫瑞 Fieldata（英語：Fieldata） ASCII ISO/IEC 646 BCDIC（英語：BCD (character encoding)）電傳文訊（英語：Teletex）與電傳視訊（英語：Videotex）／電視資訊 T.51/ISO/IEC 6937（英語：T.51/ISO/IEC 6937） ITU T.61（英語：ITU T.61） ITU T.101（英語：Videotex character set）世界系統電傳文訊（英語：World System Teletext）字元集（英語：Teletext character set）
ISO/IEC 8859	現行 -1（西歐語言） -2（中歐語言） -3（馬爾他文／世界文） -4（北歐語言） -5（西里爾字母） -6（阿拉伯文） -7（希臘文） -8（希伯來文） -9（土耳其文） -10（北日耳曼語支） -11（泰文） -13（波羅的語族） -14（凱爾特語族） -15（新西歐語言） -16（羅馬尼亞文）廢止 -12（梵文）提議 KOI-8西里爾字母（英語：ISO-IR-111）薩米文（英語：ISO-IR-197）改編威爾斯文（英語：ISO-IR-182）巴倫支西里爾字母（英語：ISO-IR-200）愛沙尼亞文（英語：Code page 922）烏克蘭西里爾字母（英語：Code page 1124）
書目	MARC-8（英語：MARC-8） ANSEL（英語：ANSEL）中文資訊交換碼 ISO 5426（英語：ISO 5426） ISO 5427（英語：ISO 5427） ISO 5428（英語：ISO 5428） ISO 6438 ISO 6862（英語：ISO 6862）
國家標準	ArmSCII BraSCII（英語：BraSCII）中文標準交換碼 DIN 66003（英語：DIN 66003） ELOT 927（英語：ELOT 927） GOST 10859（英語：GOST 10859） GB 2312 GB 12052 GB 18030 HKSCS ISCII JIS X 0201 JIS X 0208 JIS X 0212（英語：JIS X 0212） JIS X 0213（英語：JIS X 0213） KOI-7（英語：KOI-7） KPS 9566 KS X 1001 KS X 1002（英語：KS X 1002） LST 1564（英語：LST 1564） LST 1590-4（英語：LST 1590-4） PASCII Shift JIS SI 960（英語：SI 960） TIS-620（英語：Thai Industrial Standard 620-2533） TSCII VISCII（英語：VISCII） VSCII YUSCII（英語：YUSCII）
ISO/IEC 2022	ISO/IEC 8859 ISO/IEC 10367（英語：ISO/IEC 10367） EUC ISO-IR-165
macOS代碼頁	亞美尼亞文（英語：Mac OS Armenian）阿拉伯文巴倫支西里爾字母（英語：Mac OS Barents Cyrillic）凱爾特語族（英語：Mac OS Celtic）中歐語言克羅地亞文（英語：Mac OS Croatian encoding）西里爾字母（英語：Mac OS Cyrillic encoding）梵文波斯文（英語：MacFarsi encoding）字體X（英語：Macintosh Font X encoding）蓋爾文（英語：Mac OS Gaelic）喬治亞文（英語：Mac OS Georgian）希臘文（英語：MacGreek encoding）古吉拉特文（英語：Mac OS Gujarati）古木基文（英語：Mac OS Gurmukhi）希伯來文（英語：Mac OS Hebrew）冰島文（英語：Mac OS Icelandic encoding）因紐特文（英語：Mac OS Inuit）鍵盤（英語：Mac OS Keyboard encoding）拉丁文（英語：Macintosh Latin encoding）馬爾他文／世界文（英語：Mac OS Maltese/Esperanto encoding）歐甘字母（英語：Mac OS Ogham）羅曼語族羅馬尼亞文（英語：Mac OS Romanian encoding）薩米文（英語：Mac OS Sámi）土耳其文（英語：Mac OS Turkish encoding）土耳其西里爾字母（英語：Mac OS Turkic Cyrillic）烏克蘭文（英語：Mac OS Ukrainian encoding） VT100（英語：VT100 encoding）
DOS代碼頁	437 668（英語：Code page 668） 708（英語：Code page 708） 720（英語：Code page 720） 737（英語：Code page 737） 770（英語：Code page 770） 773（英語：Code page 773） 775（英語：Code page 775） 776（英語：Code page 776） 777（英語：Code page 777） 778（英語：Code page 778） 850（英語：Code page 850） 851（英語：Code page 851） 852（英語：Code page 852） 853（英語：Code page 853） 855（英語：Code page 855） 856（英語：Code page 856） 857（英語：Code page 857） 858（英語：Code page 858） 859（英語：Code page 859） 860（英語：Code page 860） 861（英語：Code page 861） 862（英語：Code page 862） 863（英語：Code page 863） 864（英語：Code page 864） 865（英語：Code page 865） 866（英語：Code page 866） 867（英語：Code page 867） 868（英語：Code page 868） 869（英語：Code page 869） 897（英語：Code page 897） 899（英語：Code page 899） 903（英語：Code page 903） 904（英語：Code page 904） 932（英語：Code page 932 (IBM)） 936（英語：Code page 936 (IBM)） 942（英語：Code page 942） 949（英語：Code page 949 (IBM)） 950 951（英語：Code page 951） 1040（英語：Code page 1040） 1042（英語：Code page 1042） 1043（英語：Code page 1043） 1046（英語：Code page 1046） 1098（英語：Code page 1098） 1115（英語：Code page 1115） 1116（英語：Code page 1116） 1117（英語：Code page 1117） 1118（英語：Code page 1118） 1127（英語：Code page 1127） 3846（英語：Code page 3846） ABICOMP（英語：ABICOMP character set） CS Indic（英語：CS Indic character set） CSX Indic（英語：CSX Indic character set） CSX+ Indic（英語：CSX+ Indic character set） CWI-2（英語：CWI-2）伊朗系統（英語：Iran System encoding）卡梅尼茨（英語：Kamenický encoding）馬索維亞（英語：Mazovia encoding） MIK（英語：MIK (character set)）
IBM AIX代碼頁	895（英語：Code page 895） 896（英語：Code page 896） 912（英語：Code page 912） 915（英語：Code page 915） 921（英語：Code page 921） 922（英語：Code page 922） 1006（英語：Code page 1006） 1008（英語：Code page 1008） 1009（英語：Code page 1009） 1010（英語：Code page 1010） 1012（英語：Code page 1012） 1013（英語：Code page 1013） 1014（英語：Code page 1014） 1015（英語：Code page 1015） 1016（英語：Code page 1016） 1017（英語：Code page 1017） 1018（英語：Code page 1018） 1019（英語：Code page 1019） 1124（英語：Code page 1124） 1133（英語：Code page 1133）
Microsoft Windows代碼頁（英語：Windows code page）	CER-GS（英語：CER-GS） 932（英語：Code page 932 (Microsoft Windows)） 936 GBK 950 1169（英語：Code page 1169） Extended Latin-8（英語：Extended Latin-8） 1250（英語：Windows-1250） 1251（英語：Windows-1251） 1252 1253（英語：Windows-1253） 1254（英語：Windows-1254） 1255（英語：Windows-1255） 1256（英語：Windows-1256） 1257（英語：Windows-1257） 1258（英語：Windows-1258） 1270（英語：Windows-1270）西里爾字母+芬蘭文（英語：Windows Cyrillic + Finnish）西里爾字母+法文（英語：Windows Cyrillic + French）西里爾字母+德文（英語：Windows Cyrillic + German）希臘語變音符號（英語：Windows Polytonic Greek）
EBCDIC代碼頁	37（英語：Code page 37） EBCDIC中的日文（英語：Japanese language in EBCDIC） DKOI（英語：DKOI）
DEC終端機（VTx（英語：VT220））	MCS（英語：Multinational Character Set） NRCS（英語：National Replacement Character Set）加拿大法文（英語：Code page 1020）瑞士文（英語：Code page 1021）西班牙文（英語：Code page 1023）英國英文（英語：Code page 1101）荷蘭文（英語：Code page 1102）芬蘭文（英語：Code page 1103）法文（英語：Code page 1104）挪威文／丹麥文（英語：Code page 1105）瑞典文（英語：Code page 1106）挪威文／丹麥文（替代）（英語：Code page 1107） 8位元希臘文（英語：Code page 1287） 8位元土耳其文（英語：Code page 1288） SI 960（英語：SI 960）希伯來文（英語：DEC Hebrew）特殊圖形（英語：DEC Special Graphics）技術（英語：DEC Technical Character Set）
特定平臺	1057（英語：Code page 1057） Acorn（英語：RISC OS character set） Adobe標準（英語：PostScript Standard Encoding） Adobe Latin 1（英語：PostScript Latin 1 Encoding） Amstrad CPC（英語：Amstrad CPC character set） Apple II（英語：Apple II character set）雅達利資訊交換標準碼（英語：ATASCII）雅達利ST（英語：Atari ST character set） BICS（英語：Bitstream International Character Set）卡西歐計算機（英語：Casio calculator character sets） CDC（英語：CDC display code） Compucolor II（英語：Compucolor II character set） CP/M+（英語：Amstrad CP/M Plus character set） DEC RADIX 50（英語：DEC RADIX 50） DEC MCS（英語：Multinational Character Set）/NRCS（英語：National Replacement Character Set） DG國際（英語：DG International） Fieldata（英語：Fieldata） GEM（英語：GEM character set） GSM 03.38（英語：GSM 03.38） HP Roman（英語：HP Roman） HP FOCAL（英語：FOCAL character set） HP RPL（英語：RPL character set） SQUOZE（英語：SQUOZE） LICS（英語：Lotus International Character Set） LMBCS（英語：Lotus Multi-Byte Character Set） MSX（英語：MSX character set） NEC APC（英語：NEC APC character set） NeXT（英語：NeXT character set） PETSCII（英語：PETSCII） SEGA SC-3000（英語：Sega SC-3000 character set）夏普計算機（英語：Sharp pocket computer character sets）夏普MZ（英語：Sharp MZ character set）辛克萊QL（英語：Sinclair QL character set）符號電傳文訊（英語：Teletext character set）德州儀器計算機（英語：TI calculator character sets） TRS-80（英語：TRS-80 character set）文圖拉國際（英語：Ventura International） WISCII（英語：Wang International Standard Code for Information Interchange） XCCS（英語：Xerox Character Code Standard） ZX80（英語：ZX80 character set） ZX81（英語：ZX81 character set） ZX Spectrum（英語：ZX Spectrum character set）
Unicode及通用字符集	UTF-1 UTF-7 UTF-8 UTF-16 UTF-32 UTF-EBCDIC（英語：UTF-EBCDIC） GB 18030 BOCU-1 CESU-8 SCSU TACE16（英語：Tamil All Character Encoding） Unicode編碼比較（英語：Comparison of Unicode encodings）
TeX排版系統	科克（英語：Cork encoding） LY1（英語：LY1 encoding） OML（英語：OML encoding） OMS（英語：OMS encoding） OT1（英語：OT1 encoding）
其他代碼頁	ABICOMP（英語：ABICOMP character set） ASMO 449（英語：ASMO 449）大五碼 APL符號數位編碼（英語：Digital encoding of APL symbols） ISO-IR-68（英語：ISO-IR-68） ARIB STD-B24 HZ（英語：HZ (character encoding)） IEC-P27-1（英語：IEC-P27-1） INIS 7位元（英語：INIS character set） INIS-8（英語：8位元） ISO-IR-169（英語：ISO-IR-169） ISO 2033（英語：ISO 2033） KOI -R -RU（英語：KOI8-RU） -U 今昔文字鏡 SEASCII（英語：Stanford Extended ASCII） Stanford/ITS（英語：Stanford/ITS character set） TRON（英語：TRON (encoding)）統合韓文代碼（英語：Unified Hangul Code）
控制字符	摩斯電碼專用代碼（英語：Prosigns for Morse code） C0與C1控制字符 ISO/IEC 6429 JIS X 0211（英語：JIS X 0211） Unicode控制字符空白字元
相關條目	CCSID（英語：CCSID） HTML字符編碼字符集探測中日韓統一表意文字硬件代碼頁（英語：Hardware code page）磁性墨水字元識別碼（英語：Magnetic ink character recognition）亂碼中文亂碼可變寬度編碼
字元集