UTF-7

UTF-7（全稱：7位元Unicode轉換格式）是一種可變長度字元編碼方式，用以將Unicode字元以ASCII編碼的字元串來呈現，可以應用在電子郵件傳輸之類的應用。

SMTP為基本的電子郵件傳輸標準之一，其指明了傳輸格式為US-ASCII，並且不允許超過ASCII所定義的字元範圍以外的位元值，也就是說八位元的字串將無法正常的被傳輸。MIME（RFC 2045 ~ 2049）擴展了網路郵件以支援不同的媒體類型以及字元集，包含UTF-8與UTF-16的字元集皆可被指定使用。但由於MIME並未明確將Unicode定義為可支援的字元集，並且也沒有說明其應如何編碼，這使得既有的SMTP傳輸架構下仍舊無法保證可正確的處理8位元資料。base64編碼也有其問題，例如甚至連純英文的US-ASCII字元也可能會變成不可辨認；至於像是UTF-8與quoted-printable的編碼結合，則需要6～9個位元來為非ASCII的字元（Unicode的基本多文種平面中定義的字元）進行編碼，至於在基本多文種平面（BMP）以外的字原則需要多達12位元的長度才能完成編碼。

簡介

UTF-7首次被提出是在一個實驗性的通訊協定裏（RFC 1642，A Mail-Safe Transformation Format of Unicode），這份RFC（Request for Comments）提案後來因RFC 2152的提出而被取代（RFC 2152本身為新聞型（informational）的文案）。在RFC 2152當中明確的指出該份RFC本身不為網際網路的標準做出任何明確的定義（明列於文案前頭的Status of this Memo）。儘管這份RFC 2152在IANA（Internet Assigned Numbers Authority）的字元集列表裏被引述為UTF-7，然而UTF-7本身並非Unicode的標準之一，即使在目前最新的Unicode 5.0裏也僅列出UTF-8、UTF-16和UTF-32。

如同引言所提到的，由於在過去SMTP的傳輸僅能接受7位元的字元，而當時Unicode並無法直接滿足既有的SMTP傳輸限制，在這樣地背景下UTF-7被提出。嚴格來說UTF-7不能算是Unicode所定義的字元集之一，較精確的來說，UTF-7是提供了一種將Unicode轉換為7位元US-ASCII字元的轉換方式。

有些字元本身可以直接以單一的ASCII字元來呈現。第一個群組被稱作「direct characters」，其中包含了62個數字與英文字母，以及包含了九個符號字元：' ( ) , - . / : ?。這些「direct characters」被認為可以很安全的直接在文件裡呈現。另一個主要的群組稱作「optional direct characters」，其中包含了所有可被列印的字元，這些字元在U+0020～U+007E之間，除了~ \ +和空白字元以外。這些「optional direct characters」的使用雖可減少空間的使用也可增加人的可閱讀性，但卻會因為一些不良設計的郵件閘道而會產生一些錯誤，導致必須使用額外的跳脫字元。

空白字元、Tab字元、以及換行字元一般雖也可直接是為單一的ASCII字元來使用，然而，若是郵件中有使用了編碼過的字串，則必須特別注意這些字元有無被使用在其他地方。而加號字元+的一種編碼方式可以是+-。

其他的字元則必須被編碼成UTF-16然後轉換為修改的Base64。這些區塊的開頭會以+符號來標示，結尾則以任何不在Base64裡定義的字元來標示。若是在Base64區塊之後使用-(連字暨減號)標示為結束的話，則解碼器會從下個字元繼續解碼，反之則用此字元當非Base64的區塊的開頭繼續解碼。

範例

"Hello, World!"會被編碼為"Hello, World!"
"1 + 1 = 2"會被編碼為"1 +- 1 +AD0 2"
"£1"會被編碼為"+AKM-1".第一個字元£（英鎊的符號）的Unicode碼為U+00A3（在UTF-16即為00A3₁₆），接著轉換至修改的Base64格式，如同下表。表中可見有兩個位元多了出來，被以0填補上。

16進位碼	0				0				A				3
2進位碼	0	0	0	0	0	0	0	0	1	0	1	0	0	0	1	1	0	0
索引	0						10						12
Base64編碼	A						K						M

手動編碼與解碼UTF-7的演算法

編碼

首先必須先決定哪些字元呈現為ASCII格式，哪些字元呈現在Unicode區塊。簡單的編碼器可以假設所有的字元皆可以很安全的被直接編碼。然而要將原本屬於Unicode區塊的字元視為ASCII來加以編碼的代價是需要額外的2⅔字元。

Unicode序列一旦被認定後，其必須以下面的程序來加以編碼，併以適當的符號加以標註：

我們將使用£† (0x00A3) (0x2020)字元序列來作為以下的範例。

將字元的Unicode數值 (UTF-16)以二進位呈現：
0x00A3 → 0000 0000 1010 0011
0x2020 → 0010 0000 0010 0000
將二進位序列合併
0000 0000 1010 0011 及 0010 0000 0010 0000 → 0000 0000 1010 0011 0010 0000 0010 0000
重新將二進位序列編組，以六位數為一組，由左開始：
0000 0000 1010 0011 0010 0000 0010 0000 → 000000 001010 001100 100000 001000 00
如果最後一組小於六位數，則不足的位數以0補足尾數：
0000 0000 1010 0011 0010 0000 0010 0000 → 000000 001010 001100 100000 001000 000000
將每一組六位數的數值以對應的Base64碼取代：
000000 001010 001100 100000 001000 000000 → AKMgIA

解碼

首先訊息必須被拆分到純文字與Unicode區塊，緊接著Unicode區塊必須以下面的程序來進行解譯（使用上面提到的範例）：

將每一個Base64碼以二進位序列來描述，如下：
AKMgIA → 000000 001010 001100 100000 001000 000000
重新將二進位編組，以使其16位數一組，從左開始：
000000 001010 001100 → 0000000010100011 0010000000100000 0000
若有其中一組無法完全編成16位數一組，則先排除它：
0000000010100011 0010000000100000
每一個16位元的一組二進位碼為Unicode（UTF-16）的數字字元並且可以被改寫為如下：
0000 0000 1010 0011 ≡ 0x00A3 ≡ 163₁₀

安全性

UTF-7由於允許將相同來源的字串從base64的模式被平移，而顯得安全性薄弱。現今的郵件與傳輸方式由於都已支援UTF-8，UTF-7則已走入歷史而很少再被使用。即便如此，現今的應用軟體仍應更加考量支援更安全的編碼方式。

然而，除了郵件傳輸之外，仍有不少傳輸是採用UTF-7編碼來進行傳輸。近期較著名的安全漏洞發生於Google的搜尋漏洞^[1]，該漏洞肇因於不當的使用UTF-7編碼於網址資訊上，遠端的攻擊將可讀取或修改網頁內容。

尚未被完整開發的UTF-6和UTF-5

有些可應用於電信電報領域的UTF-6和UTF-5提案已經被提出^[2]^[3]，然而，截至2006年止，這些提案尚未被正式的制定出來。

這些提案與Punycode並無相關。

參考

^ http://www.kb.cert.org/vuls/id/989144 （頁面存檔備份，存於網際網路檔案館）, Vulnerability Note VU#989144, Google Mini and Google Search Appliance vulnerable to cross-site scripting
^ Seng, James, UTF-5, a transformation format of Unicode and ISO 10646 （頁面存檔備份，存於網際網路檔案館）, 28 Jan 2000, retrieved 23 Aug 2007
^ Welter, Mark; Brian W. Spolarich, WALID, Inc. UTF-6 - Yet Another ASCII-Compatible Encoding for IDN. Internet Engineering Task Force (IETF) INTERNET-DRAFT. The Internet Society. 2000-11-16 [2007-08-28]. （原始內容存檔於2021-04-28）.

閱論編字元編碼
早期電信	電報電碼（英語：Telegraph code）庫克與惠斯通（英語：Cooke and Wheatstone telegraph）摩斯非拉丁字母（英語：Morse code for non-Latin alphabets）日文（英語：Wabun code）中文西里爾字母（英語：Russian Morse code）韓文（英語：SKATS）博多與莫瑞 Fieldata（英語：Fieldata） ASCII ISO/IEC 646 BCDIC（英語：BCD (character encoding)）電傳文訊（英語：Teletex）與電傳視訊（英語：Videotex）／電視資訊 T.51/ISO/IEC 6937（英語：T.51/ISO/IEC 6937） ITU T.61（英語：ITU T.61） ITU T.101（英語：Videotex character set）世界系統電傳文訊（英語：World System Teletext）字元集（英語：Teletext character set）
ISO/IEC 8859	現行 -1（西歐語言） -2（中歐語言） -3（馬爾他文／世界文） -4（北歐語言） -5（西里爾字母） -6（阿拉伯文） -7（希臘文） -8（希伯來文） -9（土耳其文） -10（北日耳曼語支） -11（泰文） -13（波羅的語族） -14（凱爾特語族） -15（新西歐語言） -16（羅馬尼亞文）廢止 -12（梵文）提議 KOI-8西里爾字母（英語：ISO-IR-111）薩米文（英語：ISO-IR-197）改編威爾斯文（英語：ISO-IR-182）巴倫支西里爾字母（英語：ISO-IR-200）愛沙尼亞文（英語：Code page 922）烏克蘭西里爾字母（英語：Code page 1124）
書目	MARC-8（英語：MARC-8） ANSEL（英語：ANSEL）中文資訊交換碼 ISO 5426（英語：ISO 5426） ISO 5427（英語：ISO 5427） ISO 5428（英語：ISO 5428） ISO 6438 ISO 6862（英語：ISO 6862）
國家標準	ArmSCII BraSCII（英語：BraSCII）中文標準交換碼 DIN 66003（英語：DIN 66003） ELOT 927（英語：ELOT 927） GOST 10859（英語：GOST 10859） GB 2312 GB 12052 GB 18030 HKSCS ISCII JIS X 0201 JIS X 0208 JIS X 0212（英語：JIS X 0212） JIS X 0213（英語：JIS X 0213） KOI-7（英語：KOI-7） KPS 9566 KS X 1001 KS X 1002（英語：KS X 1002） LST 1564（英語：LST 1564） LST 1590-4（英語：LST 1590-4） PASCII Shift JIS SI 960（英語：SI 960） TIS-620（英語：Thai Industrial Standard 620-2533） TSCII VISCII（英語：VISCII） VSCII YUSCII（英語：YUSCII）
ISO/IEC 2022	ISO/IEC 8859 ISO/IEC 10367（英語：ISO/IEC 10367） EUC ISO-IR-165
macOS代碼頁	亞美尼亞文（英語：Mac OS Armenian）阿拉伯文巴倫支西里爾字母（英語：Mac OS Barents Cyrillic）凱爾特語族（英語：Mac OS Celtic）中歐語言克羅埃西亞文（英語：Mac OS Croatian encoding）西里爾字母（英語：Mac OS Cyrillic encoding）梵文波斯文（英語：MacFarsi encoding）字體X（英語：Macintosh Font X encoding）蓋爾文（英語：Mac OS Gaelic）喬治亞文（英語：Mac OS Georgian）希臘文（英語：MacGreek encoding）古吉拉特文（英語：Mac OS Gujarati）古木基文（英語：Mac OS Gurmukhi）希伯來文（英語：Mac OS Hebrew）冰島文（英語：Mac OS Icelandic encoding）因紐特文（英語：Mac OS Inuit）鍵盤（英語：Mac OS Keyboard encoding）拉丁文（英語：Macintosh Latin encoding）馬爾他文／世界文（英語：Mac OS Maltese/Esperanto encoding）歐甘字母（英語：Mac OS Ogham）羅曼語族羅馬尼亞文（英語：Mac OS Romanian encoding）薩米文（英語：Mac OS Sámi）土耳其文（英語：Mac OS Turkish encoding）土耳其西里爾字母（英語：Mac OS Turkic Cyrillic）烏克蘭文（英語：Mac OS Ukrainian encoding） VT100（英語：VT100 encoding）
DOS代碼頁	437 668（英語：Code page 668） 708（英語：Code page 708） 720（英語：Code page 720） 737（英語：Code page 737） 770（英語：Code page 770） 773（英語：Code page 773） 775（英語：Code page 775） 776（英語：Code page 776） 777（英語：Code page 777） 778（英語：Code page 778） 850（英語：Code page 850） 851（英語：Code page 851） 852（英語：Code page 852） 853（英語：Code page 853） 855（英語：Code page 855） 856（英語：Code page 856） 857（英語：Code page 857） 858（英語：Code page 858） 859（英語：Code page 859） 860（英語：Code page 860） 861（英語：Code page 861） 862（英語：Code page 862） 863（英語：Code page 863） 864（英語：Code page 864） 865（英語：Code page 865） 866（英語：Code page 866） 867（英語：Code page 867） 868（英語：Code page 868） 869（英語：Code page 869） 897（英語：Code page 897） 899（英語：Code page 899） 903（英語：Code page 903） 904（英語：Code page 904） 932（英語：Code page 932 (IBM)） 936（英語：Code page 936 (IBM)） 942（英語：Code page 942） 949（英語：Code page 949 (IBM)） 950 951（英語：Code page 951） 1040（英語：Code page 1040） 1042（英語：Code page 1042） 1043（英語：Code page 1043） 1046（英語：Code page 1046） 1098（英語：Code page 1098） 1115（英語：Code page 1115） 1116（英語：Code page 1116） 1117（英語：Code page 1117） 1118（英語：Code page 1118） 1127（英語：Code page 1127） 3846（英語：Code page 3846） ABICOMP（英語：ABICOMP character set） CS Indic（英語：CS Indic character set） CSX Indic（英語：CSX Indic character set） CSX+ Indic（英語：CSX+ Indic character set） CWI-2（英語：CWI-2）伊朗系統（英語：Iran System encoding）卡梅尼茨（英語：Kamenický encoding）馬索維亞（英語：Mazovia encoding） MIK（英語：MIK (character set)）
IBM AIX代碼頁	895（英語：Code page 895） 896（英語：Code page 896） 912（英語：Code page 912） 915（英語：Code page 915） 921（英語：Code page 921） 922（英語：Code page 922） 1006（英語：Code page 1006） 1008（英語：Code page 1008） 1009（英語：Code page 1009） 1010（英語：Code page 1010） 1012（英語：Code page 1012） 1013（英語：Code page 1013） 1014（英語：Code page 1014） 1015（英語：Code page 1015） 1016（英語：Code page 1016） 1017（英語：Code page 1017） 1018（英語：Code page 1018） 1019（英語：Code page 1019） 1124（英語：Code page 1124） 1133（英語：Code page 1133）
Microsoft Windows代碼頁（英語：Windows code page）	CER-GS（英語：CER-GS） 932（英語：Code page 932 (Microsoft Windows)） 936 GBK 950 1169（英語：Code page 1169） Extended Latin-8（英語：Extended Latin-8） 1250（英語：Windows-1250） 1251（英語：Windows-1251） 1252 1253（英語：Windows-1253） 1254（英語：Windows-1254） 1255（英語：Windows-1255） 1256（英語：Windows-1256） 1257（英語：Windows-1257） 1258（英語：Windows-1258） 1270（英語：Windows-1270）西里爾字母+芬蘭文（英語：Windows Cyrillic + Finnish）西里爾字母+法文（英語：Windows Cyrillic + French）西里爾字母+德文（英語：Windows Cyrillic + German）希臘語變音符號（英語：Windows Polytonic Greek）
EBCDIC代碼頁	37（英語：Code page 37） EBCDIC中的日文（英語：Japanese language in EBCDIC） DKOI（英語：DKOI）
DEC終端機（VTx（英語：VT220））	MCS（英語：Multinational Character Set） NRCS（英語：National Replacement Character Set）加拿大法文（英語：Code page 1020）瑞士文（英語：Code page 1021）西班牙文（英語：Code page 1023）英國英文（英語：Code page 1101）荷蘭文（英語：Code page 1102）芬蘭文（英語：Code page 1103）法文（英語：Code page 1104）挪威文／丹麥文（英語：Code page 1105）瑞典文（英語：Code page 1106）挪威文／丹麥文（替代）（英語：Code page 1107） 8位元希臘文（英語：Code page 1287） 8位元土耳其文（英語：Code page 1288） SI 960（英語：SI 960）希伯來文（英語：DEC Hebrew）特殊圖形（英語：DEC Special Graphics）技術（英語：DEC Technical Character Set）
特定平臺	1057（英語：Code page 1057） Acorn（英語：RISC OS character set） Adobe標準（英語：PostScript Standard Encoding） Adobe Latin 1（英語：PostScript Latin 1 Encoding） Amstrad CPC（英語：Amstrad CPC character set） Apple II（英語：Apple II character set）雅達利資訊交換標準碼（英語：ATASCII）雅達利ST（英語：Atari ST character set） BICS（英語：Bitstream International Character Set）卡西歐計算機（英語：Casio calculator character sets） CDC（英語：CDC display code） Compucolor II（英語：Compucolor II character set） CP/M+（英語：Amstrad CP/M Plus character set） DEC RADIX 50（英語：DEC RADIX 50） DEC MCS（英語：Multinational Character Set）/NRCS（英語：National Replacement Character Set） DG國際（英語：DG International） Fieldata（英語：Fieldata） GEM（英語：GEM character set） GSM 03.38（英語：GSM 03.38） HP Roman（英語：HP Roman） HP FOCAL（英語：FOCAL character set） HP RPL（英語：RPL character set） SQUOZE（英語：SQUOZE） LICS（英語：Lotus International Character Set） LMBCS（英語：Lotus Multi-Byte Character Set） MSX（英語：MSX character set） NEC APC（英語：NEC APC character set） NeXT（英語：NeXT character set） PETSCII（英語：PETSCII） SEGA SC-3000（英語：Sega SC-3000 character set）夏普計算機（英語：Sharp pocket computer character sets）夏普MZ（英語：Sharp MZ character set）辛克萊QL（英語：Sinclair QL character set）符號電傳文訊（英語：Teletext character set）德州儀器計算機（英語：TI calculator character sets） TRS-80（英語：TRS-80 character set）文圖拉國際（英語：Ventura International） WISCII（英語：Wang International Standard Code for Information Interchange） XCCS（英語：Xerox Character Code Standard） ZX80（英語：ZX80 character set） ZX81（英語：ZX81 character set） ZX Spectrum（英語：ZX Spectrum character set）
Unicode及通用字符集	UTF-1 UTF-7 UTF-8 UTF-16 UTF-32 UTF-EBCDIC（英語：UTF-EBCDIC） GB 18030 BOCU-1 CESU-8 SCSU TACE16（英語：Tamil All Character Encoding） Unicode編碼比較（英語：Comparison of Unicode encodings）
TeX排版系統	科克（英語：Cork encoding） LY1（英語：LY1 encoding） OML（英語：OML encoding） OMS（英語：OMS encoding） OT1（英語：OT1 encoding）
其他代碼頁	ABICOMP（英語：ABICOMP character set） ASMO 449（英語：ASMO 449）大五碼 APL符號數位編碼（英語：Digital encoding of APL symbols） ISO-IR-68（英語：ISO-IR-68） ARIB STD-B24 HZ（英語：HZ (character encoding)） IEC-P27-1（英語：IEC-P27-1） INIS 7位元（英語：INIS character set） INIS-8（英語：8位元） ISO-IR-169（英語：ISO-IR-169） ISO 2033（英語：ISO 2033） KOI -R -RU（英語：KOI8-RU） -U 今昔文字鏡 SEASCII（英語：Stanford Extended ASCII） Stanford/ITS（英語：Stanford/ITS character set） TRON（英語：TRON (encoding)）統合韓文代碼（英語：Unified Hangul Code）
控制字符	摩斯電碼專用代碼（英語：Prosigns for Morse code） C0與C1控制字符 ISO/IEC 6429 JIS X 0211（英語：JIS X 0211） Unicode控制字符空白字元
相關條目	CCSID（英語：CCSID） HTML字符編碼字符集探測中日韓統一表意文字硬體代碼頁（英語：Hardware code page）磁性墨水字元識別碼（英語：Magnetic ink character recognition）亂碼中文亂碼可變寬度編碼
字元集

簡介

範例

手動編碼與解碼UTF-7的演算法

編碼

解碼

安全性

尚未被完整開發的UTF-6和UTF-5

參考

相關條目