字形輸入法
在漢字輸入法中,完全依據漢字的筆畫和字形特徵進行編碼的輸入法稱為字形輸入法、形碼輸入法或形碼,典型的如倉頡輸入法、嘸蝦米輸入法、大易輸入法、五筆字型輸入法、鄭碼輸入法、表形碼和行列輸入法等等。最簡單的筆畫輸入法、筆順輸入法也是形碼輸入法。
特色
形碼輸入法,會把漢字若干的簡單筆畫、部件或形塊,列為「字根」,然後由字根組合拼砌成整個漢字的字形。按輸入法規則,順序輸入構成該漢字字形的字根,就可以打出該漢字。爲免輸入碼過長,通常也有規則說明如何省略若干的字根,保留好些字根。
由於標準鍵盤鍵位有限,多數形碼輸入法會把若干有關係的字根歸進同一鍵中。該鍵的代表字根,一般稱爲主要字根或主根,而歸進主根麾下的字根,則稱輔助字根或輔根。大多數形碼輸入法,主根與輔根之間,或同一主根麾下的各輔根之間,都在字形特徵上有某些相似關係。例如倉頡輸入法、大易輸入法強調字根之間的視覺關聯;行列輸入法重視字根起筆、收筆筆形;五筆字型輸入法依字根的起筆分區;鄭碼輸入法則把字根分區碼及位碼,除了約30個純區位字根外,其他字根都嘗試歸作區碼加位碼的形式,同區碼的字根會有某些字形共通點。
然而也有形碼輸入法是例外的,例如嘸蝦米輸入法,除了某些字根因外形與主鍵的英文字母形狀相像(官方聲像們「形」似),或與該鍵其他字根外形相似(官方稱「搖頭擺尾」)而歸鍵外,還有不少字根因讀音相似(某些取官話,某些取台灣閩南語,並不包括粵語等其他漢語語言)或英譯而歸根。
其他特色
字形輸入法 | 時間 | 輔助字根數 | 大五碼重碼率[1] 共5401個常用字 |
GB18030 共27533條字中: | Unicode |
---|---|---|---|---|---|
倉頡輸入法 | 1976年 | 140個(含難字根) | 三代:434÷5401=8.04% | 五代: 690/13356= 5.166% | |
鄭碼 | 1980年 | 約170個 | 不明 | ||
五筆字型輸入法 | 1983年 | 約200個 | 86版最短碼:(5401 - 5264) / 5401 = 2.54% 86版最長碼:(5401 - 5175) / 5401 = 4.18% |
86版: 9715字 (35.28%)
98版:9670字 (35.12%) 新世紀版: 10065字 (36.56%) | |
大易輸入法 | 1988年 | 約250個 | 三碼:2115÷5401=39.16% 四碼:613÷5401=11.35% | ||
嘸蝦米輸入法 | 1989年 | 基本字根約350個 簡速字根約150個 |
2515÷5401=46.57% | ||
行列輸入法 | 1992年 | 超過300個 | 三十:1064÷5401=19.70% |
形碼輸入法由於依據漢字的筆畫和字形特徵編碼,使用者通常必須熟悉漢字的形體才能正確輸入,因此慣用形碼輸入法的使用者通常比使用音碼輸入法不容易遺忘漢字字形或忘記怎麼寫字。
形碼輸入法的重碼率通常比音碼輸入法低很多,大部分都不需也不使用人工智能自動選字。
但由於同一個字的字型眾多,有時顯示的字形和編碼所據的字形不同,而造成取碼容易錯誤,因此使用者有時還須瞭解某些字常見的字型差異,才能正確輸入。例如倉頡輸入法中,據「為」、「溫」、「恒」之形取碼,與據「爲」、「温」、「恆」之形取碼,會有所不同。初學者若不了解,會造成拆碼錯誤。
為便利使用,形碼輸入法大多設有容錯碼、萬用碼以增加輸入法對於異體字的處理能力,有些還設有簡碼以加快輸入速度。
形碼輸入法由於重碼率遠低於音碼,極限打字速度一般來說比智能拼音更快,且更易於實現盲打。但其缺點在於需要記憶、學習和練習一段時間才能熟練使用。因此目前多數專業的文字處理人員習慣用形碼輸入法,普通用戶則大多慣用拼音類型的輸入法輸入漢字。
發展歷程
隨着地理環境交流的發展,漢字輸入法不斷擴充字符集(或包含漢字數),以達到繁體字與簡體字通用的目的。主流形碼輸入法為了解決字符數擴充導致重碼數增加的問題,大都推出了新版字根佈局系統(如98五筆、鄭碼、蒼頡檢字法(倉頡輸入法六代)等),取碼方式及拆字方法沒有變化或變化不大。其中字根佈局系統為了解決字根過多易產生重碼的問題而向字根雙編碼(如鄭碼)及用已有字根組合新字根(如倉頡碼)兩個方向發展;取碼方式及拆字方法則希望可以更多取到字形的整體結構而非僅開頭部分。