Help:中文维基百科的繁简、地区词处理/转换原理
| ||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| ||||||||||||||||
| ||||||||||||||||
| ||||||||||||||||
| ||||||||||||||||
| ||||||||||||||||
| ||||||||||||||||
|
本页简单介绍1.4版软件的繁简转换原理,以使大家可以有效处理转换时遇到的错误。
参看m:Automatic conversion between simplified and traditional Chinese
与分词的关系
转换程序使用最简单的“最大匹配”法进行转换。这会导致如下的错误:假设转换词库中有一对应关系为
内存 => 記憶體
现对以下句子转换
人体内存在很多微生物
基于最大匹配,系统会对“内存”进行转换,得到“記憶體”。整个句子将会被错误地转换成
人體記憶體在很多微生物
解决这个问题的根本方法是采用智能的分词匹配,将上述句子先拆分为
人体 内 存在 很多 微生物
然后再对每个词单独转换。
在分词系统实现之前,要修正上述错误,可以有两种方法:
- 手工将涉及分词错误的词分开:“人体内-{}-存在很多微生物”
- 将涉及分词错误的多个词作为一个整体加到定制转换表裡,如“体内存在 => 體內存在”。
不检测原始字体
由于我们允许在同一文章内繁简体混用,因而不可能判断一个词其原型是繁体还是简体。这就需要在繁体/简体用字相同的情況下,同时定义两条转换关系。例如:“電影集團”(繁)应转成“电影集团”(简),注意这里需要特殊转换的是“影集”,因其默认转换為“电视系列剧”。那么在转换表中,我们要有两条对应:
電影集團=>电影集团 电影集团=>電影集團
这是因为简体用户会直接写“电影集团”,如果没有第二条转换关系的话,在简体显示下会变成“电电视系列剧团”。
「影集 电视系列剧 电影集团 電影集團」在您的顯示模式下效果為:影集 电视系列剧 电影集团 電影集團