帮助:中文维基百科的繁简、地区词处理/转换原理


主页	讨论

本页简单介绍1.4版软件的繁简转换原理，以使大家可以有效处理转换时遇到的错误。

与分词的关系

转换程序使用最简单的“最大匹配”法进行转换。这会导致如下的错误：假设转换词库中有一对应关系为

内存 => 記憶體

现对以下句子转换

人体内存在很多微生物

基于最大匹配，系统会对“内存”进行转换，得到“記憶體”。整个句子将会被错误地转换成

人體記憶體在很多微生物

解决这个问题的根本方法是采用智慧的分词匹配，将上述句子先拆分为

人体 内 存在 很多 微生物

然后再对每个词单独转换。

在分词系统实现之前，要修正上述错误，可以有两种方法：

由于我们允许在同一文章内繁简体混用，因而不可能判断一个词其原型是繁体还是简体。这就需要在繁体／简体用字相同的情况下，同时定义两条转换关系。例如：“電影集團”（繁）应转成“电影集团”（简），注意这里需要特殊转换的是“影集”，因其默认转换为“电视系列剧”。那么在转换表中，我们要有两条对应：

電影集團=>电影集团
电影集团=>電影集團

这是因为简体用户会直接写“电影集团”，如果没有第二条转换关系的话，在简体显示下会变成“电电视系列剧团”。

“影集电视系列剧电影集团電影集團”在您的显示模式下效果为：影集电视系列剧电影集团电影集团