论文部分内容阅读
当前国际上使用的汉字包括简体字和繁体字两种形式,大陆和新加坡使用简体字,台湾、香港、澳门和部分海外华人使用繁体字。随着华人圈的交流日渐频繁,这种汉字的差异给交流带来了不少障碍。现有的简繁转换技术在处理简繁一对多转换方面效果不好,为了解决这一问题,作者提出了基于转换表和上下文的汉语简繁文本双向翻译方法。作者之前的研究工作在简繁评测中取得了95.6%的转换准确率,在此基础上将更深入研究一对多简体字转繁体字的转换消歧问题。一对多问题可以看成是一个分类问题,本文提出在简繁转换的一对多问题上使用规则加组合统计模型来解决,所组合的统计模型为SVM(支持向量机)、最大熵模型和贝叶斯模型。为了优化分类效果,作者提出了一种新的文本特征选择方法ADMMR,该方法的特征选择效果和期望交叉熵,卡方检验这两种特征选择方法相当,且经实验表明能够很好地表示文本,在使用同样分类模型的前提下ADMMR比信息增益方法的分类性能要好4%以上;同时提出最大熵模型的特征值使用tf-idf,而不使用0-1值,经过实验表明特征值使用tf-idf可以比使用0-1值的分类性能好2%;作者提出使用ADMMR、期望交叉熵和卡方检验作为文本的特征选择方法,使用tf-idf来量化每一个特征,再用SVM和最大熵模型学习训练数据,这样将得到六个分类模型,再使用贝叶斯模型学习训练数据得到第七个分类模型;前六个模型进行投票选择,获得票数最多的那个类别作为分类结果,如果得票最多的类有2个或2个以上则使用贝叶斯模型辅助判别。实验结果表明组合模型比单独使用SVM、最大熵模型或贝叶斯模型的分类效果都要好,且更稳定。简繁转换问题则采用规则加组合模型的方法:规则是根据词库来将一对多简体字根据词组转换到对应的繁体字;而对于不能成词的3%一对多简体字则采用组合模型;实验表明规则加组合模型的方法能够达到98.5%的准确率,较好地解决了简繁转换中的一对多转换问题。