基于转换表及上下文环境的汉语简繁文本双向翻译

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:tireda
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当前国际上使用的汉字包括简体字和繁体字两种形式,大陆和新加坡使用简体字,台湾、香港、澳门和部分海外华人使用繁体字。随着华人圈的交流日渐频繁,这种汉字的差异给交流带来了不少障碍。现有的简繁转换技术在处理简繁一对多转换方面效果不好,为了解决这一问题,作者提出了基于转换表和上下文的汉语简繁文本双向翻译方法。作者之前的研究工作在简繁评测中取得了95.6%的转换准确率,在此基础上将更深入研究一对多简体字转繁体字的转换消歧问题。一对多问题可以看成是一个分类问题,本文提出在简繁转换的一对多问题上使用规则加组合统计模型来解决,所组合的统计模型为SVM(支持向量机)、最大熵模型和贝叶斯模型。为了优化分类效果,作者提出了一种新的文本特征选择方法ADMMR,该方法的特征选择效果和期望交叉熵,卡方检验这两种特征选择方法相当,且经实验表明能够很好地表示文本,在使用同样分类模型的前提下ADMMR比信息增益方法的分类性能要好4%以上;同时提出最大熵模型的特征值使用tf-idf,而不使用0-1值,经过实验表明特征值使用tf-idf可以比使用0-1值的分类性能好2%;作者提出使用ADMMR、期望交叉熵和卡方检验作为文本的特征选择方法,使用tf-idf来量化每一个特征,再用SVM和最大熵模型学习训练数据,这样将得到六个分类模型,再使用贝叶斯模型学习训练数据得到第七个分类模型;前六个模型进行投票选择,获得票数最多的那个类别作为分类结果,如果得票最多的类有2个或2个以上则使用贝叶斯模型辅助判别。实验结果表明组合模型比单独使用SVM、最大熵模型或贝叶斯模型的分类效果都要好,且更稳定。简繁转换问题则采用规则加组合模型的方法:规则是根据词库来将一对多简体字根据词组转换到对应的繁体字;而对于不能成词的3%一对多简体字则采用组合模型;实验表明规则加组合模型的方法能够达到98.5%的准确率,较好地解决了简繁转换中的一对多转换问题。
其他文献
随着互联网络飞速发展,数据量呈现海量增长,单机存储无法满足需求,分布式存储应运而生并且取得了较大的发展。系统中的数据由于自然灾害、异常故障等原因会遭到破坏,因而需要
在操作系统的设计中,有两种内存分配策略,分别是动态内存分配与静态内存分配。与静态内存分配策略相比,动态内存分配策略允许在运行时动态地申请和释放一定大小的内存,这极大地提
随着当今互联网的不断发展,人们可以轻易获取到海量的多媒体数据。由于具有低存储消耗和快速查询的特征,哈希学习方法已被广泛地应用在多媒体数据的相似搜索中。尤其是多模态
随着汽车行业的迅速发展和汽车用户的逐年增加,交通安全问题已经越来越受到人们的重视。近年来,一种用于监控汽车行进方向范围内行人安全性的车载行人检测系统成为了交通安全领
互联网的发展与竞争愈来愈激烈,不少主流网站纷纷将个性化推荐作为争夺用户和吸引眼球的前沿阵地。相比于百花齐放蓬勃发展的电子商务,新闻作为传统的互联网信息服务,其个性化服
现代社会高节奏、高要求的工作环境决定了现在人们在工作之余还需要进行其他方面的学习,因此兴起了很多有针对性的技能培训。在参加这类培训时,其学习时间安排较灵活,而培训
数据挖掘是一种可以在数据库上挖掘有用信息的技术,这些信息被称为知识,所以数据挖掘又称知识发现。从大量数据中挖掘出的知识可用于决策支持、数据分析等领域,随着数据库的
主动服务是一种全新的、面向用户的Web服务定制方式,它能够自动适应用户的服务需求,在Internet上为用户发现,定制和运行能够满足用户需求的构件程序。构件技术的发展为实现主
有限单元法是现代工程设计和分析的重要数值方法之一,用有限单元法结构分析软件对工程问题进行数值分析己成为大型工程设计必须的环节。但要对这些大型或超大型复杂结构进行有
随着信息化的发展和企业规模的不断扩大,企业内部的信息管理也越来越复杂,敏感度不同的信息需要不同级别的保护,工作流技术的广泛应用更增加了数据安全访问控制的复杂性。在