统计机器翻译中翻译知识优化方法研究

被引量 : 0次 | 上传用户:allenchang98
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现有统计机器翻译系统对于大规模训练语料有着较强的依赖性,原因在于:大规模双语训练语料往往蕴含丰富的翻译知识和语言知识,对于翻译模型和目标语言模型都有着积极的指导作用。然而,随着训练语料规模的增长,往往会出现如下一种无法回避的负面问题:翻译知识中存在着冗余信息和错误信息,误导翻译模型和语言模型的学习与应用。为此,本文集中研究了统计机器翻译中翻译知识的优化问题,并提出解决这一问题的新方法,主要研究内容归纳如下:训练语料选择本文以训练语料的质量为评价标准,提出了基于分类的平行语料选择方法。利用句对特征的排序结果构建区分性较大的正负例句对,然后使用上述区分性较大的句对训练分类器,最后借助分类器自动地进行语料质量判定分类工作。判定完语料质量后,仅选择语料质量好的句对作为机器翻译系统的训练语料。在大规模语料上进行的实验表明本文所提方法能比基准系统高出0.87个BLEU点。翻译知识中噪音的过滤针对口语翻译系统中实词翻译丢失的问题,本文选择在层次短语模型上开展研究。针对层次短语模型特点,本文提出一种启发式的短语表(翻译知识)过滤方法。该方法有效地将一些含有实词翻译丢失现象的噪音短语进行排除。本文选择在口语翻译任务上进行实验,实验结果表明本方法能在有效缓解实词翻译丢失问题的同时提高BLEU值。翻译知识中主题信息的融合本文选择在调序模型中融入主题信息。首先,利用主题模型估计训练语料的主题信息,然后使用设计的主题信息特征模板抽取含有主题信息的调序实例,使用抽取出的调序实例训练调序模型。最后我们将融合文档主题信息的调序模型集成到机器翻译系统中,并设计出该系统的翻译解码过程。在大规模语料上的实验证明了本文所提方法的有效性。
其他文献
我国残疾人有8300余万人,影响到家庭人口2.6亿,其中广东残疾人有539.9万,直接影响近2000万家庭人口。现阶段,我国物质文明建设已取得长足的发展与进步,公共文化的概念开始频
图像拼接就是将两张或多张存在一定重叠区域的图像拼接在一起,形成一幅完整的大视野图像。图像拼接技术在摄影测量学、计算机视觉、遥感图像处理、医学图像分析、计算机图形
目的:2型糖尿病在老年人群中发病率逐年上升,由此造成的脑部小血管病变成为引起老年人神经功能损害的重要因素。本研究利用应用常规磁共振序列及磁敏感加权成像(SWI)技术,无创伤
在现代卫星通信系统中,现存的可用频谱资源已十分有限,超宽带高速传输必然要采用更高频率传输。目前的宽带卫星通信业务基本是使用Ku频段,以至于Ku频段的应用已经十分拥挤,故近来
目的通过对兰州市急救网络覆盖区域的各急救分站现有急救资源的调查、兰州市院前急救出诊病例的流行病学特征分析,研究了解兰州市院前急救服务现状,并通过对院前出诊病例患者
目的:o了解南宁部分高效大学生(19-29岁)性生活中知识态度性健康现状o确定影响大学身性健康知识态度行为各要素之间的关系方法:1.研究对象:为比较不同专业学生的情况,本研究特选
目的通过回顾性研究探讨普通支持钢板与锁定钢板治疗复杂型胫骨平台骨折的疗效。方法回顾性分析2005年5月-2012年5月间分别单独应用普通支持钢板和锁定钢板内固定治疗复杂型
使用上海1873—2006年共134年冬季气温资料和1961—2004年NCEP/NCAR再分析资料,分析了上海冬季气温的变化特征及其可能成因。结果表明,百余年来上海冬季气温有3次明显的增温
北京的CBD(商务中心区),是北京走向现代国际大都市的象征,其具体的特点体现为:全新、高耸、丰裕、时尚。CBD的意义,在一系列关联中,如在北京的整体之中,即在与北京作为世界著
目的 探讨膝关节镜下治疗半月板损伤的近期疗效。方法 总结 116例患者诊断及治疗情况 ,分析其近期治疗效果。结果 术后 92例患者获得随访 ,平均随访时间 12个月 ,疗效评价