汉英机器翻译系统英文生成中的一种选词模型研究

来源 :厦门大学 | 被引量 : 0次 | 上传用户:cxxxcs
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文提出了一种用于汉英机器翻译的英文生成选词模型,该模型结合基于语义模式和基于实例与统计的选词方法,利用词汇语义搭配知识,有效处理了英文生成选词问题。 选词模型中,基于语义模式匹配的选词算法用来完成词汇初选工作,目的是减少候选词集的规模以降低后继选词步骤的工作量。其基本思路是:对候选集所包含每个词,先从事先构建好的模式库中查出其相应的语义模式,再将中间语言中待确定译文词的词汇概念周边语义槽的具体值与语义模式对应的语义槽限制条件值进行比较,并根据它们的匹配情况计算该词被选中的可能性,最终选择最有可能的词作为选词结果。本文除了用算法实现了该思路,还介绍了用作模式匹配的语义模式库的构建过程,其间,文章提出了语义模式自动训练的模式库构建方式和模糊语义模式的概念,从模式库构建的角度给出了语义模式匹配选词法的改进策略。 基于实例比较和统计的选词算法用来实现对候选词的进一步筛选,是选词模型的主要选词依据。该算法以待确定译文词的词汇概念之周边语义槽具体值与候选词相应实例对应语义槽值的语义近似度计算为基础,根据由这些近似度确定的该候选词的相关统计指标进行选词。算法中用以比较的实例从经语义标注的语料库里抽取而得,为解决语料库的语义标注形式与实际实例中词义应有的语义表现形式不一致的问题,本文在介绍实例抽取的过程时提出并详细介绍了从WordNet到知网的词义映射算法。 全文共分为五章: 第一章是绪论,概述了机器翻译研究的重要意义以及基于中间语言的机器翻译系统中生成模块研究的重要性;提出了本文的研究课题——生成选词问题,并简要比较了不同系统对该问题的处理方式:最后列出了本文的工作要点。 第二章是系统结构和基础知识,提出了选词模型的总体思路,简要介绍其系统结构;并对中间语言表示方法及基于知网的语义计算模型等有关基础知识进行了介绍。 第三章花了大量篇幅集中介绍了支持选词的数据资源之构建情况,包括实例库的构建和语义模式库的构建。其中着重介绍了从WordNet到知网的词义映射算法、模糊语义模式自动训练算法等内容。 第四章是选词模型的算法实现,包括对基于模糊语义模式匹配的选词算法以及基于实例比较和统计的选词语算法的介绍。本章最后还提供了对反语义模式和反例及其在生成选词问题中的可能应用的讨论。 第五章总结了本文的主要工作,讨论本文研究的主要特色,并提出进一步工作的设想。
其他文献
1885年,电话的发明革命性地改变了人们的通讯手段,率先使用电话的是一些目光敏锐的实业家,微小的投资带来了难以估量的丰厚回报。一个世纪后的今天,一种新型的覆盖全球、传播
针对研发项目的高度不确定性使得传统的评价与决策方法不再适用于R&D项目的投资决策问题,采用生产函数中的技术效率参数描述技术水平.并考虑投资成本对技术升级水平的影响,建
生物种质资源是人类发展的物质基础。我国目前已拥有自然保护区、种质资源库等518家保藏机构,对我国生物种质资源的收集、保存、利用起到了关键的作用。实验技术人才队伍在生
目的:观察艾灸会阴穴加体针治疗外阴营养不良的临床疗效。方法:将60例外阴营养不良患者随机分为治疗组和对照组,每组30例。治疗组采用艾灸会阴穴加体针治疗,对照组采用传统药
【正】 一张秀云是一个来自贵州毕节地区的山村村妇,带着一个残疾丈夫和一个3岁儿子在广州混日子,几度险些沦为乞丐,但冷不丁就发财了,居然还有3万元的月入,几乎让她的一些邻
本文分析了民族高校出版社编辑的职业特点,指出了不同于其他出版社编辑的素质要求,同时说明了作为编辑同行所具有的共性,认为出版社编辑只有在诸多业务领域中塑好自身的角色形象
【正】 小引走进白云山,总感到有一种挺进的急剧的旋律;每次和白云山企业集团公司董事长、总经理贝兆汉交谈,都会强烈地感到一阵阵超前决断的旋风迎山而来。这里充满着神秘的
【正】 改革开放以来,特别是近几年,肇庆广大干部和群众大力加强农业,向滩途、荒山进军,实行科学种田,抓好商品粮基地建设,充实"米袋子",丰富"菜篮子",筑好"水坝子",大力发展
期刊
<正>高校体育教学关涉到大学生的身心健康和国民体质,高校一直重视大学生的体育教学,作为高校体育教师通过科学合理的体育教学设计,才能真正提高课堂教学水平。由杨雪芹撰写