英汉双向未登录词翻译方法研究

被引量 : 0次 | 上传用户:shwjdbr
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
未登录词翻译一直是机器翻译和跨语言信息检索的重点和难点之一。随着社会信息化和网络的飞速发展,网络上出现层出不穷的新词、术语等,且不能被现有词典一一覆盖。由于新的未登录词的不断出现,传统的未登录词方法中,也因为语料库稀缺等问题而影响翻译的准确率。未登录词的翻译面临着新的挑战。因此,如何正确的翻译这些未登录词成为自然语言处理中一个重要的研究难题。未登录词翻译一直是自然语言处理领域研究的重点问题。传统的翻译方法主要有基于音译和基于语料库的方法,但都共同面临着语料库稀缺的问题。目前,随着网络信息资源越来越丰富,研究者们逐渐提出基于网络资源的翻译方法,这种方法关键在于是如何快速的获取翻译语料、准确定位翻译候选以及翻译候选评估。但现有方法中,存在翻译候选特征表示不全面以及评估方法过于简单的问题。本文在分析传统未登录词翻译方法和现有基于网络资源翻译方法的基础上,提出一种融合网络挖掘、多特征表示和有监督学习的英汉双向未登录词翻译方法。根据本文提出的方法,整个英汉双向未登录词翻译系统可以分成三个部分:翻译候选的抽取算法、翻译候选的多特征表示以及翻译候选的评估方法。1.在翻译候选的抽取方面,由于中英文语言的差异,分为中文翻译候选抽取和英文翻译候选抽取。在中文翻译候选抽取中,采用基于PAT-Tree的抽取方法。在英文的翻译候选抽取中,由于英文不需要分词,先采用一种简单的翻译候选抽取方法,然后采用信息熵和启发式规则相结合的噪声过滤算法。2.在翻译候选的表示方面,综合分析了翻译候选内部和上下文各种特点,提出结合全局特征、局部特征和布尔特征相结合的表示方法。这些特征较全面的表示了翻译候选,为翻译候选的评估提供了良好的基础。3.在翻译候选的评估方面,采用SVM和Ranking SVM的方法进行评估。SVM已被广泛用来处理分类问题。但经过分析,将翻译候选的评估归为分类问题并不十分恰当,而更准确的将其划为排序问题。因此,本文采用SVM和RankingSVM分别评估翻译候选。经过实验,发现Ranking SVM的准确率略高于SVM。最后,分别通过对英汉和汉英翻译中的人名、地名、组织机构名三类未登录词进行实验,取得了较好的翻译准确率。另外,为了表示本文所提方法的一般性,对由各类术语组成的命名实体进行了翻译,也取得了较好的效果。
其他文献
随着天然气在城市中的应用日趋广泛,燃气工程的建设范围也越来越广。燃气工程的质量,决定着燃气是否能够得到安全的应用,当前我国的燃气工程质量虽然越来越优异,但是依然存在
水稻包颈和穗腐病不仅影响水稻产量,还影响稻米品质和市场价格。本文从水稻破口期至齐穗期的生理机理阐述了使用唑醇类农药导致水稻包颈和药害导致穗腐病(花壳)发生的原因,建议稻
随着时代的快速发展,智能变电站工程也随之发展起来,但是在发展的过程中,逐渐暴露出一些问题,主要体现在继电二次保护、合并单元和智能终端等方面。本文首先介绍了智能变电站
采用面积分的原理,提出了一种计算区域内气象要素平均值的新方法,通过对湖南全省温度、降水的平均值计算分析,对计算误差进行了检验。结果表明,采用该计算方法可以减少因气象台站
"互联网+"背景下,高校积极推进思政教育转型与发展,取得了初步成效,但仍存一些问题。要构建新型"互联网+"高校思政教育模式,既要明确学生在教育过程中的主体地位,也要推动思
伴随着中国加入WTO之后,我国烟草行业与世界经济接轨日益密切,面临难得的发展机遇。烟草行业为了更好地适应世界市场的竞争需要,实现自身在资产与经营管理体制的改革,必须建
<正>安吉竹搏园是安吉最具有代表性的旅游景区,是竹乡旅游的王牌景点和浙江著名的旅游景区,建于1974年,占地面积为1200亩,距杭州65公里、上海226公里、南京230公里,是国家"AA
通过对定制木楼梯扶手特点的分析,明确了可拆装定制木楼梯扶手设计的关键在于扶手部件接合方式的设计,并结合木楼梯在定制家具生产过程中存在的局限性,总结出基于拆装式结构
社会发展的同时带来自然资源的减少和环境污染问题,近几年我国大面积范围内的雾霾现象越来越影响到人们对经济发展方式的思考,社会已从牺牲环境资源而追求经济快速增长模式逐
秘书这一职业由于在社会活动中的工作方式不同存在着多重角色。秘书具有助理角色、作家角色以及公共关系职业角色这三种主要角色,应增强秘书工作的应变能力和适应能力,尽可能根