半指导的判别式英汉词汇对齐研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:yesyouok
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
词汇对齐(Word Alignment)是指在源文和对应的译文中刻画词汇互译关系的过程。由于词汇的对译关系是刻画其他翻译关系的基础,所以自动词汇对齐是其他跨语言信息处理的基础技术,一直受到研究者的重视。本文在综述词对齐主要方法和分析该技术最新进展的基础上,引入半指导的判别式词对齐方法提高了英汉词对齐性能,并且探索了统计特征和先验知识相结合的多特征策略,进一步改进了词对齐效果。最后将这一方法应用于英汉词汇互译检索中,设计并实现了“绿洲”双语检索系统,解决了以往此类系统存在的候选互译词汇过多、检索效率低的难题。本文主要具体的包括如下内容:首先,介绍了半指导的判别式英汉词对齐模型,详细的介绍了半指导判别式模型中采用的EMD(Expectation maximization and discriminative,期望最大化与判别相结合)训练算法,该训练算法结合了EM(Expectation maximization,期望最大化)训练和判别式(Discriminative)训练两方面的优点能够从特征和特征权重两个方向上对模型进行训练,从而提高了判别式词对齐的性能。介绍了NBest解码算法,NBest解码算法能够保留更多的扩展候选,从而可以减少搜索错误的产生,提高词对齐性能。其次,分层次的介绍了在词对齐研究中经常使用的特征,并对特征进行了归类分析。在分析的基础上,选择了词义相似度和词性翻译概率作为纯先验特征和统计先验相结合特征的代表,将这两种特征添加到纯统计特征为基础的判别式系统中,并对这两种特征带来的影响进行了分析。实验结果表明,纯先验特征的添加要比统计先验相结合的特征更能够带来系统性能的提升,纯先验知识的添加有利于提高模型的收敛速度。最后,本文通过在常规判别式模型的基础上添加三个新的特征,并使用召回率作为优化目标,获得了一个召回率96%的词对齐结果。将高召回率的词对齐结果应用到词汇互译检索系统中去,实现了一个基于词对齐的“绿洲”词汇互译检索系统。该系统能够使用高召回率的对齐结果获得源语词和译文候选对应词的对译关系,并能实现高效方便的检索。实际应用表明该系统能够很好的降低噪声,提高辞典编纂者的效率。
其他文献
目的:观察舒芬太尼复合丙泊酚用于儿童静脉全麻下无痛胃镜检查的麻醉效果及安全性。方法:120例需进行无痛胃镜检查的患儿,通过随机数表法分为观察组(60例)和对照组(60例)。观
今天作为大众传媒的电视,不仅在技术传播上实现了飞跃,在审美文化上也出现了商品化、娱乐化、平民化的新趋向并由此带来一系列问题,本文对此进行了分析和论述。
本文主要论述了历史学科与综合实践活动课整合的必要性、可能性,以及整合的思路、整合时应注意的问题,希望对历史与综合实践整合研究有所帮助。 This article mainly discus
本文论述了中国封建社会中央王朝统一边疆和少数民族统治者入主中原,以及两者同全国性的农民大起义的关系等问题。作者认为,汉族与少数民族之间的关系之种种发展变化,都是在
目的:研究分析对鼻咽癌患者采用多西他赛同期化疗和顺铂同期化疗的治疗效果和安全性。方法:2017年8月-2018年8收治鼻咽癌患者72例,随机分为两组各36例。对比组采用多西他赛同
近代以来,中国女性开始走出家门,逐步参与到社会工作中。以报刊为代表的媒体认知,源于当时社会形势的变化,催生出以家门为界限的职业划分;与传统中国女性职业形象迥异的西方女性职
通过对4根低周反复荷载作用下的PSRC梁和1根单调加载的PSRC梁的对比试验,研究了剪跨比、加载方式及现浇混凝土强度对PSRC梁裂缝发展、破坏形态及受剪承载力的影响,并在JGJ 13
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
采用测井手段进行地质解释和储层综合评价主要包括沉积环境分析、储层矿物成分计算、储层物性的计算、储层类型的划分、流体性质识别等部分,其成果易受到多种因素的影响。为
寻常疣是常见的皮肤病,其中掌跖疣比较难治.我院皮肤科于2000年2月~2002年2月采用CO2激光、电灼和液氮冷冻治疗掌跖疣144例,取得良好疗效.为了探讨较好的治疗方法,现报告如下.