基于双语句法短语的统计机器翻译研究

被引量 : 0次 | 上传用户:zhiyin1976
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着语料库语言学的发展和计算机性能的提高,机器翻译的效果越来越好,并获得广泛的应用。研究人员不断探究机器翻译的新方法,从基于词的统计机器翻译方法,到基于短语的统计机器翻译方法,再到基于句法的机器翻译方法,机器翻译的性能也不断提高。基于短语的统计机器翻译方法将短语作为基本单位来翻译,充分利用到了短语内部的词序,对比基于词的统计机器翻译方法的效果有很大提高。但基于短语的统计机器翻译方法未充分利用句子的语言学信息,长距离调序效果不好。基于句法的统计机器翻译方法利用语言学意义上的短语作为基本单位,利用到了句子中的句法信息。但基于句法的统计机器翻译方法受句法分析准确率影响严重,同时对句法短语要求严格,这种严格的要求会损失掉一部分有益于机器翻译的非句法短语。鉴于基于短语的统计机器翻译和基于句法的统计机器翻译以上的不足,本文提出基于双语句法短语的统计机器翻译方法,利用双语句法短语来提高机器翻译的性能。首先,本文提出一种基于EM(Expectation-maximization)算法的双语句法短语抽取方法来抽取双语句法短语。然后将抽取到的双语句法短语通过以下三种方法应用到基于短语的统计机器翻译系统中:(1)将抽取到的双语句法短语作为双语句对加入到训练语料中,利用扩展后的训练语料重新训练翻译模型。(2)将抽取到的双语句法短语加入到短语表中,重新计算短语对各个特征的特征值。(3)增加一个句法短语特征到短语表中,即短语表中出现的短语是否为句法意义上的短语特征,若短语表中的短语为句法意义上的短语,则其句法短语特征为“1”否则其句法特征为“0”实验结果表明,双语句法短语能够提高机器翻译性能。三种方法都不同程度提高了译文的BLEU (Bilingual Evaluation Understudy)值。基线系统的BLEU值为0.2253;方法(1)的BLEU值为().2276;方法(2)的BLEU值为0.2294;方法(3)的BLEU值为0.2317。
其他文献
乳腺癌是全球女性中最为频发的恶性肿瘤疾病和癌症死亡的首要原因。大量研究表明,早期诊断是扩大乳腺癌治疗方案的选择空间、降低乳腺癌患者死亡率的关键。钼靶乳腺X线摄影能
自党的十七大报告将优化司法职权配置列为司法改革重要任务以来,法学界积极行动,针对司法职权配置提出了很多新观点,出版了很多新著作,但这些研究成果多是关于审前程序的权力
嫁接方法是园林育苗中最常用的方法,常见的嫁接方法有:劈接、单芽腹接、皮接,本文就嫁接的定义、嫁接原理、影响嫁接成活的关键因素、嫁接过程中应注意的事项做以分析,以供参
作为我国第一个具有自主知识产权的二维码码制,汉信码的研制对提高我国条码技术应用水平、扩展二维码技术的应用领域起到至关重要的促进作用.因此,对汉信码技术的研究有着重
随着社会经济的发展和科学文化的进步,对信息规格的有效管理越来越受到人们的重视,为了便于档案信息得到安全可靠的管理,提高工作效率,同时避免因人为因素所造成的错误,因此,开发一
本论文利用岩芯驱替装置,通过模拟地层条件下(100℃,24MPa)饱和CO2地层水驱过程中的水—岩相互作用实验,并运用偏光显微镜、扫描电镜、X衍射分析、水溶液离子分析、主—微量元素分
随着国家三网融合的深化,电信及广电市场竞争的不断成熟。服务提供商的产品和服务的差异也将越来越小,曾经以生产为中心销售为目的的市场战略逐步被以客户为中心的战略所取而
先进复合材料格栅结构(AGS)是一种综合了材料技术与结构设计优点的新型空间点阵结构,具有轻质高强、耐腐蚀、可设计、高损伤容限与环境鲁棒性等优点,已被广泛应用于航空、航
《中共中央关于制定国民经济和社会发展第十一个五年规划的建议》提出,把健全对被征地农民的合理补偿机制,作为全面深化农村改革、建设社会主义新农村的一项重要任务。损益补
由于具有高负载自重比,且功耗低、结构紧凑、操作灵活,轻型机械臂被广泛应用在航空航天、反恐排爆、家庭服务等领域。但是,在带来诸多优点的同时,轻型机械臂也有着明显缺陷,