基于依存语法的统计机器翻译研究

被引量 : 0次 | 上传用户:yoyoliuy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着统计机器翻译技术的发展,基于句法的统计机器翻译逐渐成为研究热点。同传统的基于短语的方法相比,基于句法的方法在翻译过程中能够利用更多的语言学知识,可以更好的指导翻译过程。本文在依存句法分析的基础上,构建了一个依存语法翻译模型,设计并实现了一个完整的统计机器翻译系统,并在此基础上进行了改进。首先,本文构建了一个依存子图(treelet)到串的统计机器翻译模型。该模型的基本单元是对齐模板,其中源语言端是依存子图,目标语言端是串,两端允许变量泛化,对齐模板可以按照一定的约束条件从训练语料中自动获取。在翻译模型的基础上,设计并实现了基准系统。其次,本文对模板选择问题和未覆盖节点译文操作问题进行了研究。针对模板选择问题,采用了两种选择策略,一是为翻译模型增加模板判别特征函数,如长度不一致惩罚,变量数目惩罚等特征,利用最小错误率训练获得权重;二是为对齐模板增加词性信息标记,从而使模板获得一定语言学知识的约束。模板选择实验结果表明,仅添加模板判别特征可以提高BLEU值,而仅增加词性信息标记并没有提高系统的性能,但是利用词性标记将模板库分层后,优先匹配词性标记模板,可使BLEU值有所提高。针对未覆盖节点的译文操作问题,本文构建了一个基于统计的粘贴模型。首先从训练语料中抽取粘贴实例,然后抽取了首词、组合等特征用于最大熵建模,实验结果表明,粘贴模型可以有效的控制未覆盖节点译文的顺序。在NIST MT 2005测试集上,同时应用模板选择和粘贴模型,保留未登录词的系统的BLEU值比Moses高0.0021,删除未登录词后BLEU值可以达到0.2540,证明我们的改进方法是比较有效的。
其他文献
国际海上货物运输承运人责任归责原则统辖责任构成要件、举证责任分配、免责条件、损害赔偿的责任和方法等重大问题,由此对整个海上货物运输立法体系关系重大,是其中的核心问
<正>为了进一步提升期刊品质,《东南文化》编辑部于2014年12月邀请了一批期刊界的专家针对提高期刊质量、规范期刊编辑流程、采用现代理念办刊、期刊的数字化出版与新媒体应
党的十九大提出:"加快生态文明体制改革,建设美丽中国","推进绿色发展"是生态文明建设的重要视角。其中,创建绿色社区则是推进绿色发展的重要内容。绿色社区因其鲜明的时代价
据《简氏国际海军》2008年12月报道,在美国海军舰队首次发射“标准-3”(SM-3)导弹进行的弹道导弹拦截中,“阿利·伯克”级驱逐舰的成绩是一发命中,一发未命中。11月1日,随着
在农业政策扶持及援疆省市的大力支援下,从2009年开始九师大力发展设施农业。随着设施农业的发展,取得了一定成效和经验,设施生产种类呈现多样化。但也有规模扩张过快、利用
托尔斯泰是一个具有强烈死亡意识的作家。他对死亡充满了恐惧,总是畏惧死亡的降临。他无数次地体验他人之死,孜孜不倦地探寻死亡的奥妙,寻找生命的意义,终于在生命的最后时刻
借鉴国外推动中小科技企业融资的成功经验,结合我国中小科技企业生命周期的特征,提出建立全方位的资本市场、创新商业银行信贷业务、筹建国家科技开发银行和完善信用担保体系
<正>中、韩作为传统贸易伙伴,贸易往来的历史悠长。据海关总署统计数据显示,中韩两国建交二十二年,双边贸易额已由最初的50亿美元增长到2014年的2905亿美元,年均增速达到28.5
文物保护学作为一门科学,分为理论和应用等多个层次,需要有反映客观事物固有规律的系统化的知识体系。目前,行业关于文物保护学自身的基本学科理论的探讨不多,因此,可尝试以
<正>许××.女,26岁,城关面社职工.患顽固性呃逆两年零一月.经中、西医多方医治及住院治疗均无明显疗效.故于一九七八年十月六日来我处求治.