汉英口语平行语料库建设及其在基于实例机器翻译系统中的应用

来源 :北京大学 | 被引量 : 0次 | 上传用户：libra_li

【摘要】

：

当今世界，跨语言的信息交流日益频繁，从而带来了机器翻译和跨语言信息检索等相关领域的研究高潮，其中，基于统计的分析方法以其卓越的性能，成为了这些领域的研究热点。然而，这些统计

【作者】

：

韩小梅

【机构】

：

北京大学

【出处】

：

北京大学

【发表日期】

：

2009年期

【关键词】

：

机器翻译口语翻译平行语料库语料加工

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

当今世界，跨语言的信息交流日益频繁，从而带来了机器翻译和跨语言信息检索等相关领域的研究高潮，其中，基于统计的分析方法以其卓越的性能，成为了这些领域的研究热点。然而，这些统计系统中所需的关键的平行语料库目前主要是基于书面材料的，缺乏大量的口语语料。因此，本文本致力于构建一个针对口语的汉英双语平行语料库，从而实现了一个汉英口语机器翻译系统，主要从以下几个方面展开工作：　　在语料收集方面，本文从互联网上下载了大量的电影字幕，并对它们进行了文件格式选择、文件排重、语言选择、去噪等预处理工作，从而获得了基本的汉英双语字幕文件。　　在语料加工方面，本文首先分析口语的基本语言现象，并以此为基础挖掘出它的对译特点，对字幕文件做句子对齐。由于仅利用句子内容信息难以解决一些复杂的对齐模式，本文利用字幕文件的时间信息，提出将时间和句子内容结合的对齐算法，进一步提句子对齐性能，F值达到98.3％，接近新闻语料等书面材料的句子对齐性能。而且这种结合时间信息的对齐方法能够较好的解决各种删除、插入问题，以及其他复杂的对齐情况。　　在语料应用方面，本文以所收集的700万句对的汉英口语平行语料库为基础建立了实例资源库，进一步设计并实现了一个基于实例的口语机器翻译系统。该系统取得了较好的翻译性能，验证了所构建语料库的合理性和有效性。

其他文献

基于二次微分方向场模型的指纹分类方法

由于每个人的指纹有着独一无二的特性，因此在生物特征识别领域，指纹识别一直都是最热门的主流技术之一，得到了业界的深入研究和广泛的应用。当前对指纹识别技术的研究主要集中在

学位

指纹识别指纹分类二次微分方向场

人肥胖基因在毕赤酵母中的表达

肥胖基因编码的蛋白质（leptin）是反映体内脂肪含量和调节体重的重要信号因子，leptin能显著降低脂肪组织数量、促进青春期发育，对机体的免疫应答、繁殖功能、神经内分泌等功能具有

学位

肥胖基因毕赤酵母巴斯德毕赤酵母表达系统密码子偏爱性分泌蛋白

Influence of carbon-partitioning treatment on the microstructure, mechanical properties and wear res

The wear resistance of iron (Fe)-matrix materials could be improved through the in situ formation of vanadium carbide particles (VCp) with high hardness. Howeve

期刊

carbon-partitioning treatmentretained austenitephase transformationmechanical

短蛸（Octopus ocellatus）酚氧化酶的分离纯化及其部分生物化学性质的研究

酚氧化酶(ECl.10.3.1)能够催化单酚羟化成二酚(如多巴)，并把二酚氧化成醌；醌在非酶促条件下形成最终的反应产物黑色素。酚氧化酶(phenoloxidase，PO)广泛存在于无脊椎动物和脊椎

学位

短蛸酚氧化酶儿茶酚酶金属酶

水下畸变信道宽带信号检测技术研究

随着实际应用需求的转变及相关基础科学理论的发展，水声信号处理正朝着浅海环境下宽带主动声纳信号处理的方向发展。在研究主动声纳宽带信号检测问题时，水声信道的时、空变化特

学位

水声通信

Hydrogen embrittlement of X80 pipeline steel in H2S environment:Effect of hy-drogen charging time, h

This study investigated the susceptibility of X80 pipeline steel to hydrogen embrittlement given different hydrogen pre-charging times and hydrogen charging–re

期刊

high-strength steelhydrogen embrittlementcorrosionhydrogen diffusion

光网格中的资源调度及容错机制研究

随着网格技术的发展和数据传输需求的提高,网格中网络的传输能力逐步成为制约网格系统发展的主要瓶颈,而具有大容量带宽、可靠性传输等特性和较高性价比的光网络解决了此问题

学位

光网格资源调度数据密集型应用容错检查点恢复机制

川西亚高山冷杉林树干液流变化与蒸腾量估测研究

本文利用基于热扩散法原理的ICT—2000TE树干蒸腾与环境因子自动监测系统，分别于2004年及2005年林木生长季节，研究了岷江上游亚高山冷杉林主要树种岷江冷杉、白桦和巴朗杜鹃的

学位

岷江上游ICT-2000TE岷江冷杉树干液流密度单木蒸腾耗水量

光路并行建立机制研究

光路快速建立是智能光网络的一项关键技术。本论文针对光路快速建立展开研究，提出了光路并行建立机制。　　首先，本论文简要介绍了光路快速建立的研究背景和研究现状，然后分别

学位

光路并行波长分集智能光网络路由策略

换流站激光点云密度对土石方计算的影响

换流站是直流输电工程项目建设中的重要内容,站址的合理性对工程投资、经济效益具有重要的影响.在换流站建设中需要高精度的地形数据作为基础数据,相对于传统测绘方式,机载激

期刊

激光点云换流站站址选址精度评价

汉英口语平行语料库建设及其在基于实例机器翻译系统中的应用

与本文相关的学术论文