面向旅游领域的汉英统计机器翻译关键技术研究

被引量 : 0次 | 上传用户:popelrain2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机器翻译一直是自然语言处理领域的研究热点,随着统计机器翻译研究的逐步深入,机器翻译在理论和实践方面都取得了很大的进步。但是由于统计机器翻译方法依赖于训练语料,一些特定领域由于缺乏平行训练语料而导致其译文质量相当不理想。随着全球化的不断深入,跨境旅游已经成为人们日常消遣的一部分,面向旅游领域的机器翻译系统拥有很大的市场前景和研究意义。由于旅游平行训练语料的缺乏,使用通用机器翻译系统得到的旅游文本译文比较糟糕,因此,本文对旅游文本篇章特性进行研究以提高系统翻译质量,主要工作包括:(1)篇章预处理研究,我们提出了一种结合规则方法与机器学习方法并融合集成学习和半监督学习策略的汉语旅游文本非信息句识别模型。为了构造初始化种子标注集,我们首先根据非信息句的特点构造规则模板,采用规则的方法进行标注,然后我们将非信息句识别看成是一个二元分类问题并使用机器学习方法进行分类识别。由于规则方法所构造的训练集数量小且存在数据不平衡的特点,我们引入了基于Self-Training的半监督学习策略和集成学习的策略。实验结果表明,该模型具有较好的非信息句识别效果。(2)汉语成语翻译方法研究,与一般文本相比旅游文本中成语出现更为频繁,针对成语翻译问题,我们提出了基于复述技术的汉语成语翻译方法。首先我们实现并改进了三种复述获取方法以获取成语复述,从而构建了成语复述库;然后我们根据成语类别提出了成语复述替换的择优方法;接着我们通过在测试集和训练集中分别替换成语复述来实现对成语的改进翻译。实验结果表明,我们的方法可以解决成语在训练语料中未登录而无法翻译的问题并能减小由于训练语料中成语的稀疏性而导致的词对齐和概率估计错误问题,从而有效地提高了翻译系统的成语翻译能力,并在一定程度上改善了统计机器翻译系统的翻译效果。最后我们将上面两个研究工作结合开源工具Moses中的基于短语的统计机器翻译模型,构建了面向旅游领域的汉英统计机器翻译系统,翻译示例显示我们的系统在旅游文本上能有更好的翻译效果。
其他文献
针对目前我国农作物害虫诊断大多停留在人工阶段,存在着客观性差、效率低、劳动强度大等问题,以及现有的基于图像识别的农作物害虫诊断存在很多不足之处,本文对基于图像识别
目前,以自我评价为着手点,对事业单位财政支出绩效进行考评,并逐步建立起完善的内部控制机制,是完善事业单位财务管理的重要途径。笔者首先分析了内部控制制度对事业单位财政
<正>省委办公厅印发的《关于在全省党员中开展"学党章党规、学系列讲话,做合格党员"学习教育实施方案》指出:党员领导干部必须在"两学一做"学习教育中走在前列、当好表率,坚
随着汉学的日益繁荣,中国历史研究成为国外学术界的重要课题,相关史学资料的翻译工作以及基于语料库的翻译研究继而被提上议事日程。据此,该翻译报告将围绕语料库及其在翻译工作
蔬菜设施栽培技术性很强,尤其是灌水和施肥,要恰到好处。传统使用的漫灌不仅花工多,劳动强度大,而且往往棚内湿度大,病害发生严重。因此推广与之相配套的微灌系统势在必行。蔬菜滴
中国的城镇化进程被认为是推动中国乃至世界未来经济增长的基础性动力之一。而扩大内需尤其是提高居民消费是实现经济持续健康发展、加快转变经济增长方式的关键,内需的不断
目前我国国民经济持续快速发展,工业和生活用电负荷逐年增加,今后的电网如何建设是一个难题。智能电网是建立在集成、高速双向通信网络的基础上,通过先进的传感和测量技术、
铆接结构的疲劳寿命在很大程度上取决于孔边的微裂纹及其扩展,而铆接工艺参数对微裂纹的萌生与扩展影响显著。从细观角度分析铆接工艺参数对孔边细观结构的影响,探索铆接工艺参
本文根据四川江油马角坝地区大量实例提出的填补构造,是指充填岩层虚脱空间补偿那里压应力不足的层间构造。填补有多种形式。其中,填补褶皱是区别于寄生褶皱的另一类从属褶皱
随着城市化进程的不断推进和深入,能源行业发展迅猛,天然气作为经济安全、绿色环保的清洁能源,其发展速度更是有目共睹。但是在燃气事业发展的同时,由于受过去年代材质、施工技术