融合检索技术的译文推荐系统的研究与实现

来源 :北京工业大学 | 被引量 : 1次 | 上传用户:lonwang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
翻译检索被认为是机器翻译与信息检索技术的结合。机器翻译讨论如何用计算机将一种自然语言翻译为另一种自然语言。信息检索返回与用户查询相关的文档信息。传统翻译检索方法一般基于双语语料库实现,译文效果十分依赖于双语语料的规模与质量。本文将翻译问题视作为检索问题,解决传统方法双语料库构建代价高的问题,同时寻求适用于提高译文质量的检索模型算法,提高最终译文的流畅性。通过将信息检索技术与基于短语的统计翻译方法融合,构建一个基于单语料的汉英译文推荐系统,接收中文查询,以界面的形式返回参考译文。系统主要包括查询翻译和信息检索两部分。查询翻译根据给定的一组中文,生成Nbest英文结果;信息检索评价目标译文查询与候选译文的相关性。本文主要讨论汉译英的翻译方法,其中采用的技术亦可类比运用到其他语言中。所做的主要工作如下:第一,设计并实现了一个基于短语的统计机器翻译系统。借助ICTCLAS2011对原始中文语料进行预处理,并借助GIZA++完成词对齐工作。采用对数线性模型进行多特征训练,最小错误率函数迭代优化特征权重的估计,最后完成解码,实现BLEU自动测评。基于4元文法模型的汉英数据集实验结果表明,本系统在基于短语的翻译表现上拥有很强的竞争力,与目前流行的统计机器翻译系统相比,取得了更优的BLEU指标。第二,以Apache Lucene为基础,改进了检索模型算法。使用基于向量空间模型构建基准检索算法,计算查询语句与候选文档的相似度。考虑到N-best结果与候选译文的词序一致性,将基于阈值Levenshtein距离加入检索评分,提出了一个优化检索模型。实验表明优化后的检索模型使得检索子系统返回的排序结果更合理。第三,结合查询翻译子系统与检索子系统,提出了基于单语料与融合检索技术的译文推荐算法,并以此构建了融合检索技术的译文推荐系统,系统综合两部分子系统概率得分,根据分值高低给出最终的排序参考译文。实验取得了最高70.83%的f测度值。
其他文献
人体检测的目的是识别出图像中的人体并给出其定位信息。人体检测技术在运动分析、智能监控以及驾驶辅助系统等领域有着广泛的应用,是物体检测的一个研究热点。R-CNN(Regions
本体是实现语义网的关键组成部分,是对领域知识的一种形式化表达。它用来标注语义网络上的网页、数据等资源,目的在于支持应用系统的语义集成和互操作。近年来,本体的数量快速增
随着工业控制网络朝着生产高度数字化、网络化、机器自组织的方向发展。在生产效率提高的同时,越来越多的安全风险和安全漏洞被暴露出来。尤其在工业控制网络层,作为工业控制
步入21世纪以来,移动无线通信技术以及智能终端技术得到迅速发展,人们对更便捷、更高效、更高容量的无线网络的要求不断提高。无线多跳网络(无线Ad Hoc网络、无线mesh网络、
随着军队及通信台站装备技术、管理理念和管理方法的不断发展,目前所实行的各类法规制度逐渐暴露出一些缺陷,如缺少人员管理指标及量化标准等、缺乏过程监管、缺乏评估手段、缺乏信息化平台,等等。因此,建立一套以信息网络为支撑,结构一体、数据共享的综合管理体系非常必要。本文旨在通过分析目前台站所面临的管理问题及衍生出来的实际需求,给出一种基于B/S结构的基层台站量化考评管理系统。该系统以现有的法规制度为依据,
我们处于一个信息极其丰富的时代,人们对于快速准确地获取信息产生极大的需求。搜索引擎以其使用方便、反应迅捷而备受人们欢迎,成为信息获取的最主要方式。然而搜索引擎以关
随着计算机、数据库和网络信息技术的蓬勃发展及广泛应用,越来越多的数据在网络中被公开发布。数据挖掘等诸多技术的进步帮助了人们有效地利用发布数据,从海量信息中抽取出潜在
皮影戏是我国传统傀儡艺术中的一个代表,其造型设计与表现形式都具有我国独特的文化内涵,被视为国粹。由于传统皮影戏表演需要在特定的舞台表演,并依赖于表演艺人的水平,因此近些
蛋白质相互作用(Protein-Protein Interaction,PPI)网络是指一个生命有机体内所有蛋白质之间相互作用组成的生物分子关系网络。利用计算方法进行PPI网络功能模块检测是后基因
随着云计算的迅猛发展和IT服务的专业化,单个云服务不能很好的满足用户多样化的个性需求,因而云服务组合问题得到广泛的关注。在云服务组合过程中,由于云服务组件经常具有不