基于单语语料库的词语新译挖掘方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:hdu07095238
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机器翻译是应用计算机将一种源自然语言自动地翻译成另一种目标自然语言的技术。随着时代的迅速发展,人们为了更容易地互相交流和获取信息,对于机器翻译的需求也在逐渐加强。如何提高机器翻译质量已经成为研究者们的研究热点。统计机器翻译系统对平行语料有很强的依赖性,然而,一些语言对以及特定领域中平行语料资源稀缺,甚至不存在,使得机器翻译不能顺利进行。即使存在丰富数据资源,一般也来自于不同领域。这种领域上的差异导致很多词语在不同领域中有不同的译法,使得跨领域机器翻译效果并不理想。为了解决这些问题,本文提出了基于单语语料库的词语新译挖掘方法研究。本文在进行词语新译挖掘时,将其拆分为两个子任务,分别是:词语新译法发现和词语译文挖掘,并将二者融合进行一体化研究,最终还将挖掘的词语新译应用在机器翻译实际场景中。本文的具体研究内容如下:(1)在词语新译法发现任务中,本文将其转换为分类问题,判断词语是否存在新译法。在原有方法基础上对特征加以改进,提出了基于丰富特征的方法,引入了语言学特征,分别是目标语言、词性和句法特征,这些特征更符合本文所要解决的新译法发现任务的特点,能够提高分类器的准确性。(2)在词语译文挖掘任务中,本文对基于分布表示的方法加以改进,提出了基于神经网络的方法。首先对词语进行聚类,然后在每个类别中利用神经网络来代替线性函数,挖掘词语向量表示之间的映射关系。所有操作都是在单语语料库上进行。改进后能够更好地挖掘同一语言词语之间的关联,以及不同语言词语之间的映射关系,达到提高挖掘词语译文准确率的目的。(3)本文还对词语新译法发现和译文挖掘进行一体化研究,将两个子任务结果进行融合,来对抽取的词语新译进行过滤,提高抽取词语新译的准确性。最终将在从新领域抽取的词语新译加入到原领域机器翻译系统中,提高跨领域机器翻译系统性能。实验结果表明,本文提出的方法能够比较好的完成词语新译挖掘任务,在实际应用中能够使跨领域机器翻译系统性能提升1个BLEU百分点。
其他文献
高通量基因测序技术是第二代基因测序的主要技术,得到许多研究机构的广泛关注。该技术是将含有碱基信息的荧光点组成原始待测序图像,经过碱基识别操作得到所测基因序列。因为
在使用计算机数字化现实世界的过程中,相对于以往二维图像,三维数据具有其独特的优势。随着现代三维扫描技术与建模技术的提高,基于采样点的三维数据模型即点云模型,已经逐渐
随着计算机、互联网的发展,给人的生活习惯、态度带来巨大的变化。它能提供一个无限广阔的数字空间,同时,它也给自己无限发展的空间。随着人们对计算机网络技术的要求不断提
多传感器多目标跟踪技术是围绕着多传感器目标跟踪和多目标跟踪两方面的实现展开的。多传感器目标跟踪是数据融合技术在目标跟踪领域的应用范例,它将多个传感器的信息有机合
实时数据库系统(RTDBS)是实时系统和数据库技术的有机结合,当前,实时数据库系统广泛应用于军事、电信、电力、航空、工业控制、证券交易等领域,而这些应用领域大部分都是分布
随着Internet和宽带网络技术的日益发展,传统的以文字和图片为主的服务已不能满足用户的需要,具有视频和音频的多媒体服务成为主流。近几年嵌入式网络数字视频监控系统正在得
需求工程是随着计算机的发展而发展的,在计算机发展的初期,需求分析很少受到重视,后来软件开发引入了生命周期的概念,需求分析成为其第一阶段。随着软件系统规模的扩大,人们逐渐认
说话人识别技术目前已经成为身份认证及人工智能领域研究的一个热点,解决噪声环境下的说话人识别问题具有重要的理论价值和深远的实用意义。支持向量机是建立在统计学习理论的
随着互联网中服务数量的增加,越来越多的人们选择通过互联网满足生活中的需求。服务网络是解决这种大规模个性化定制的有效方法,降低了传统服务组合的搜索代价,也提升了服务
入侵检测系统作为一种能够自动、实时地保障网络信息安全的动态安全设备,构成对防火墙一类的静态安全设备的必要补充,已经越来越受到人们的重视,而分布式入侵检测系统更是随着网