英汉可比较语料库的构建与应用研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:dmtfff
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
双语平行语料在计算语言学和自然语言处理研究领域具有广泛的应用,它为统计机器翻译模型提供不可或缺的训练数据,同时也是词典编纂和跨语言信息检索等应用的重要资源。然而,大规模的双语平行语料库并不容易获取,现有的真正可以利用的具有高质量对齐的平行语料库资源非常有限。虽然有一些研究者提出了基于网络的双语平行语料自动挖掘方法,但是由于网络的复杂多样性,实际应用中往往很难获取大规模高质量的平行语料。针对平行语料存在的规模不足、领域局限、不能很好地处理新词等问题,许多学者开展了可比较语料库的研究。与平行语料相比,可比较语料的限制少、易于更新、并且容易获得。因此,可比较语料库的构建及应用已成为当前研究的热点。本文主要研究了基于网络的英汉可比较语料库的构建方法以及可比较语料库在翻译等价对抽取和跨语言信息检索中的应用。在构建可比较语料库之前,首先研究了如何从互联网上获得大规模双语文本,提出一种从新闻网站构建特定领域文档集的方法,为可比较语料库的构建打下基础。获得大规模英汉双语文本后,采用跨语言信息检索技术,从目标语言文档集合中检索与源语言文档相关的文档,从而建立源语言文档与目标语言文档之间的映射关系,即建立英文文档与中文文档之间的映射关系,最终得到英汉可比较语料库。在可比较语料库的应用方面,首先研究基于可比较语料库进行翻译等价对的抽取,采用的是基于上下文向量的方法。实验证明了上下文向量抽取方法的有效性,并比较了不同上下文向量构建方法的性能。接着,将所抽取的翻译对应用到跨语言信息检索中,并与基于词典的方法和基于平行语料库的方法进行对比。实验表明基于语料库的查询翻译方法优于基于词典的方法,而基于可比较语料库的方法要优于基于平行语料库的方法。
其他文献
数据发布中的隐私保护是将数据发布与隐私保护技术相结合,在保护隐私的前提下,发布较为准确的数据,提高信息的利用水平。匿名化限制发布是其主要的技术实现手段。当前以数据
随着Web应用的普及,Web应用程序漏洞以越来越快的速度爆发出来,针对Web应用程序漏洞检测技术的研究正逐渐成为国内外研究的重点和热点。本文介绍了已有的Web应用程序漏洞及其带
H.264是ITU-T的视频编码专家组与ISO/IEC的动态图像专家组联合开发的最新视频编码国际标准。与以前的H.263、MPEG-X等编码标准不同,H.264增加了多模式运动估计、帧内预测、变
根据蛋白质的氨基酸序列预测蛋白质的结构是计算生物学中尚未解决的重要问题之一,而该问题的一个难点是蛋白质中Loop片段的结构。Loop在蛋白质的特征和功能中起着关键作用,但是
基于P2P的实时流媒体技术能够充分利用网络节点资源,减轻服务器压力,扩展系统规模,反映实时特性,因此成为近年来流媒体技术研究的一个热点。时移作为流媒体的关键技术已经在
互联网的飞速发展使Web信息量不断膨胀,网络正在迅速深化。由于大量的信息都隐藏在查询接口之后,无法利用传统的搜索引擎技术获取,这类信息被称为DeepWeb。高速增长的DeepWeb
搜索引擎在越来越多的海量的信息资源中的检索,没有考虑用户的个性化需求,而是查询某一关键词时,返回的结果往往都是一致的,不能为每个用户返回其所需的特定信息。   个性化推
高光谱遥感是对地观测的主要手段之一,同时亦是目前遥感领域的研究热点。随着硬件设备日新月异的发展与采集数据的不断丰富完备,高光谱图像分类得到了广泛应用,涌现出了很多通用与专用的分类算法,以及特定的集成系统。但是高光谱图像分类在算法层面与系统层面仍面临着很多挑战,比较突出的有:高光谱图像维数过高和标记样本相对较少之间的矛盾以及由此产生的统计困难与维数灾难;常用的统计机器学习算法在高光谱图像分类应用中面
学位
近年来,图像分割技术是人们研究图像分析、模式识别和图像理解中的一项非常关键的工作,如何进一步提高图像分割结果的精确性一直是图像分割技术中的关键问题,也直接影响到后
电能表是我国电工仪表行业中产量最大的产品,随着高新技术尤其是电子信息技术的快速发展,电子式、多功能、高精度、自动抄表等产品的优势突显,且已经逐步成为电能表发展的主