基于平行语料库的越汉跨语言信息检索研究

来源 :广西大学 | 被引量 : 0次 | 上传用户:maxfree99999
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着世界经济一体化的进展,各国之间互联网交流更为广泛、频繁,互联网信息的多语种特点,给交流带来的语言障碍日显突出。为解决语言障碍问题,跨语言信息检索技术应运而生。目前国内外针对母语与英语之间的跨语言检索研究较多,在中国-东盟自贸区成为世界第三大经济体的今天,越汉跨语言信息检索被提到议事日程,对它的研究有着重要的理论意义和实际应用价值。   本文对跨语言信息检索技术的研究现状进行了分析,主要针对汉语和越南语的跨语言信息检索进行研究,重点解决越汉跨语言信息检索中查询表达式翻译产生的歧义性问题和未登录词问题,并设计实现基于平行语料库的越汉跨语言信息检索系统原型。   本文的主要内容具体如下:   (1)把越汉平行语料库应用于词项的选择策略中,提出用“双语共现”方法解决在借助双语词典翻译过程中产生的歧义性问题,从而实现查询表达式更准确的翻译。   (2)根据汉语和越南语的语言特点和当前的语料情况设计了基于查询表达式翻译的跨语言信息检索中对未登录词的处理框架,主要通过以下方法来解决未登录词问题:   ①通过构建基于字形的越南语和汉语音译知识实现对人名和地名的音译;   ②抽取双语平行词对来构建未登录词词库;   ③提出了一种基于词块划分的组织机构名翻译方法。   (3)在研究构建越汉双语词典和句子级对齐的越汉平行语料库的基础上实现基于平行语料库的越汉跨语言信息检索系统原型。
其他文献
并联机器人因其结构上以及精度上的优点而在一些强度要求高及运动精度要求严格的方面有着广泛的应用。本文以五杆并联机器人为研究对象,分别用数值解和解析解的方法建立了满
研究人体上肢日常运动规律对于手臂外骨骼的设计和控制具有重要的指导意义,可应用于临床诊断、康复训练、体育运动损伤评估、人机工程学等领域。本文以喝水动作为对象,运用计
视觉信息是人类最主要的信息来源,也是人类认知世界最重要的一种手段。承载视觉信息中非文字部分的媒体类型被称为可视媒体,它主要包括图像、视频、三维模型、材质以及纹理等元
随着生活水平的提高,人们越来越重视自己的身体健康状况。对于某些慢性病病人,需要时常关注自己的健康参数,但去医院检查太浪费金钱和时间,在家自己检测又不能得到医生的相应
当前,机器学习的相关理论和应用研究遍地开花。传统机器学习常用的两种方法为无监督学习和有监督学习。然而我们也应该看到,无监督学习的特点和优势是不需要训练样本,但无监
随着多媒体技术与网络技术的快速发展,各种多媒体资源得以在互联网上广泛地传播与共享,这给人们的生活带来了极大的便利,但同时,由于数字产品容易被不诚实的消费者非法复制、修改
近几年来,“云计算”技术的战略优势和商业价值引起了大量研究者和企业重视,并投入该项研究。但是,对于云服务而言,目前其策略控制和实施的研究和实践还较少。本文研究支持异
针对关键动设备的状态监测和故障诊断系统在保障工业生产安全、提高设备使用率、延长设备使用寿命方面有着非常重要的意义。随着监测诊断系统的推广和广泛应用,工业生产过程
多媒体网络对QoS实时控制和保证提出了更高的标准和要求。传统上,研究者基于最坏情况执行时间和处理器利用率等执行可调度性分析。这样的可调度性分析结论能满足强实时QoS保
在对图像的研究和应用中,人们通常只对图像中的某些部分感兴趣,图像分割就是把图像分成各具特点的区域并且提取出感兴趣的目标的技术和过程,这些特点可以是灰度、颜色、纹理