基于Web的未登录词翻译技术研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:ocean0228
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
未登录词(Out of Vocabulary,简写为OOV)的查询翻译是影响跨语言信息检索(Cross-Language Information Retrieval,简写为CLIR)性能的关键因素之一。它的翻译好坏直接影响着机器翻译、跨语言检索等自然语言处理技术的性能。本文充分利用丰富的网络资源来实现OOV的译文挖掘,主要结合维基百科和搜索引擎各自的优点实现。具体步骤包括:缩略语(Abbreviation)是一种常见的OOV文字形式,由于缩略语的歧义性,使得一项缩略语往往存在多种全称形式,因此缩略语的识别和全称提取对OOV的查询翻译至关重要,本文分别基于搜索引擎和维基百科来实现缩略语的全称提取。然后将查询词与维基百科中篇章的对齐情况粗略分为两种,分别是有目标链接的对齐和无目标链接的对齐,对于有目标链接对齐的词条,通过提取目标语言链接标题来完成OOV的翻译。对于无目标链接对齐的词条,本文通过搜索引擎来实现其译文的挖掘。首先,为了实现跨语言信息检索中查询词的有效扩展,获得高质量的双语摘要资源,基于维基百科中存在的源语言词条,通过提取该源语言词条对应篇章摘要中超链接的目标语言标题,作为跨语言的扩展词。其次,在目标缺失情况下,利用搜索引擎的反馈获取双语共现语境,然后基于共现特征的主题词译文的查询扩展方法,并通过二次词典翻译、以及基于OOV和扩展词融合后的查询构建和二次检索,获得高质量的双语摘要资源;最后,基于对数似然比(Log Likelihood Ratio,简写为LLR)值的归约层次聚类算法,实现候选多词单元的抽取,并与常用统计方法作比较,并综合利用频度-距离模型、表层模板匹配模型和音译模型,从候选翻译单元中选择最佳译文用于查询翻译。实验结果Top10取得了93.8%的正确率。
其他文献
21世纪,我们已经进入了以信息为主体的知识经济时代,信息高速化、便捷化成为各国竞争的焦点之一。在这种形势下,现代国家政务机关不但要加强内部信息资源的有效管理,还应越来越注
随着计算机网络技术的迅速发展,网络攻击手段呈现多元化、复杂化、智能化的趋势,网络的安全问题日益突出,僵尸网络、拒绝式服务攻击(DDos)等安全问题时有爆发。这些安全问题
无线传感器网络是目前受关注的研究领域之一,它涉及无线通信技术、传感器技术、分布式信息处理和微电子技术等学科的综合应用。由于无线传感器网络是一种能源极其受限的网络,
随着信息技术尤其是社交网络的发展,人们对不同风格人脸图像的需求越来越多。消费者经常希望将现实拍摄到的人脸图像同素描风格人脸图像或卡通风格人脸图像进行转换。因此,研究
随着Web Services由技术概念到实践应用的不断发展,网络上出现了很多功能相同或相似的Web服务。如何从众多满足功能需求的Web服务中选择最优的服务,成为Web服务应用的关键问
虚拟手术系统是虚拟现实技术在现代医学中的应用。虚拟手术的最终目标就是在计算机中创建与真实手术完全相同的手术环境和手术过程反映,不但包括皮肤、组织、器官、体液等体内
集中供热已经走进千家万户,供暖质量直接影响着成千上万热用户的生活生产。目前对供暖质量的监测主要基于各个换热站中的控制器获取到的入水、回水管道上的温度数据,监测点极
企业信息系统数据库中积累了大量的历史数据,这些数据不仅占用大量的存储空间。同时使得系统运行不稳定性和不安全性因素增加。但是,这些过期数据不能被轻易地删除,因为这些数据
从互联网的诞生到飞速普及给人类社会的沟通方式和生活方式带来了极大的便利,同时计算机网络体系的高速发展和快速壮大也为计算机病毒的生存传播提供了坚实的基础和广阔、有
随着计算机技术、Internet以及数据库技术的飞速发展,各个领域产生的半结构化数据和信息急剧增加。因此,为满足数据挖掘的需求,需要设计出半结构化数据模型,从而能够利用模型