词对抽取及基于网络的未登录词译文挖掘

来源 :苏州大学 | 被引量 : 0次 | 上传用户:majianfeipubin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在中文信息处理领域,未登录词(OOV)的识别一直是个难点问题。而未登录词的翻译在自然语言处理的应用中是很重要的,比如在跨语言信息检索(CLIR)、问答系统(QA)中,未登录词翻译的正确性将直接影响到应用的最终性能。本文首先介绍了三种抽取词对的方法,根据使用的语料库是否已经标注,我们把这三种方法分别称为非监督的方法、监督的方法和半监督的方法。对于抽取得到的词对,我们采用了十二种基于频度的量度和两种基于上下文相似度的量度进行了关联度测量。实验结果表明:采用半监督的方法,简单地利用频度进行关联度打分,抽取词对的效果是最优的。基于网络的未登录词译文挖掘是本文的研究重点。首先对未登录词进行分类,分为直译词或非直译词,并进行英文扩展(根据分类结果分别进行直接扩展或共现扩展);再将未登录词与扩展后的英文一起放入搜索引擎进行搜索,然后从搜索引擎返回的结果页面中挖掘未登录词的译文。挖掘时先对返回的结果进行预处理,过滤掉一些干扰信息,然后抽取出其中的候选译文;再选用频度、距离等信息对候选译文进行排序。为了使正确的译文排在较前的位置,我们还采用了正向最大匹配加权和词汇对齐技术对候选译文进行打分和重排序。实验表明,本文介绍的未登录词译文挖掘方法是可行的、高效的,译文挖掘的Top 1覆盖率在80%以上,Top 5覆盖率接近或达到了100%。
其他文献
分片式处理器能够很好地应对纳米工艺代芯片设计中存在的功耗、线延迟和设计复杂性问题,充分地利用日益增长的片上晶体管资源以提升应用的性能,但对其上的Cache设计提出了新的
目前,在教育教学中应用计算机已成为一种趋势。随着计算机应用的迅猛发展,网络应用范围的不断扩大,从而使得考试的技术手段和媒介也发生了革命性的变化。计算机考试系统随之
随着图像配准技术的不断成熟与完善,图像配准技术已经应用于自动目标识别、医学图像处理、智能机器人、智能制造业、军事应用等领域,并取得了大量的研究成果。而虹膜作为重要
基于构件的软件开发是软件复用领域的研究重点,被视为解决软件危机、提高软件生产率与质量、降低系统开发周期与成本、增强系统灵活性与可维护性的现实可行途径。然而,直接复
多媒体信息的大量涌现要求现代计算机必然具备卓越的多媒体处理能力,多媒体应用程序的一个最突出的特点就是其内在的并行性,要求同时对多个数据单元进行相同的规则操作,这种
随着生物技术的迅猛发展,生物医学信息量呈爆炸性增长。生物医学文献作为展示学术成果的主要方式之一,其数目之大、增长速度之快远远超过了其他学科领域。面对数目巨大且快速
随着大量概率数据、不确定数据和模糊数据的出现,近年来,概率数据流成了研究的热点。数据流是按照时间到来的有序项集,有着连续的、无限的、随时间不断变化的、只能处理一遍
SAR在环境监测、资源勘探及军事领域得到广泛应用,SAR图像因其良好的穿透性比光学图像包含更丰富的内容,对SAR图像解译可以获得覆盖区域的相关信息和知识。目标识别是SAR图像
全景图像的拼接是数字图像处理和计算机视觉领域的一个热门研究点,是指将多幅有重叠区的图像拼接成广视角乃至360°全视角图像的技术。全景图像拼接是一种基于图像渲染技术、
在MANET网络环境下动态移动的各节点间实现高效的内容分发,不能全盘照搬流行的P2P网络中BT协议的做法。本文对在MANET环境下的内容分发系统的特点、工作机理、协议和实现方法