基于可比语料库的跨语言信息检索研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:ASHLEY920
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
跨语言信息检索(Cross Language Information Retrieval, CLIR)即可用一种提问语言检索出用另一种语言书写的信息的检索方法。跨语言信息检索的研究目的在于减少信息检索中语言障碍带来的困难,提高人们对知识的利用率,提高获取信息的效率。跨语言信息检索是当前信息检索领域一个前沿的热点研究领域。本文基于可比语料库研究跨语言信息检索问题,主要工作和贡献包括以下两个方面:第一,提出了一种改进的基于可比语料库抽取双语词典的方法,提高了双语词典的抽取效果。传统的基于可比语料库的词典抽取算法很少用到可比语料的对齐信息,即使有用到,也只是利用严格的一对一的对齐关系,这种严格的对齐关系近似于将可比语料转化成平行语料,耗费巨大,而且,在真实的语料中这种严格的一对一关系存在并不多,这种严格的对齐关系大大减少了可利用的语料规模。在词典抽取模块中,本文将词语之间的共现信息考虑在内,将传统的上下文信息的特征与语料的伪对齐信息融合在一起,计算两篇文档的对齐程度并设定一个阈值,认为所有大于这个阈值的两篇文档之间具有伪对齐关系,从而计算出这些词语的共现度,将利用词语的共现信息计算得出的词语相似度与传统的利用上下文信息构建上下文向量计算得出的相似度通过互信息公式融合成一个量化指标,并以这个指标衡量两个词是否互为翻译。实验表明改进的算法自动抽取效果有较显著的提升。第二,本文将抽取出来的双语词典融入到现有的跨语言信息检索模型中,改进了检索性能。先前学者的研究中已经证明经典的基于信息的对数logistic信息检索模型在跨语言信息检索领域的性能超出其他的信息检索模型,通过对比是否将抽取到的双语词典加入到该模型中,得出融入了词典的模型效果更好。实验表明,这种融入策略可以明显提升系统的检索性能。
其他文献
多核架构是处理器发展史上的重要里程碑。它的出现满足人们对更高性能的需求,特别是在油气勘探、气象预报、虚拟现实、人工智能等高度依赖于计算能力的场合,多核架构将显著地
随着数据库技术的广泛应用,数据库中存储的数据量急剧增大。对如此庞大的数据需要进行较高层次的处理,从中找出规律和模式,以帮助人们更好地利用这些数据进行决策和研究,因而
目前基于面向服务的体系架构(SOA)的先进思想比较流行,这是一种以服务为基础元素建立企业级信息化平台的架构思想。在信息化建设中产生了大量为满足服务需要的系统,但其间却
就业是民生之本,高校毕业生就业,是实现经济持续健康发展、民生改善和稳定社会大局的重要保障.坚持积极稳健的就业政策,实现更高质量就业满足政、行、企、校、生多方面需求.
无线通信技术、微电子技术、传感器技术以及计算机技术的飞速发展与日益成熟,推动了低成本、低功耗并能进行短距离无线通信的无线传感器网络技术的发展。工业无线网络技术是
接入网技术与骨干网技术发展的巨大差异导致了制约互联网进一步发展的新瓶颈的产生。以太无源光网络(EPON-Ethernet Passive Optical Network)技术正是在这种形势下诞生的。
随着现代科技的发展,可以获取和利用的图像资源急剧增加。运用图像分析和理解技术快速检测和识别出图像中的目标,在军事、生产和生活等诸多领域都有迫切的需求,同时也是计算
事务处理技术作为保证信息一致性和可靠性的关键技术,对商用系统意义深刻。事务作为一个逻辑工作单元的操作集合,需要保证ACID特性,即(Atomicity原子性,Consistency一致性,Isolati
随着互联网的高速发展和各种数字技术的不断进步,信息数字化浪潮席卷全球,超文本类格式文档成为应用最为广泛的信息载体;另一方面,消费电子、计算机、通信一体化趋势日趋明显,
随着高等教育改革的不断深入和深化,教育体制的不断发展,我国高校的教学管理也面临着新的挑战。多所高校的合并,各个学校又分多层管理,各个部门所使用的数据库数据结构都不尽