依存语言模型在信息检索中的应用研究

来源 :天津大学 | 被引量 : 0次 | 上传用户:haiyaozhucewohai
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
统计语言模型是上世纪80年代兴起的语言建模方法。经过20多年的发展,它已经渗透到了计算语言学的各个层面,并且在以下各个领域都取得了极大的成功,如语音识别、手写识别、机器翻译、信息检索、中文自动分词、亚洲语言输入等。然而传统意义上的统计语言模型,也即n-gram模型,仅仅考虑了先后相邻的n个词之间的关系,即依据前面已经出现的词来预测下一个要出现的词,这样,在构建模型时便丢失了许多有用的信息,如词法关系、词之间的组合、共现信息及其邻接关系信息等,导致模型性能下降。本文提出了一种新颖的通过依存语言模型进行信息检索的方法,该方法在Unigram模型的基础上,引进词汇之间的链接关系作为其依存信息,并用于语言模型构建过程中。我们认为,句子里词与词之间的所有链接关系形成了无向、无环的平面图,基于此,文档生成查询的过程可分为两个步骤:首先是生成词与词之间的链接关系,其次,根据链接关系产生具体的词。同时,本文还解决了传统依存模型中存在的依存关系表征及其规范化的问题。在语言模型训练过程中,将无监督性的依存关系抽取过程与不同的语言模型统计平滑技术相结合,使得依存语言模型在信息检索领域获得成功的应用。通过在TREC文档集上进行实验,结果表明:依存语言模型较Unigram语言模型和经典的概率统计模型,在检索结果上有了统计意义上的显著提高。
其他文献
静电悬浮无容器技术,是一种十分有效的获取金属材料和非金属材料深过冷现象的手段,其在对熔体过冷度的控制上也相对容易,同时可以测量处于过冷阶段熔体的热物理性质,也可对其
如何利用现有的计算机技术去快速构建一个简单、灵活、可复用的GDSS框架是本文的出发点和追求目标.本文研究了GDSS发展历程,分析了当前GDSS领域中所面临的问题.面对问题,本文
如何让Internet更好地为人类服务,是未来几年的一个真正挑战。一方面是人们对快速、准确而全面获取信息的渴望,而另一方面却是Internet上信息的纷繁芜杂,在这两者之间架设一座桥
电子交易是电子商务的核心,其安全性一直是影响其发展的根本原因。本文深入研究了电子商务所需的安全技术,结合密码学知识,参照SET协议的设计原理,以CFCA为认证体系,设计了一种适
本文采用了全国信息技术标准化技术委员会教育技术分技术委员会提出的学习对象元数据规范和内容包装规范并且针对多媒体资源的特点对内容包装规范进行了扩展。本文针对E-Lear
入侵检测技术是现代计算机系统安全技术中的重要组成部分,并且是当前的研究热点。 目前,绝大多数入侵行为都通过攻击特权进程来破坏计算机系统的安全性。特权进程通常完成特
数值天气预报是当今气象预报不可缺少的重要工具,它的发展使气象预报成为了一个和超级计算机以及并行计算关系密切的领域.该论文从介绍数值天气预报的历史及其计算方法的特点
客户关系管理(CRM)是最近几年兴起的一个概念,可以从三个层面来理解CRM,它是一种现代的经营管理理念,也是一整套解决方案,同时又是一套应用软件系统.CRM从功能上可以分为三类
学位
随着嫦娥三号、暗物质粒子探测卫星以及世界首颗量子科学实验卫星“墨子号”的成功发射,我国的空间探测技术取得了巨大进步。与此同时,作为探测手段之一的星载成像技术也得到