【摘 要】
:
随着互联网的飞速发展,网络信息呈爆发式增长,如何从海量信息中快速获取有效信息成为目前亟需解决的问题,信息检索技术是解决该问题的核心技术之一。在信息检索过程中,用户使用的查询词较少,往往不能很好地表达真实的查询意图,容易产生“词不达意”的问题,使得查询结果不够理想。一些学者从词语的角度出发,通过度量词语间关系挖掘出与查询词相关的词语,来作为查询词的扩展词,提高了检索性能。而从文档的角度出发,合理利用
论文部分内容阅读
随着互联网的飞速发展,网络信息呈爆发式增长,如何从海量信息中快速获取有效信息成为目前亟需解决的问题,信息检索技术是解决该问题的核心技术之一。在信息检索过程中,用户使用的查询词较少,往往不能很好地表达真实的查询意图,容易产生“词不达意”的问题,使得查询结果不够理想。一些学者从词语的角度出发,通过度量词语间关系挖掘出与查询词相关的词语,来作为查询词的扩展词,提高了检索性能。而从文档的角度出发,合理利用文档关系也可提高模型的检索性能,但是相关研究较少。针对以上问题,本文从文档关系的角度出发对基本信息检索模型的扩展和改进展开研究。由于信念网络检索模型具有灵活的框架,向量空间模型的经典性和便捷性,本文以这两个信息检索模型为例,寻找文档间的隐含关系,分别提出了以下两种模型:(1)基于文档关系扩展的信念网络检索模型:通过在基本的信念网络检索模型中增加一层文档节点,并依据文档与文档间的相似关系来确定两层文档间是否存在弧,即对于任意文档,计算它和其他所有文档的相似度,取相似度较高的前k篇文档作为文档的相似文档,也就是这篇文档的父文档。然后结合文档相似度和文档节点的父文档个数对基本信念网络检索模型的概率推导做出修正,给出更为合理的文档检索概率计算。(2)基于文档关系改进的向量空间模型:首先将初始检索结果中排名靠前的高相关文档组成基准集,通过计算初始检索结果集中每篇文档与基准集的相似度,来修正文档与查询的相似度,作为该文档最终的相似度,实现对向量空间模型的改进。本文采用一个小型中文信息检索数据集对研究内容的有效性进行验证。首先对数据集中的所有文档进行预处理,然后将本文提出的两种新模型分别与其基本模型进行实验对比,最后采用折损累计增益(DCG)和查准率-查全率曲线来评价模型的检索性能。实验结果表明:与其基本模型相比,两种新模型均使得相关文档排名更合理,并且在保证查全率的条件下,提高了查准率。
其他文献
该文介绍了一种可以应用于复杂智能控制系统的总线CBUS.在速率满足的条件下,使用该总线,可以大大降低系统设计的难度和复杂度,减轻背(母)板布线的压力.
网约车自2012年诞生至现在已有七年的时间,它的普及不仅满足了人们方便、快捷的出行需求,也为司机创造了大量的就业机会,提升了城市车辆的利用效率。但由于平台疏于审查、政府监管不到位,近年来安全事故频发,特别是以滴滴出行为代表的网约车平台,在2018年短短的三个多月就发生了两起恶性安全事件,引起了社会舆论的广泛关注,公众对网约车的安全风险感知增强,整个网约车市场陷入信任危机。本研究从风险感知这一角度切
血糖指数 GI 是反映食物引起血糖应答的特性,反映的是糖的"质"。血糖负荷 GL 是在 GI 的基础上,将摄入糖类的质量和数量结合起来,以评价膳食总的生糖效应。近几年来,关于 GI)
乡村旅游扶贫和民族经济发展是近年来的热点议题。文章通过对四川宝兴硗碛藏族乡民族特色旅游业的调研,总结出硗碛特色旅游业的发展态势,指出其在统筹规划、打造开发等方面的
基于浙江省宁波市中小学校试点工程改造,安装室内空气质量监测系统和两种机械通风装置,实时采集监测数据,以CO2浓度为主要研究指标,分析教室内空气质量现状,并对比分析教室开
在生态旅游小镇的规划设计中,需要景区管理者融合城乡规划学、水生态学以及景观学等多项知识,多部门、多学科协同建设特色生态旅游小镇。文章以生态旅游为研究切入点,重点考
【目的】更好地掌握湖南省资水流域汛期暴雨气候特征。【方法】利用经验正交函数分解、全局Moran’s I指数、线性倾向估计、Mann-Kendall检验分析了湖南省资水流域14个国家气
该文从五个方面列举了卫星通信在信息技术蓬勃发展并广泛应用的火热形势下,不仅不会备受冷落而是大有作为.我国卫星通信制造业的兴起和发展,必将推动卫星通信技术的广泛应用,
文章描述了蓝牙设备访问LAN的协议,描述了单个蓝牙设备、多个蓝牙设备接入LAN的方案及蓝牙设备之间的连接.并说明各层协议及工作过程.
增强型地热系统(EGS)是一种开发利用深层地热能的工程,在工程的长期运行过程中水岩作用对储层孔渗特征的影响不容忽视。以松辽盆地泉头组流纹岩和青海贵德扎仓沟地区花岗岩为研