信息检索中的相关反馈技术研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:yf15950800613
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息检索时,需求的模糊导致查询结果不尽人意。为使检索更有效,需采用各种相关反馈途径对检索策略进行修改,以发现用户的信息需求。近年来,研究者提出了基于各种检索模型下的反馈方法,比较突出的有向量空间模型和概率模型。在本文中首先系统地介绍了信息检索以及各种检索模型下的相关反馈技术。在对反馈技术进行仔细分析的前提下,本文提出了如下创新:首先分析了向量空间模型及其中的相关反馈。研究发现,向量空间模型检索精度及其中相关反馈的查准率,都在一定程度上受到原始矩阵中数据准确度的影响。传统的权值构造方法是词频-逆文档频率法及其扩展方法。这些方法在处理Web文档的时候,没有考虑到不同Web标签中同一词汇的影响程度有所不同这一特点,故不能准确地反映文档集特点。本文提出了Web标签影响因子算法,通过对大量的训练文档进行分析,从而获得比较准确的标签因子,用其对原始矩阵数据进行了一定程度的精化。通过实验,发现对改善系统查准率有一定帮助。文中重点分析了概率潜在语义模型中的相关反馈技术。首先对PAM算法进行了初始k点选择优化,优化技术为辐射场,并对辐射场技术中每个参数的选择提出了具体的解决办法。在概率潜在语义模型的基础上,结合这种改良的聚类算法本文提出了新的相关反馈流程。用概率潜在语义模型构造的数据矩阵为本次研究的基础数据,用k -中心点算法(PAM)的聚类结果来近似的拟合潜在语义类别。由于聚类的结果只与输入矩阵的数据有关;而建立概率潜在语义模型的算法,其唯一依据也是原始矩阵数据;若将PAM算法中聚类个数限定为潜在语义类的类别数目,就可以认为二者有较强的联系,可以用聚类结果类别来近似拟合潜在语义类。类别拟合完毕以后,文中还给出了类标题生成方法,且构建了反馈后对原始查询的查询词扩展方法。用查全率和查准率两个指标来衡量改良后的检索结果,实验数据表明,系统性能在一定程度上得到了改善。
其他文献
随着Internet技术的发展和应用,计算机网络对人们生活和工作的影响越来越大,校园网络更是发展迅猛异常。如何顺应历史的潮流,建设好自己的校园网是每一个建网学校所关心的问题。
当前,一个机构往往存在多个不同形式,例如,一个大型的企、事业单位,常有很多分支机构,由于工作的侧重点不同,各分支机构可能使用不同的数据库管理系统来管理数据,这样各机构
H.264编码标准与以往各种编码标准相比,具有更高的编码效率。然而,其编码效率的提高是以增加编码算法的计算复杂度为代价的,较高的算法复杂度在一定程度上影响了H.264的产业
K-means聚类算法是一种基于划分的聚类算法,在众多聚类算法的性能比较中,该算法具有效率高、可发现任意聚类形状、对数据输入顺序不敏感、且对于高维数据也有较好的性能,而得
海洋平台是人类在海洋作业的重要基础设施之一,也是在海洋中开采石油资源和天然气资源的必要工具和设备,海洋平台长期受到海洋环境复杂性和不确定性等因素的影响导致海洋平台
随着大规模分布式并行应用的兴起,越来越多的计算机加入其中,极大的提高了系统的计算能力。而另一方面,计算机自身的不稳定性,给系统带来了许多隐患,降低了系统的可靠性。恶意的计
本文对数字水印的分类、主要特点以及数字水印系统的基本框架和数字水印技术的常用算法进行了介绍。针对目前的大部分多重水印算法虽然能嵌入多个水印但无法验证水印作品的多
随着我国经济的不断发展以及科学技术的进步,我国在电力方面的发展也取得了非常巨大的成就.电力企业能够健康快速的发展能够有效的促进我国社会经济持续不断的进步.可以说我
我觉得中央电视台的影响力真的是很大!我们的广告还没有播,只是参加了中央电视台的广告招标活动和三亚的年终答谢活动,今天上午天津的经销商就打来电话说那边已经卖断货了,而
流媒体技术的出现可以使得视频通过网络从媒体服务器向用户计算机连续、实时的传输。用户不必等到整个文件下载完毕就可以收看到媒体内容,这充分满足了用户的实时交互需要。