论文部分内容阅读
当今社会,随着互联网的高速发展,信息无处不在。在这个“信息大爆炸”的时代,网络信息技术深刻地改变了人们的生活。如何让人们更全、更准地获取自己想要的信息,是一个亟待解决的问题。本文分析了查询概念扩展和查询词权重的国内外研究方法,并结合云模型理论,发现现有的研究方法忽略了概念和查询词分布二者中的不确定性知识。因此,本文从这两个方面挖掘了查询语句中蕴含的不确定性知识,进而对查询语句进行处理,使得检索结果更全、更准。针对查询概念扩展会引入杂质信息这一问题,本文提出了一种基于语义指纹的查询扩展语句的过滤方法。该方法利用语义指纹显式地刻画了概念的语义知识和云模型理论可以挖掘不确定性知识这些基本特性,定性分析语义指纹中的不确定特征,以完善概念的形式化表示。在语义指纹的研究基础上,生成了查询语句的云数字特征,从融合语义知识及不确定性知识的角度,计算出查询扩展语句与原查询语句的相似度,进而过滤掉与原查询语句语义不同的查询扩展语句。查询词对查询语句的贡献程度是不同的,而且研究发现这一贡献度可以通过查询词在查询域中分布的不确定性知识得以反映。本文提出了一种基于云特征权重的文档打分方法。该方法利用云模型理论挖掘查询词在查询域中分布的不确定性知识,经定性定量转换后,计算出查询域的查询词权重。在云特征权重研究基础上,从融入查询词分布特征角度上,改进了经典的概率模型BM25和BM25F的文档打分方法,来提高文档排序的准确率。本文在NTCIR-5中文信息检索标准测试集上对本文所提出的方法进行了相应的实验,并利用TREC评测标准对实验结果进行了评测。评测结果表明,本文所提出的方法能有效地改善信息检索的效果,也间接地证明了本文从不确定性知识的角度对查询语句进行两个方面处理方法的有效性。