论文部分内容阅读
信息检索时,需求的模糊导致查询结果不尽人意。为使检索更有效,需采用各种相关反馈途径对检索策略进行修改,以发现用户的信息需求。近年来,研究者提出了基于各种检索模型下的反馈方法,比较突出的有向量空间模型和概率模型。在本文中首先系统地介绍了信息检索以及各种检索模型下的相关反馈技术。在对反馈技术进行仔细分析的前提下,本文提出了如下创新:首先分析了向量空间模型及其中的相关反馈。研究发现,向量空间模型检索精度及其中相关反馈的查准率,都在一定程度上受到原始矩阵中数据准确度的影响。传统的权值构造方法是词频-逆文档频率法及其扩展方法。这些方法在处理Web文档的时候,没有考虑到不同Web标签中同一词汇的影响程度有所不同这一特点,故不能准确地反映文档集特点。本文提出了Web标签影响因子算法,通过对大量的训练文档进行分析,从而获得比较准确的标签因子,用其对原始矩阵数据进行了一定程度的精化。通过实验,发现对改善系统查准率有一定帮助。文中重点分析了概率潜在语义模型中的相关反馈技术。首先对PAM算法进行了初始k点选择优化,优化技术为辐射场,并对辐射场技术中每个参数的选择提出了具体的解决办法。在概率潜在语义模型的基础上,结合这种改良的聚类算法本文提出了新的相关反馈流程。用概率潜在语义模型构造的数据矩阵为本次研究的基础数据,用k -中心点算法(PAM)的聚类结果来近似的拟合潜在语义类别。由于聚类的结果只与输入矩阵的数据有关;而建立概率潜在语义模型的算法,其唯一依据也是原始矩阵数据;若将PAM算法中聚类个数限定为潜在语义类的类别数目,就可以认为二者有较强的联系,可以用聚类结果类别来近似拟合潜在语义类。类别拟合完毕以后,文中还给出了类标题生成方法,且构建了反馈后对原始查询的查询词扩展方法。用查全率和查准率两个指标来衡量改良后的检索结果,实验数据表明,系统性能在一定程度上得到了改善。