论文部分内容阅读
个性化检索是当前信息检索的研究热点之一。它根据用户的个性化需求,实现信息的自动收集、分析和推送等服务。与一般的信息检索相比,服务的针对性更强,质量更高。相关网页排序结果的优劣是检索服务质量好坏的最根本体现,因此网页的相关度评价是个性化检索系统的关键环节。概率模型在用户兴趣建模上有独特的优势,它引入概率参数,可以更准确地刻画用户的需求,适合个性化检索的相关度评价。 本文以名人网页为基础,研究实体网页的个性化检索,旨在提高实体网页的相关度评价准确率。本文设计并实现了基于概率模型的名人网页相关度评价算法,探讨了概率模型的训练、模型的改进及查询扩展等三方面问题,总结了概率模型的规律,提出了多种提高网页相关度评价准确率的方法,并给出了翔实的实验结果。 本文研究工作的主要创新点有: (1)提出了一种实体网页的概率模型的训练集选择方法,提高训练效果的同时降低了算法开销。 (2)改进模型的概率计算公式,引入更细致的用户反馈信息,优化特征项的分布概率;改进相关度计算公式,引入词频、网页长度、HTML标记等网页信息,提出对实体分类定制相关度计算公式的思想。 (3)针对实体属性信息的特点,提出相关网页和用户查询相结合抽取相关特征项进行查询扩展的方法。 实验表明,与名人网页相关度评价的原有模型相比,本文模型在很大程度上提高了相关度评价的准确率,并且可以直接应用到其他类型实体网页的检索,文中的方法和结论为实体网页的个性化检索研究提供了参考。