论文部分内容阅读
网络中的信息每分每秒都在急剧增长,人们如何从海量数据中即时、有效地获取所需信息,成为目前网络搜索引擎挑战的一大难题。网页排序算法作为搜索引擎的核心技术,主要作用是将搜索到的相关网页排序后呈现给用户,因此在用户对搜索引擎的评价因素中最重要的就是排序算法的优劣。应用于著名搜索引擎 Google中的PageRank算法是由其创始人布林和佩奇所提出的,并成为了经典排序算法,尽管其结合网络超链接结构,能够对搜索结果的排序效果进行优化,但仍然存在许多问题,主要包括平均分配网页PR值、偏向旧网页、忽视用户兴趣和主题漂移。为了进一步提升搜索引擎的用户满意度,满足用户的要求,本文进一步研究了对传统的PageRank算法的改进。 首先,本文通过综合考虑网络超链接结构以及用户反馈两大要素,引出本文所改进的PageRank算法——BPR算法。该算法包括两个主要因素:体现用户反馈的偏好因子和体现网页在当前时间信息价值高低的网页热度因子。其中,用户对网页的偏好因子是根据通过网页链接结构、点击量以及网页存在时间信息获得的,通过该因子BPR算法对新旧网页的权威值进行较合理分配;网页的热度因子则通过网页最近一次被点击的时间与该网页当前被搜索引擎搜索到的当前日期的时间间隔获得的,该因子对网页位置进一步做出修整,使得当前信息价值高的网页排序靠前,信息价值较低的网页下沉。BPR算法修正了PageRank算法中平均分配网页PR值、倾向旧网页、忽视用户兴趣的不足,同时,实验结果表明,BPR算法能够提升网页结果集排序效果。 通过对第三章的研究,本文进一步分析用户点击行为,细化网页点击量为链接点击量作为用户反馈信息,并在累计该信息时采用用户浏览时间对链接点击量进行过滤;同时将网页链接结构细化为链入与链出,并结合网页实际内容以及网页存在时长信息,提出了一种改进算法。该算法弥补了经典 PageRank算法中平均分配网页 PR值、倾向旧网页、忽视用户兴趣及主题漂移的不足。实验结果表明,该算法在一定程度上对传统PageRank算法排序因子单一性进行了较好改善,进一步提升用户对检索结果的可信度与满意度。