基于网页链接结构和内容分析的PageRank算法改进研究

来源 :桂林电子科技大学 | 被引量 : 0次 | 上传用户:xielianqin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网络中的信息每分每秒都在急剧增长,人们如何从海量数据中即时、有效地获取所需信息,成为目前网络搜索引擎挑战的一大难题。网页排序算法作为搜索引擎的核心技术,主要作用是将搜索到的相关网页排序后呈现给用户,因此在用户对搜索引擎的评价因素中最重要的就是排序算法的优劣。应用于著名搜索引擎 Google中的PageRank算法是由其创始人布林和佩奇所提出的,并成为了经典排序算法,尽管其结合网络超链接结构,能够对搜索结果的排序效果进行优化,但仍然存在许多问题,主要包括平均分配网页PR值、偏向旧网页、忽视用户兴趣和主题漂移。为了进一步提升搜索引擎的用户满意度,满足用户的要求,本文进一步研究了对传统的PageRank算法的改进。  首先,本文通过综合考虑网络超链接结构以及用户反馈两大要素,引出本文所改进的PageRank算法——BPR算法。该算法包括两个主要因素:体现用户反馈的偏好因子和体现网页在当前时间信息价值高低的网页热度因子。其中,用户对网页的偏好因子是根据通过网页链接结构、点击量以及网页存在时间信息获得的,通过该因子BPR算法对新旧网页的权威值进行较合理分配;网页的热度因子则通过网页最近一次被点击的时间与该网页当前被搜索引擎搜索到的当前日期的时间间隔获得的,该因子对网页位置进一步做出修整,使得当前信息价值高的网页排序靠前,信息价值较低的网页下沉。BPR算法修正了PageRank算法中平均分配网页PR值、倾向旧网页、忽视用户兴趣的不足,同时,实验结果表明,BPR算法能够提升网页结果集排序效果。  通过对第三章的研究,本文进一步分析用户点击行为,细化网页点击量为链接点击量作为用户反馈信息,并在累计该信息时采用用户浏览时间对链接点击量进行过滤;同时将网页链接结构细化为链入与链出,并结合网页实际内容以及网页存在时长信息,提出了一种改进算法。该算法弥补了经典 PageRank算法中平均分配网页 PR值、倾向旧网页、忽视用户兴趣及主题漂移的不足。实验结果表明,该算法在一定程度上对传统PageRank算法排序因子单一性进行了较好改善,进一步提升用户对检索结果的可信度与满意度。
其他文献
随着计算机、网络等技术的迅猛发展,现实世界越来越依赖于计算机系统。一方面,人们享受着这些信息技术带来的巨大进步;另一方面,又不得不面对着越来越严重的信息安全威胁,特
本人参与开发的“高速公路交通综合管理计算机网络系统”能够无人值守检测高速公路行驶车辆的速度,自动采集和存储违章数据,能够通过计算机网络查询、管理和维护车辆的违章信
构建水面舰艇的“一条舰、全武器”模拟训练系统足新世纪海军作战训练仿真中的重点与难点。舰载武器系统中的每个分系统既要独立执行自己的作战职能,又要与其他分系统间密切配
在对关联规则的基本原理和方法进行介绍和分析的基础之上,得到了一种Apriori算法的改进算法——AprioriPrune算法。在对关联规则分布式挖掘算法CD算法,DD算法和FDM算法的介绍
图像分割是图像处理、图像分析和计算机视觉中的基本技术,其被广泛应用于军事作战、工业检测、临床医学、城市交通等重要领域,具有很高的研究意义和实用价值。在众多图像分割
随着计算机技术、网络通信技术、多媒体技术的飞速发展,将计算机和网络技术引入我国远程教育领域,已成为现代远程教育发展的需要和必然趋势。特别是随着Internet和Intranet向
随着网络规模的日益增大,网络用户的不断增长,网络用途的多样化,用户对网络服务质量需要越来越高,这对网络测量方法提出了更高的要求。同时网络传输能力和网络中实际业务流量
近二三十年以来,以Internet为典型代表的大规模IP网络得到了迅猛发展,对国家政治、经济、乃至人们的思维方式都产生了深刻的影响。伴随着计算机网络规模的不断扩大和复杂性的不
无线传感器网络(WSN)作为未来新兴的技术之一,它的迅速发展和广泛应用,将对人们的社会生活和产业变革带来极大地影响和巨大的推动,它相对于蓝牙网络、无线局域网、移动通信网、Ad
在成熟的技术支持和国家相关政策的推动下,数字电视机顶盒在国内得到了极大的普及。同时在智能家庭网络项目的推动下,机顶盒也渐渐成为了智能家庭网络的网关。随着用户对机顶盒