PageRank算法在Web挖掘中的研究与应用

来源 :江苏科技大学 | 被引量 : 1次 | 上传用户:hanxianzhi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机网络技术的快速发展,用户获取信息的途径越来越多,但面对庞大的信息资源,如何高效准确的获取对自己有用的信息成为一个难题。在Web结构挖掘中,通过分析网页间的链接关系,结合用户搜索主题,能为用户提供更全面、更精确的信息。本文以Web结构挖掘的Page Rank算法为对象,对其数学模型和实际应用情况进行深入研究,指出了存在主题漂移和偏重旧网页的不足,并提出改进算法,实验结果表明,改进后的算法提高了搜索效果。本文主要工作内容如下:(1)首先对Web数据挖掘和搜索引擎进行研究,介绍了Web数据挖掘的研究背景和发展趋势,详细介绍了其各自的应用场景、发展状况和优缺点;介绍了搜索引擎的原理和应用流程等。(2)针对主题漂移的缺点,本文基于IDF词频计算和二元检索模型提出了BM25概率检索模型,该模型区别于传统的余弦相似度计算,在计算关键字和文档的相关度的过程中,具有更灵活、更高效的优势。(3)针对偏重旧网页的不足,本文引入时间反馈因子,使用搜索引擎搜索到的周期数来替代网页的发布时间,避免了因网页结构差异而导致发布时间获取规则的不统一的问题,能有效对质量高的新网页提供补偿。(4)根据(2)(3)的工作,提出一种改进的Page Rank算法,为了验证改进算法的优势,通过网页爬虫工具Nutch抓取原始网页,进行预处理后作为数据集存储到数据库中,最后分别用原始Page Rank算法和改进的Page Rank算法进行试验,验证了改进算法的有效性。
其他文献
在当前建设服务型政府的背景下,中国政府的整体职能正发生着深刻地变化。税务系统作为政府的行政执法部门,税收服务正由管理型税收向服务型税收转变。在这个职能转变的过程中
农村土地规模化流转政策符合未来农村发展的主流趋势,同时能够有效调整农业结构,切实增加农民的收入水平。但是根据实施情况看,农民的"恋地"、流转主体不规范、流转机制不完
同仁县的黄果梨种植历史十分悠久,具有十分丰富的养分和独特的口味,受到了市场的青睐。新时期下,为进一步提升黄果梨的整体产量,扩大种植户的经济效益,需要进一步研究黄果梨
为了解决传统强制式搅拌工艺导致的水泥稳定碎石中水泥水化不充分的问题,改善水泥稳定碎石的力学性能和路用性能,采用传统搅拌和振动搅拌2种搅拌方式,对比不同级配、养生龄期
以某超宽斜拉桥为依托工程,利用ANSYS有限元软件进行实体模型分析,对斜拉桥在恒载作用下的主梁正应力及其剪力滞效应进行计算分析,得出该类结构的主梁剪力滞效应的基本规律。
第一部分:慢性肾脏病血脂异常与微炎症、氧化应激的关系目的:研究非透析慢性肾脏病(Chronic kidney diseases,CKD)2-5期患者高脂血症与微炎症状态、氧化应激反应之间的联系,
1病例介绍患者女性,76岁,主因眼睑下垂,咀嚼吞咽费力2月于2011年5月19日收住我科。诊断为重症肌无力-Ⅲ型。既往有冠状动脉粥样硬化性心脏病史10余年;便秘病史10余年,大便干
东台常年种植西甜瓜,早春反季节设施西甜瓜及小果型西瓜种植面积全国第一,农民培训积极推广东台西甜瓜全产业链绿色高效技术,促进了技术转化,搭建了技术人员与农民沟通的途径
自噬与2型糖尿病的关系是目前一个新兴研究领域。研究发现,自噬与胰岛β细胞功能缺陷和胰岛素抵抗均可能相关,本文对这方面研究进展进行综述和讨论。
积极心理学将心理学从研究少数人的心理疾病转为开发所有人的积极心理品质。近年来,积极心理学的相关理论和方法在部队心理服务工作中得到了应用,对官兵心理健康维护起到了积