Web结构挖掘中的页面排序算法研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:mantisli
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着互联网的迅速发展和技术的不断更新,互联网上的信息也与日俱增,人们生活和学习的方式都因此发生了翻天覆地的变化。而普通的互联网用户想要找到自己所需的信息犹如大海捞针,在这一形势下搜索技术诞生了,而根据网页之间的链接关系对网页权威值进行排序的Web页面排序算法是其关键技术之一。众所周知,Google公司的PageRank算法是非常经典的页面排序算法,其主要思想是根据网页之间的链接关系进行权威值的传递,从数学模型上来讲,PageRank算法是一个马尔科夫随机游走模型。HITS算法是另一个经典的算法,它将网页分为权威网页和枢纽网页两种,利用网页的权威值和枢纽值之间的相互加强作用求得网页最终的权威值,并以此对网页进行排序。本文首先介绍了搜索引擎的组成、原理以及简单分类,对Web数据挖掘尤其是Web结构挖掘进行了总结和概括。其次对Web结构挖掘中的PageRank算法和HITS算法进行了系统的研究,总结两种算法的优点和缺点,并分析导致其缺点的主要原因。然后,针对PageRank算法的缺点及其原因,结合HITS算法的思想,设计了两种新的算法。第一个算法考虑了被链入页面的入度、死链率和出度,重新定义了页面转移函数,克服了PageRank算法主题漂移的缺点;第二个算法增加了网页继承PR值的思想,考虑了网页修改时间的因素,克服了PageRank算法歧视新网页、倾向旧网页的缺点。最后,设计一个爬虫程序,分别模拟了经典PageRank算法和两个新算法,并对三者进行了全面的对比,从而验证了算法的有效性和可行性。
其他文献
问答系统是一种高级形式的检索系统,它能用准确、简洁的自然语言回答用户用自然语言提出的问题。其研究兴起的主要原因是人们对快速、准确地获取信息的需求。但是传统的问答系
随着生物学中的基因微阵列数据呈现爆炸式增长,直接对这些海量数据进行认知变得越来越困难,这就出现了对能够从这些海量数据中探究其内在结构的机器学习方法的需求。如何对这些
机器人视觉系统通过视觉传感器获取环境的二维图像,并通过视觉处理器进行分析和解释,进而转换为符号,让机器人能够辨识物体,并确定其位置。  本文首先概要性的介绍机器人视觉系
片上网络借鉴了并行计算机互连网络的思想,在芯片上实现处理单元之间的互连,从而在体系结构上解决了总线结构所造成的一系列问题,逐渐成为当前最为活跃的学术课题之一。其中,路由
转录因子结合位点是重要的基因调控元件,转录因子结合位点的预测和识别是理解基因调控网络的关键。  针对转录因子结合位点位置频率矩阵的相似性度量函数和聚类问题,本论文的
专利等级划分的方法多种多样,应用最广泛、最有效的方法是由前苏联G.S.Altshuller教授提出的等级划分方法。在判断专利等级的时候,Altshuller引入许多标准:(a)什么种类的知识才
JPEG XR是微软公司开发的一种新颖的静止图像压缩算法和格式,现已成为新一代静止图像编码标准。与JPEG2000相比,JPEG XR可以获得差不多的压缩效率,但编码复杂度却要低得多。而与
近年来,TOF深度相机在三维重建、人机交互、增强现实等领域有着越来越广泛的应用。TOF深度相机有着精度高的不可比拟的优点,但是传统的TOF相机也存在速度慢、不易操作、成本
随着数字信息技术和嵌入式技术的高速发展,数字信号处理芯片已经广泛的应用到人们生活的各个方面。由于数字信号处理芯片硬件方面的进步,嵌入式系统日益复杂,嵌入式软件开发的规
随着数字化技术的飞速发展和互联网的日益普及,随之而来的网络安全问题也越来越突出,由此,数字水印技术作为产品版权保护的有效手段已经受到普遍重视。近年来,数字水印技术研究大