基于链接文本相似度和时间因子的Web挖掘算法

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:pjpdl6123475
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机网络技术的快速发展以及数据库、数据仓库等数据仓储技术在管理信息系统中日益广泛的应用,互联网上的信息迅猛增长,海量数据不断产生,Web逐渐成为人们进行资源获取与信息共享的重要平台。与此同时,互联网的架构也变得异乎寻常的庞大,其数据是实时变化的、分布式的、异构的,且缺乏有效统一的管理机制。因此,面对Internet上的海量数据,如何快速而准确地找到所需信息成为亟待解决的问题,同时也给搜索引擎带来了前所未有的机遇与挑战。Web数据挖掘正是在这样的需求背景下应运而生的,并逐渐地在实际中得到广泛的应用。本文首先对Web数据挖掘的相关背景及理论进行研究,分析并总结了其研究现状。在此基础上,重点分析了PageRank算法的基本原理、计算方法和优缺点。然后,针对其存在的主题漂移现象与偏重旧网页问题,结合向量空间模型,融入链接文本和其指向的网页内容之间的相似度信息,并将网页产生时间作为反馈因子,提出一种改进的基于链接文本相似和时间因子的ATSTF-PageRank算法。最后,制定切实可行的验证方案,设计并实现基于Nutch开源搜索引擎的实验系统,分别在SinaData数据集和TencentData数据集下对ATSTF-PageRank算法和原始的PageRank算法进行对比实验。实验结果表明,ATSTF-PageRank算法有效地抑制了主题漂移现象,增强了查询结果的准确性和时效性,提高了搜索引擎的查准率及用户满意度。
其他文献
随着科学技术的发展,人们对图像品质要求的提高,数字图像处理在人们生活中扮演了越来越重要的角色。而图像在采集、编码、传输等过程中,经常会受到噪声信号的污染,也对图像的
在日益多样化的网络应用需求下,传统网络暴露出越来越多的缺陷,使得以追求高开放、高灵活、高可扩展、高可管控为目的的新一代网络体系架构得到了广泛研究,然而在追求开放、灵活
人脸识别是根据人面部影像中的有效信息进行身份鉴别的一项技术,是生物特征识别领域的重要组成部分。凭借在国防安全、社会公共安全以及各行业中的应用前景,人脸识别的研究近
随着互联网爆炸式的发展,越来越多的人开始使用互联网,并且互联网中信息量变得越来越大,导致网络拥堵日益严重,降低了网络服务质量。另一方面,互联网中充斥的暴力、反社会、色情等
随着计算机技术和网络技术的迅速发展,互联网上共享的文本呈海量趋势增长,包括数字图书馆环境下的大文本和社交媒体文本等。如何有效存储、管理、检索和使用这些文本数据,是摆在
随着多核处理器体系结构的飞速发展,片上多核处理器以其特有的优势成为主流多核处理器架构被广泛应用到服务器、PC机等商品中,对其进行的研究也在不断深入。多核处理器在多任务
本体是共享概念模型明确的形式化的规范说明,自提出以来就成为研究的热点,并在知识工程、信息检索、Web异构信息处理和语义Web等方面得到了广泛的应用。在大规模本体构建的基
自从计算机诞生以来,计算机硬件故障和软件错误就不可避免地伴随着。在云计算环境下计算机硬件和软件环境更为复杂,随着处理机数量的增加,故障发生的概率与恢复难度也会随之增加
传统伤口评估需要临床医师凭借经验对伤口使用毫米尺等工具进行手动测量大小和视觉观察给出伤病级别、感染等伤口状态评估,因其较低效率占用了海量医疗资源。多光谱图像可获
灵敏性分析是研究改变参数的值及其传播过程,考察参数变化对于目标对象所产生的影响,从而对系统参数和结构的重要性进行量化分析,在系统的特性分析和异常特征发现方面有着广泛的