基于用户本体的初始URLs选择方法的研究

来源 :西华大学 | 被引量 : 0次 | 上传用户：ajianginger

【摘要】

：

近年来,随着Internet/Web技术的快速普及和迅猛发展,其为人们提供了丰富的信息资源的同时,它所具有的海量数据、复杂性、极强的动态性和用户的多态性等特点也给搜索引擎造成

【作者】

：

王玉婷

【机构】

：

西华大学

【出处】

：

西华大学

【发表日期】

：

2009年期

【关键词】

：

初始URLs 用户本体完全二分图 HITS 主题区域

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近年来,随着Internet/Web技术的快速普及和迅猛发展,其为人们提供了丰富的信息资源的同时,它所具有的海量数据、复杂性、极强的动态性和用户的多态性等特点也给搜索引擎造成了相当的难度。因此,面向主题的智能检索系统应运而生并引起了研究者的极大重视。主题搜索引擎的爬行虫,称为主题爬行虫,它自动识别主题信息,快速、有选择地遍历与主题相关的区域并下载网页,为面向主题的用户查询准备数据资源。但是对于Web自身复杂的结构和主题爬行虫的实时性,如何提高主题爬行虫的主题识别能力?如何在较短时间内下载更多与主题相关的网页?如何穿过与主题无关的网页到达与用户兴趣主题相关的网页?这些是目前主题搜索的研究焦点。本文研究的内容是从理论和实验证明初始URLs的选择对于主题爬行虫在爬行初期具有重要的引导作用,最后提出有效可行的解决方案。首先,本文通过模拟Web链接结构的实验验证了:为主题爬行虫选择好的初始URLs,可以在较短时间内下载更多与主题相关的网页,尤其是在爬行的初期阶段。从而验证了本课题的可行性与价值。其次,本文在分析Web链接结构的同时结合网页内容的语义信息提出了基于用户本体的初始URLs选择的算法OntoSelectSeeds。该算法的特点是①对HITS算法中获取基础集(Base Set)的过程进行了改进。由于HITS算法纯粹基于链接分析来发现权威网页,在把根集(Root Set)扩展到基础集(Base Set)的时候完全不考虑网页的具体内容,导致了“主题漂移”的现象。因此,本文通过引入“用户本体”加权扩展用户的兴趣主题,然后使用该主题来修剪HITS算法中的基础集(Base Set),提高主题识别能力。②通过引入“完全二分图”的概念,把在“图中找连通分量”的问题转化为“在主题区域找完全二分子图”的问题,降低了算法实现的难度。③每次从Web上提取出一个完全二分子图后,得到Hset和Aset两个结点集合。使用它们回到Web中去找主题区域的其他部分,这样爬行虫在提高系统精确度的同时,保证了系统的召回率。④最后把Hset和Aset两个结点集合分别从中心页面集和权威页面集中移除,并重新对中心页面集和权威页面集进行排序,提取,删除操作,反复迭代直到选择了足够数量的初始URLs为止。最后,通过实验从2个方面评价了本文提出的初始URLs选择方法。①使用OntoSelectSeeds算法选择初始URLs与任意指定初始URLs,比较爬行虫所下载网页的PageRank值。②使用OntoSelectSeeds算法选择初始URLs与任意指定初始URLs,比较爬行虫在相同时间内下载网页的数量。经过实验结果对比,证明了本文提出的基于用户本体初始URLs选择是有效的。尤其是在爬行虫的爬行初期,效率远远高于任意指定的初始URLs。

其他文献

基于识别的公式编辑器的研究和开发

随着Internet的迅速发展,计算机和网络技术极大地促进了社会生产、生活和学习等各个方面的发展。作为传播知识和技术主阵地的教育行业同样也受到计算机和网络技术的巨大影响,

学位

数据结构公式编辑器数学表达式语义理解

压缩感知中图像重构算法的研究

传统的奈奎斯特采样定理越来越难以满足数据量爆炸式增长的信息时代的数据采样需求,人们迫切需要新的采样方式。在这种背景下,压缩感知理论应运而生,实现了对信号采样的同时

学位

压缩感知图像重构最小范数匹配追踪相关系数

融合智能技术的人工免疫主动防御体系研究

网络技术的迅速发展,从根本上改变了人们的生活和工作方式,给我们社会的各个方面都带来了深远的影响。与此同时,网络潜在的危险也在不断的增加,例如,针对网络的新型攻击手段

学位

入侵检测人工免疫Teiresias算法基因库

富客户端技术的应用及性能分析

随着Web应用的日益广泛和Web开发技术的不断发展，以用户体验型网络服务为特征的Web应用代表了目前互联网的发展趋势。在Web应用系统架构的几次转变中，富客户端模型被提出。富客

学位

富客户端模型AJAX技术Ext框架性能分析Web应用

基于射频卡的机房管理系统的研究与实现

高校的公共计算机机房主要承担学校计算机文化基础课程、计算机语言、毕业设计等实践教学任务以及学生的自由上机实践。随着计算机教育的发展以及计算机机房的扩大，运用计算机

学位

高校管理计算机房机房管理射频识别

工业以太网技术在智能建筑中的应用研究

随着科学技术的不断发展，特别在计算机技术，网络技术，自动控制技术的飞跃发展，和世界文明的不断进步，人们对物质的需求也有很大程度上的提高。对建筑物的要求不再是一个能“遮风挡

学位

智能建筑工业以太网应用层协议

椭圆曲线算法研究与应用

椭圆曲线密码体制(ECC)是一种新的公钥密码体制,在保证相同安全强度的情况下,所需密钥长度较其它公钥密码体制要短的多,所以特别适用于存储空间和运算速度受限的移动设备。目

学位

椭圆曲线密码体制双标量乘JSF算法多标量乘LiuDuo’s算法

手部运动重定向与运动连接技术的研究

在人体动画的制作过程中,如何模拟真实的手部运动效果一直是困扰动画制作人员的难题。在常用的手部动画制作方法中,传统的逐帧调节技术耗时耗力,并且很难得到自然流畅的动画

学位

运动编辑手部运动重定向手部运动连接碰撞检测包围盒

基于设计模式的生物信息存储研究

随着越来越多的生物基因(组)的测序完成,生物数据不但在数量上呈指数增长,存储及维护生物数据的组织和数据库也越来越多。对生物数据的分析与研究是我们的首要目的,但正因为

学位

生物信息存储模式生物信息抽象设计模式XML

基于WEBGIS的空间数据分析及其可视化研究

地理信息系统(Geographic Information System,GIS)是操作和分析、收集、及管理空间数据地计算机软、硬件系统。它的基础是地理坐标,在处理空间数据方面有超强的能力。近年来

学位

WEBGIS空间数据分析可视化MapXtreme for JavaJAVAEE

基于用户本体的初始URLs选择方法的研究

与本文相关的学术论文