基于两阶段的深层网络数据源发现系统研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:gdmkhx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网数据根据是否能被搜索引擎所索引分为浅层网络和深层网络。深层网络相比浅层网络具有更大的数据量和更高的质量,高效的定位深层网络数据源是挖掘隐藏在深层网络背后信息的前提。由于Web本质是动态变化的,不断有新的数据源加入和旧的数据源撤出,以及查询表单稀疏分布的特点,现有的深层网络数据源发现系统会访问大量无关页面,导致效率低下。  基于两阶段的深层网络数据源发现系统(SmartCrawler),将数据源发现过程分为站点定位阶段和站内搜索阶段,并具有自适应、增量式和高效等特点。站点定位阶段借助搜索引擎反向爬行已发现的深层网络站点来收集站点数据,保证站点队列有充足的候选数据;采用自适应的站点排序机制实现优先选取潜在深层网络站点以及站点分类器来实现聚焦爬行。站内搜索阶段采取平衡的优先访问策略,在优先访问潜在指向含查询表单页面同时,通过设计树型结构来保证站点内部的覆盖范围。站点和链接优先选取策略采用学习智能体方法,通过自动抽取爬行过程中发现的深层网络站点和表单路径特征,并构建相应的特征空间作为站点和链接排序的依据,能够自适应的调节爬行过程中站点和链接的选取。  为了验证两阶段爬虫的性能,通过实现三种不同策略的爬虫,在8个具有代表性的领域,分别访问100,000个页面。测试结果表明,SmartCrawler能够有效提高爬行效率,在相同条件下能够收获更多的查询表单和覆盖更广的深层网络站点。自适应学习机制可以有效学习到新的特征,指导爬行过程中站点和链接的选取。
其他文献
随着信息化的发展和教学形式的多样化,多媒体教学系统在整个教学体系中占有越来越重要的地位。最早传统的多媒体教学系统一般选择在局域网内采用广播方式,随着校园网络结构组成
本文对数据挖掘在计算机等级考试预测系统中的应用技术进行了研究。通过设置数据问卷调查表及走访上该门课的教师,对广西工学院大一新生及教师进行全国高校计算机等级一级考试
随着市场经济的快速发展,人们的生活水准正在不断提高,商品种类也变得日益丰富,与此同时商品的假冒伪劣现象也越来越严重,这不仅损害了消费者的利益,也影响了生产者的信誉。因此,商
视景仿真技术是一门综合性技术,具有许多优点。视景仿真技术用于军事领域,建立一个虚拟的、逼真的电子战场环境,将更有效的辅助指挥员做出准确的判断。本文提出了一个水中兵器视
传统的自主访问控制DAC和强制访问控制MAC都各自的缺点,DAC会出现访问传递问题,而MAC在同级间缺乏控制机制。基于角色访问控制模型RBAC比传统的自主访问控制和强制访问控制更
本文对现有实时节能调度研究中所亟待解决的若干关键问题,进行了系统深入的研究,主要工作和贡献如下: 硬实时单任务节能调度方法研究。针对可变频率处理器的实际特征,本文提出
多核平台的普及使得并行软件渗入到计算领域的方方面面,由于软件并行度的提高,多线程之间的数据竞争检测为软件调试带来巨大挑战。数据竞争检测是一种通过分析并行程序的源代码
随着当前云计算技术的快速发展,越来越多的个人、企业与政府将会使用云计算服务,这些服务通过网络按需向用户提供。作为传统网络环境中最常见的攻击方式之一,分布式拒绝服务(DDo
随着Imemet的飞速发展,IP网络不但在规模而且在用户数量方面都得到了巨大增长,同时新的多媒体业务也越来越普遍,QoS路由问题已经成为Imemet发展中最具有挑战性的、最为活跃的研
教学质量评价作为教务管理工作中重要的环节,对及时发现教学中的存在问题,提高学校的教学质量,制定教学管理措施都有重要的指导意义。将基了粗糙集理论的规则抽取和联机分析技术