搜索引擎中主题爬虫的研究与实现

被引量 : 0次 | 上传用户:cpts
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的迅速发展,网络信息增长的速度和人们获取所需信息能力之间的矛盾越来越突出。本文围绕主题搜索引擎这一社会研究的新热点技术,对主题搜索引擎中占有重要地位的主题爬虫给予研究和讨论。主题搜索引擎中的信息采集,即主题爬虫系统的搜索策略的研究,对于主题搜索引擎的应用与发展具有非常重要的作用。论文首先对主题搜索引擎的基本功能进行了简单介绍,引出主题搜索引擎的重要组成部分——主题爬虫,并分析了主题爬虫的基本结构及工作原理。然后对网络爬虫的搜索策略进行了讨论,重点介绍了基于Web超链接结构和基于网页文本内容的启发式搜索策略,并对它们进行了比较。在计算文本内容相似度算法的讨论中引入了经典的基于向量空间模型的分类方法。设计并初步实现了一个主题爬虫SoftSpider,介绍了该爬虫的结构以及相关设计细节。该爬虫的搜索算法是对Authorities and hubs算法的改进,采用了Web超链接分析和网页文本内容相结合的启发式搜索策略。最后对该爬虫的性能进行了测试,同时给出了实验结果及分析。
其他文献
扬州盐商为了改变低下的社会地位 ,广交文友 ,不惜重金组织各种艺文活动 ,资助文人、画家的生活和创作 ,文人、画家也给盐商不少实际帮助 ,使其跻身文人行列 ,成为儒商 ,从而
据统计,在1979年至2002年二十多年的时间中,我国加工贸易从无到有,从小到大,其出口额从2.35亿增至1044.7亿美元,增长了400多倍。我国加工贸易进口商品已达4000多种,加工贸易
旅游生态补偿是解决旅游发展矛盾的重要政策工具,为世界遗产保护提供了重要支撑,本文基于九寨沟、武陵源及武当山三座世界遗产的旅游生态补偿政策、内容和效果,分析世界遗产
知识经济时代,社会的发展和企业竞争的日益加剧,秘书工作的重要性越来越受到重视,专业型秘书成为急需人才。在我国,公司秘书职业成长迅速,但还存在诸多问题。文章运用文献计
随着网络技术和信号处理技术的快速发展,多媒体数据的内容保护和版权问题引起了人们的广泛关注。密码学方法加密了多媒体对象的内容,在一定范围内起到了保护作用。然而,这仍然不
本文将虚拟现实技术、计算机仿真技术、人工智能技术引入大型复杂装备维修训练,开发了大型复杂装备虚拟维修训练平台,为大型复杂装备维修训练提供了一种新的途径和方法。 本
实行对教师教学工作质量的科学评价,已成为高职院校教学管理工作的重要抓手,受到越来越多高校的重视。以台湾万能科技大学为例,介绍台湾高职院校教师教学反应评量的一些具体
目的:观察滋肾清化汤治疗围绝经期功血的临床止血疗效,并探讨其作用机制。 方法:滋肾清化汤治疗围绝经期功血患者28例,观察实验室指标包括血红蛋白(Hb)、血小板(PLT)、凝血酶
作者通过对现代企业制度下财务管理的实践探索,总结企业财务管理的中心地位,为国有现代转型企业构建以财务管理为中心的现代企业内部管理新型模式提供参考。
数字接收机技术是实现现代雷达各项苛刻指标的必然选择。国内外许多公司和科研机构都相当重视这方面的研究和设计。本文以某雷达接收机为应用背景,开展了十二通道数字中频接收