基于本体的主题爬虫的设计与实现

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:charoltte8816
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
计算机网络极大地提高了人们获取信息的能力。随着计算机网络的迅速发展,网络信息增长的速度和人们获取信息的能力之间的矛盾越来越突出。传统搜索引擎己经不能满足人们对个性化信息检索服务日益增长的需要。近年来,面向主题的搜索引擎应运而生,它能够提供分类更细致精确、数据更全面深入的因特网搜索服务,并且对硬件要求低、结果更新也很及时。面向主题搜索引擎的核心组成部分是主题爬虫。主题爬虫是一种可以自动采集网页的程序,其目标是搜索网络中属于预定主题的那一部分网页子集。主题爬虫的爬行算法作为主题搜索引擎技术的关键,对其进行研究不但可以扩大所搜索主题的资源覆盖范围,而且还能有效地提高爬行性能和网络带宽的利用率。本文对主题爬虫采用的爬行算法进行了研究及讨论。论文首先介绍了主题搜索引擎的基本功能,接着分析了主题爬虫的基本结构及其工作原理,然后详细讨论了主题爬虫的搜索策略,并重点分析了主题爬虫在爬行过程中常用的最好优先算法及其存在的隧道问题。基于上述分析及讨论,论文给出了一种基于本体的主题爬虫最好优先爬行算法:在网页搜索过程中遇到一个与主题无关的网页时,并不马上抛弃该网页,而是利用基于本体方法建立的领域知识模型对该网页进行概念相关性判断,并指导主题爬虫更好地探索爬行方向并穿过隧道。最后我们利用该改进算法设计并实现了一个主题爬虫原型系统。实验表明该系统可以有效地帮助主题爬虫扩大搜索范围。
其他文献
足球运动是备受青少年喜爱的一种体育运动项目,随着我国校园足球的推广,如何激发青少年足球学习兴趣,提高青少年足球竞技能力成为备受关注的话题.现如今计算机技术已经成为学
《国家新型城镇化规划(2014年-2020年)》明确提出城市发展重点要向小城市倾斜,构建以市场为主的满足多层次需求的住房体系。而当前对住房市场的研究多是以大城市成熟住房市场
经过20多年的孕育与发展,我国的产业集群总体上已经走过了形成期,正在向更高、更新的阶段迈进,将产业集群研究深入到企业层次逐渐成为理论研究的重点和关键之一。在微观层面,以产业集群的演进为依托的企业命运却也不尽相同,部分企业得以快速发展成长,部分企业则走向衰落甚至死亡,集群企业生存发展机制成为学者关注的重点。面对如上种种,国内外学者纷纷提出“大力提高企业的自主创新能力是其发展和生存的根本途径”。基于上