论文部分内容阅读
在大数据时代,海量网络数据使得传统聚焦爬虫技术的缺点渐渐凸显。面对不断增高的用户信息搜索要求,聚焦爬虫技术迫切需要改进和优化。近年来,人工智能的发展为聚焦爬虫技术提供新的思路,运用人工智能技术研究聚焦爬虫算法已经成为爬虫领域的热点方向。在此背景下,本学位论文以忆阻神经网络模型为基础,主要研究忆阻神经网络爬虫算法和基于Scrapy的忆阻神经网络爬虫系统。具体工作概括如下:1)基于忆阻神经网络的爬虫算法研究本论文提出基于忆阻神经网络的爬虫算法,详细阐述该神经网络的激活传播过程,综合广度优先搜索和最佳优先搜索策略来设计基于忆阻神经网络的搜索算法,并提出基于忆阻器模型的主题相关性分析算法和基于信息熵的主题相关性算法。2)基于Scrapy的忆阻神经网络爬虫系统的设计和实现引入基于视觉信息的网页分块算法和基于DBSCAN(Density-Based Spatial Clustering of Applications with Noise)的聚类算法,设计分块聚类算法解析网页;通过分析爬虫模块的调度关系与使用布隆过滤器,优化Scrapy框架下的URL去重;基于Scrapy开源爬虫框架,设计基于忆阻神经网络的聚焦爬虫系统。3)算法应用与实验分析应用基于忆阻神经网络的爬虫算法和聚焦爬虫系统到实际项目,采集和展示西藏发展成果。实验结果表明,在抓取大量网页后,本论文所提出的爬虫算法查准度达到50%以上,相比基于Breadth-First Search、Best-First Search等经典爬虫算法以及神经网络爬虫算法Hopfield net spider,查准率提高10%以上。通过引入分块聚类算法分析网页,聚焦爬虫的准确率从40%提升到60%。由此,本文所提出的爬虫算法及爬虫系统有效可行。