基于忆阻神经网络的爬虫算法研究

来源 :电子科技大学 | 被引量 : 2次 | 上传用户:yfzzx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在大数据时代,海量网络数据使得传统聚焦爬虫技术的缺点渐渐凸显。面对不断增高的用户信息搜索要求,聚焦爬虫技术迫切需要改进和优化。近年来,人工智能的发展为聚焦爬虫技术提供新的思路,运用人工智能技术研究聚焦爬虫算法已经成为爬虫领域的热点方向。在此背景下,本学位论文以忆阻神经网络模型为基础,主要研究忆阻神经网络爬虫算法和基于Scrapy的忆阻神经网络爬虫系统。具体工作概括如下:1)基于忆阻神经网络的爬虫算法研究本论文提出基于忆阻神经网络的爬虫算法,详细阐述该神经网络的激活传播过程,综合广度优先搜索和最佳优先搜索策略来设计基于忆阻神经网络的搜索算法,并提出基于忆阻器模型的主题相关性分析算法和基于信息熵的主题相关性算法。2)基于Scrapy的忆阻神经网络爬虫系统的设计和实现引入基于视觉信息的网页分块算法和基于DBSCAN(Density-Based Spatial Clustering of Applications with Noise)的聚类算法,设计分块聚类算法解析网页;通过分析爬虫模块的调度关系与使用布隆过滤器,优化Scrapy框架下的URL去重;基于Scrapy开源爬虫框架,设计基于忆阻神经网络的聚焦爬虫系统。3)算法应用与实验分析应用基于忆阻神经网络的爬虫算法和聚焦爬虫系统到实际项目,采集和展示西藏发展成果。实验结果表明,在抓取大量网页后,本论文所提出的爬虫算法查准度达到50%以上,相比基于Breadth-First Search、Best-First Search等经典爬虫算法以及神经网络爬虫算法Hopfield net spider,查准率提高10%以上。通过引入分块聚类算法分析网页,聚焦爬虫的准确率从40%提升到60%。由此,本文所提出的爬虫算法及爬虫系统有效可行。
其他文献
学会接纳,才能更好地付出  大学时的同寝好友来看我,一番寒暄后,我们聊起了大学生活。她告诉我,我给她的第一印象并不好。我疑惑地问她原因。她说:“新生报到那天,你打扫卫生没有洗衣粉,我好心好意拿洗衣粉给你用,你不但不用,还非要自己出去买。我当时想你一定是一个特别难相处的人。”我忙跟她解释:“我们当时并不熟,我不想占你便宜。”好友说:“我借你洗衣粉又没想要你还,只是想你当时需要,而我又刚好有,同寝互相
一个人要想在事业上做出一番不俗的成就,就必须学会主动,自己找活干。将公司当成“家”,将公司的利益视为“自己的利益”,而不仅仅是一个“发工资”的地方。很多时候,要想赢得老板的赏识和重视,并非他要你做什么你就去做什么,而是你能自己主动地去做出成绩。  拥有积极主动的态度,是我们实现事业目标的重要基础。如果你不主动向前走,没有人会推着你走——更多的人只会想方设法拽你后腿,希望你倒退不前或步履缓慢,始终走
微观经济学的研究内容是如何提高财富生产的效率,它可以帮助人们深刻理解:为什么只有市场经济体制才能实现资源优化配置从而大幅提高财富生产的效率。微观经济学尽管内容繁杂,但
专门用途英语(ESP)是大学英语教学发展的必然趋势,传统的语言教学方法不利于学习者的ESP交际能力培养,而多模态话语分析理论和语言输入理论运用在ESP教学中,能够融合各种模态建立
为简化无刷直流电机控制系统的结构同时又能使其具有较快的转矩响应速度,论文提出一种新颖的控制方案,将直接转矩控制和模糊控制相结合应用于无刷直流电机控制系统中。直接转
<正>领导不易,每天都有不少头疼的事情摆在眼前亟待解决,而这其中最头疼的恐怕要数如何管理好员工了。这一难题究竟该如何解决呢?对此,笔者做了一些思考,下面将从方法改进和
强势领导者常常表现出听取下属意见时自以为是、行政决策时一言九鼎、决策失误时耻于认账等心理偏向,从而容易导致领导独断、下层依赖、团队盲从等风险。为此,对强势领导者须
采用中国2003-2013年286个地级市面板数据,采用空间杜宾模型实证研究了金融发展对地级市间城乡收入差距的影响效应。结论显示:中国城乡收入差距不仅存在显著的空间集聚和溢出
随着社会的不断发展和会计的不断创新,人们与会计的联系也越来越密切,很多高职院校也顺应社会发展,纷纷开设《企业会计学》这门课程,但是在实际授课过程中,教学效果不甚理想。应从
影响节能环保产业发展的因素众多。本文运用主成分分析(PCA)法对相关指标进行分析研究,在此基础上,选取三个主要影响指标构建山东省节能环保产业投资的多元线性回归预测模型,并据