基于网络爬虫的注塑信息研究与实现

来源 :广东工业大学 | 被引量 : 0次 | 上传用户:zcykf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
这些年来,随着互联网的发展,尤其是智能手机和各种物联网设备的加入,互联网中的数据量也迎来了爆发式的增长。如此巨量的信息一方面丰富和方便了人们的生活,但另一方面也增加了获取有效信息的难度。因此采用主题爬虫技术方便快捷地收集注塑行业的相关信息,从而实现对注塑行业发展的监控和预测,对于企业发展有着重要意义。本文来源于《大型注塑成型智能制造工厂》,设计和实现了能够定向抓取网络数据的主题爬虫系统。通过阅读大量的国内外文献资料,然后结合项目实际中遇到的问题,对主题爬虫以及技术框架有了一定的了解和认识,发现一些对于主题爬虫的研究中所存在的问题:1)目前还没有对于如何选取适当的初始种子的研究;2)主题爬虫的性能和召回率仍有提高空间,需要进一步研究。针对上面提出的几个问题,通过进一步的实践研究,本文给出了一些新的解决方法,并以此为基础,设计实现了主题爬虫系统。在论文后面,利用多个实验表明了本文改进算法的效果。本文的创新点有以下几个:(1)在介绍了初始种子的选取问题后,在HITS算法的基础上,提出了一种新的改进,以此来更方便高效的选取初始种子。在本文中,结合HITS算法定义的权威度和中心度,通过它们来描述链接之间的连接情况,并定义了一个能够计算候选种子好坏的公式,从而选取更好的初始种子,提高主题爬虫的效率。在论文最后也给出了系统的采集结果,证明了算法改进的效果。(2)主题爬虫通常采用概念背景图来作为爬行策略,针对这种策略的缺点,本文给出了一种改进方法——基于综合价值的概念背景图的爬行策略。针对概念背景图的构建过程,给出了一种改进方法。与此同时,将经常被忽略的父网页、链接上下文等因素纳入了综合考虑,定义了一种能够预测待访问链接价值的公式,以此来提前预测链接价值,剔除无关链接,加快爬虫运行速率。在最后,给出相关实验数据,表明了采用改进后的爬行策略的主题爬虫,无论是速度还是精准度都有很大提升。(3)结合前两点,设计实现完整的主题爬虫系统。本文介绍了系统中关键模块的设计实现方案,并设计了相应的数据库方案,利用Java中的爬虫框架WebMagic实现了爬虫系统。该爬虫系统具有一定的通用性,初始种子选取策略的改进减少了大量的人工时间,爬行策略的改进提高了系统的速度和准确度。在最后,给出系统运行结果也表明爬行效率有显著的提升。
其他文献
随着时代的进步和经济的发展,全社会对博物馆的要求和期望值越来越高。因此,作为博物馆三大职能之一的社会教育职能开始占据更为重要的地位,而现代博物馆的性质也随之转型:已
城市化进程与碳排放紧密相关。基于绝对β收敛和条件β收敛模型,从城市化水平、能源强度和产业结构三个维度对1993-2013年中国城市化进程与碳排放之间的收敛关系进行实证研究
厌学,是要深入了解学生不喜欢学习原因的。笔者通过分析,揭示学生、教师和家庭这三者存在的问题,并提出矫正对策:即要严格要求,尊重信任;以心换心,赢得信赖;多给鼓励,增强信
毛泽东的民粹主义情结,在早期革命探索中,起到了积极作用,它帮助中共将中国革命的视点转向了农村和农民,并最终走向了胜利。而晚年的毛泽东因忽视客观的实际,主观上的民粹情
“数学问题生活化”是一全新的课程理念 ,课堂教学中如何用“活”教材 ,让数学走进生活 ,已成为广大教育工作者共同关心的问题。本文试图通过对两个教学片断的分析 ,向读者提
当前,广西电子信息产业已具有一定规模,且面临着良好的发展机遇,但也存在基础薄弱、人才匮乏、自主创新能力弱等困难,今后要加强产业基本环境建设,创新发展方式,通过"补链"、
介绍了一款绿植修剪车的设计实例,提出以扫路车为载体、采用液压传动,可连续修剪绿化带,并可收集枝叶的专用作业车方案。实现修剪机构的展开、收回状态,高度、宽度方向的修剪调节
针对目前诸如军事、铁路等领域事故爆炸仿真模型运算复杂、仿真效果较差的问题,提出了改进的仿真模型,该模型以粒子系统为基础,用定性、定量的随机变化模型代替爆炸物理过程
心血管疾病是严重影响人类健康的疾病之一,病情的患者需要进行血管置换。但来源有限,组织工程化小口径血管(内径<6 mm)病变,因易导致血栓和内膜增生等问题而还难以运用于临床
综合化航空电子系统软件对系统的综合性能具有较高的要求。全面分析了综合化航空电子系统的性能需求,定义了综合化航空电子系统性能评估模型,首次对综合化航空电子系统进行全