基于分布式的主题型爬行器的研究与实现

来源 :华东交通大学 | 被引量 : 0次 | 上传用户:pettey
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据时代背景下,越来越多的企业、个人都意识到数据的价值,数据的重要性日益凸显,网络资源共享问题成为了越来越多网络研究领域的研究对象。利用互联网,实现数据、网络带宽、机器计算空间等各方面的共享,实现资源的高效整合和利用。由于数据来源分布广、爬取的信息数据量大、数据种类繁杂等特征,导致海量信息无序化,这对于想要获得某个专业领域资源的用户带来不便,用户很难得到精化搜索结果。专业型网站不断涌现,为满足专业型用户查询特定主题的信息,主题爬行器应运而生。较综合型爬行器更适合于现在的网络环境的发展与互联网用户的需求,能够从海量的信息中,更加精确地对其进行查找、抽取等,同时通过分布式处理技术,来加快整体爬行器在页面爬取、存储工作上的效率,以更好的应用于当前网络时代背景。本文针对综合型爬行器对网站的横向信息爬取、搜索结果分散、主题关联性不强即爬取的内容多但不一定主题相关度高等问题,对主题相关度计算的算法进行了分析和研究;通过对链接的结构、网站页面的连通方式和页面内容等多方面内容进行综合,设计出了主题相关度计算算法,基于此算法实现了主题型网络爬行器;针对多爬行器协同工作问题,采用分布式结构进行爬行器的部署,实现了负载均衡和信息交互的分布式主题网络爬行器的并行页面爬取以及存储;针对网页中可能涉及到的网站保护策略,造成爬行器无法爬取问题,研究了相关错误恢复机制,实现对网页的信息抓取。
其他文献
山地城市形态格局 ,与特殊的山地自然地理特征密切相关 ,在山地城市形态的演化中 ,衍生出不同的城市格局是与自然山地环境长期的适应的结果。目前是我国众多山地城市规模迅速
131碘治疗是分化型甲状腺癌术后重要的治疗方法,核素病房建立的安全化,合理化、规范化及医务人员在核素治疗前、治疗过程中及出院后宣教、注意事项和不良反应的预防和处理,防
目的探讨麻醉专科护理管理工作中,实施医护协同管理模式的效果。方法将该院2018年1-10月收治的122例行麻醉手术的患者随机分成观察组(n=61)与对照组(n=61),对照组实施常规的
作为中华文明和中华民族的发源地,以河南为代表的中原文化博大精深,自古便是人杰地灵之所在。如今在这片有着悠久历史的土地上,勤劳的人们也在推动着河南省的经济发展。在这
期刊
新时期的物业管理需要一‘批高素质的人才,需要一大批专业化的服务群体来完成社区居民不断变化的个性化服务需求。仅靠传统物业服务企业已有的人力、物力显然已无法使广大业主
粮食安全是国家战略安全的重要组成部分,在经济新常态下如何夯实农业基础地位、保障粮食安全成为政府与学界共同关注的命题。运用粮食产量变化系数、变异系数、空间分析方法
1996年6月,广州合利物业管理有限公司在改革开放的前沿城市广州诞生。2002年12月广州合利物业管理有限公司更名为保利广州物业管理有限公司。2004年顺利取得国家物业管理企业
当前我国医院内的药品库存、管理工作和供应已经成为药品经营的重要讨论问题。科学储存与合理管理是当前需要解决的问题。该文通过相关资料的查阅以及走访调查,了解我国医院
研华科技推出基于Intel945G平台的工业级ATX母板AIMB-762,支持Intel Pentium D双核处理器,具有高带宽双通DDR2 533/677内存、PCI—E总线、SATAⅡ和高速USB2.0接口。MMB-762具有以
目的研究安全管理在乡镇医院护理管理中的应用价值。方法选择乡镇医院2015年3月—2016年9月纳入的114例住院患者,按照随机数字法分为研究组与对照组各57例,研究组采取安全管