网页抓取策略研究

被引量 : 0次 | 上传用户:zhouheng19850
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Web上信息的爆炸性增长,人们无法直接而准确地定位感兴趣的资源,越来越多地依赖搜索引擎。然而,由于Web的规模巨大,任何一个网络爬虫均无法获取Web上的所有网页。既然不能抓取到全部网页,那么就需要网络爬虫在有限的时间内尽可能多地抓取较为重要的网页。网页抓取策略就是研究以怎样的顺序来访问Web上的网页以使得网络爬虫能够优先获取Web上的重要页面。本文首先对构建高效率网络爬虫所需的关键技术进行深入研究,其中URL调度器决定了网络爬虫抓取网页的顺序,是实现网页抓取策略的主要功能组件。接着在分析多种网页重要度评定标准的基础上,选取基于PageRank的链接分析评定标准作为衡量网页重要度的依据。PageRank技术充分利用了网页间的超链接信息,综合考虑了一个网页的反向链接数目和质量,客观定义了其在整个Web上的相对重要性。最后,通过对不同网页抓取策略的研究,发现一个好的网页抓取策略在能够优先获取重要页面的同时,还需满足抓取速度,对抓取站点的礼貌性和均衡性的要求。然而,现有的网页抓取策略均不能很好的同时满足这些要求。因此,本文提出了一种综合权重网页抓取策略,采用两级优先级调度策略。站点级的调度可以满足礼貌性和均衡性的要求,网页级的调度通过引入历史信息机制,可以获得质量更高的网页。本文设计和开发了WebCrawler网络爬虫以获取实验所需的数据集,并在其基础上,采用虚拟抓取的方式来对比不同的网页抓取策略。由于Web动态变化的特点,这也使得只有虚拟抓取才能保证不同的网页抓取策略可以在等同的条件下进行对比。实验表明,综合权重网页抓取策略在保证抓取速度,礼貌性和均衡性的前提下,获得了更好的网页质量。
其他文献
中国已进入经济、社会、政治和文化等重要领域和关键环节全面改革阶段。在此背景下,分析、讨论行政法的基础理论问题,进而研究中国行政法的指导思想,具有重大意义。为此,以对
价格歧视指某一占支配地位的市场参与者,在提供相同或相似产品(服务)时,针对其他不同的市场参与者在不同的交易条件下收取不同的价格或不合理地提供其他利益,而这一价格上的
黑龙江移动TD三期工程项目是应用中国自有知识产权的TD-SCDMA技术,该工程的实施具有重要的战略意义,它不仅将在很大程度上提升企业竞争力、满足用户需求、提升中国移动企业形
本文旨在通过对郁达夫的小说《沉沦》的文本细读,去品味隐藏在文本中的或隐或显的身份焦虑。从某种意义上说,郁达夫及其小说人物的认同危机和身份焦虑,与其在"他者"文化的观
银行不良贷款是产生银行体系脆弱性的主要原因,高不良资产对银行和经济有重要影响。大量积聚的不良资产,成为银行经营与发展的沉重负担,影响银行功能的正常发挥,威胁整个银行
对生物质捆烧锅炉进行了过量空气系数、炉膛温度和燃料密度等对结渣率影响的试验,分析了生物质捆烧锅炉的结渣特性.通过分析生物质捆烧锅炉的结渣过程及结渣影响因素,认为生
如今电视台都将数字技术全面应用于栏目包装中,各种视觉效果丰富多彩,日趋多元化。一般情况下视听语言元素是包装的主要渠道,这就要求我们的视觉元素有其独特的象征意义,两者
现代科技作为人类智慧的尖端体现,在给人们生活带来便捷与享受的同时,逐渐出现了使人们精神空虚,行为非理性化的倾向;艺术作为人类精神的精华,在给人们感官享受的同时,越来越
我国在侵权责任法出台之前,针对医疗侵权行为进行医疗事故和非医疗事故的划分,进而出现法律适用的二元局面。究其根本乃是因为立法者企图用行政管理的手段代替私法处理的手段
我国是世界上大蒜生产、消费和出口大国,2007年中国大蒜的生产量和出口量均位居世界首位,在中国大蒜出口形势一片大好的形势下,本文对中国大蒜的出口贸易发展进行研究。主要