支持动态页面的快速URL提取方法研究

被引量 : 0次 | 上传用户:jiangyubojs
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web2.0技术在互联网上的出现以及社交平台的兴起,极大的促进了动态网页的使用和普及。动态网页中的Ajax技术,实现了客户端和服务端之间数据的异步操作,不仅满足了新时代的技术需要,同时也提高了用户体验,更是促进了互联网的发展。但是,传统网络爬虫并不能应对动态网页带来的新特征,所以支持动态页面的网络爬虫的研究就具有了一定实践意义。对于主题网络爬虫而言,噪声链接不仅没有价值,而且还会占用大量的资源,尤其是网络爬虫对噪声链接对应网页的采集和分析,极大地降低了网络爬虫爬取的效率。针对上述问题,本文的主要研究内容如下:首先,针对动态网页中关键技术Ajax异步操作的原理,解决了如何令网络爬虫支持动态网页爬取的问题。本文通过HTTP请求获取到网页,然后将网页在本地进行DOM树的构建,进行对脚本的解析和URL的提取,并通过对HtmlUnit的源码修改来解析需要进行点击触发的脚本,从而解决传统网络爬虫对动态网页中动态生成的URL难以获取的问题;其次,由于噪声链接极大地降低了网络爬虫的效率,所以本文对网页噪声的去除算法进行了研究。传统的网页去噪算法针对网页整体结构进行处理,去噪效率低下。本文对提取后的URL结果通过聚类之后进行相似度计算进行去噪,并提出了基于改进Single-Pass算法的噪声链接去除算法,该算法在去噪的准确率上取得了较好的效果;最后,实现了支持动态页面的快速提取URL主题网络爬虫系统,并针对动态网页解析及动态生成URL的提取、去噪算法的效果对比和主题网络爬虫系统在快速提取URL这三个方面设计并进行实验。实验结果数据表明,本文实现的网络爬虫系统很好的支持了动态网页URL的提取,同时也实现了网页URL快速提取的目的。
其他文献
1925年12月爆发的国奉战争,是第二次直奉战争后国民军全军参战的第一场战争。其中,天津之战是这场战争中的第一阶段,也是此役的重头戏,标志着国奉两系蜜月期的结束。本文从天
<正>狗,是人类最亲密的朋友,也是人类最古老的朋友。它和人类情感交融,它对人类无限忠诚。科学研究证明,狗是由狼驯化而来,而且是被人类驯化的第一种家养动物。在我国,早在公
针对应用Angoff法设定执业医师资格考试分数线存在的问题,本文提出了一种新方法:调和Angoff法。该法将对错判断和概率判断相结合,从而消除了Angoff法中的"趋端效应"和"趋中效
以批评性语篇分析理论为基础,以系统功能语言学为理论依据,从及物性、情态和预设三方面对林肯的葛底斯堡演讲进行分析。具体而言,林肯在演讲中运用了多种语言策略,包括使用表示物
现阶段,随着媒体行业的迅速发展,观众越来越渴望直观接收新闻内容,现场连线愈发受广大群众的欢迎,这就需要现场连线记者必须扎实地掌握现场报道的技巧与方法,能够快速地应对
随着全球经济的快速发展、基础设施建设的不断投入、物流行业的迅猛发展、城市环卫工作的机械化运作、便捷出行生活的需要,汽车作为主要的运输工具,广泛应用于居家生活、工程
设定合格标准是实施职业资格考试制度的重要环节。本文首先从合格标准与行业最低基本要求间的对应关系着手,阐明了设定合格标准的基本原理;随后探讨了基于Angoff法设定职业资
目的初步研究中国福建地区鼻咽癌中人乳头状瘤病毒(Human papillomavirus,HPV)感染的情况,比较不同病理分型的鼻咽癌组和正常对照组HPV感染率的差异。方法收集2010到2012年间我
生物特征识别技术是21世纪最具研究价值和发展潜力的技术之一。与其它生物特征识别技术相比,手指静脉识别技术有着高准确率、高稳定性、高速度以及非接触性等优点。随着考勤、
子痫前期(pre-eclampsia,PE)是一组妊娠与高血压共存的疾病,这种疾病严重影响着母婴健康,是孕产妇及围产儿死亡率升高的主要原因之一。然而,子痫前期的发病机制迄今为止尚未完全明