基于Selenium的数据自动抓取软件设计与实现

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:hard_158
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据自动抓取是指通过应用程序实现整个数据采集流程的自动执行,达到批量的从网页中获取目标数据的目的。随着大数据技术在企业的生产经营中广泛应用,数据采集技术也更加被重视。目前最常用的数据抓取技术是网络爬虫。虽然这种技术功能强大,采集效率高,但是程序编写复杂,并且所有抓取到的网页都需要被系统存储,消耗资源,只适合有编程基础的人群,应用范围受到限制。为了提供更加易于掌握的数据抓取技术,弥补爬虫技术的不足,给更多的企业或个人提供更高效,便捷的数据批量抓取服务,本文决定设计并实现一款基于Selenium的数据自动抓取软件。通过为网页元素生成多种类型的XPath路径表达式,并总结出一套XPath路径表达式的评价标准,实现对网页元素定位方法的优化,帮助软件准确定位到用户指定的目标数据,然后使用软件自定义的脚本语言把用户的数据采集流程以脚本文件的形式保存下来,通过执行脚本文件完成数据的批量采集。最后进行软件测等试相关工作,测试结果表明本软件达到了预期目标。我们希望用户能够利用本文所开发的软件完成任务繁重且单调的批量数据采集工作,既提高工作效率,又能节约宝贵的时间和精力。
其他文献
本文简要介绍了BSC和战略地图这一有效战略管理工具,初步探讨在企业中如何运用此工具构建企业、部门、岗位级别的关键绩效指标,从而形成企业的绩效管理体系,使得企业战略和绩
<正>血管超声(US)引导下的改良赛丁格技术(MST)行PICC置管术被誉为全球最先进的置管技术,近年来越来越多的被临床应用。我院从2011年9月~2012年3月给112例经过多程放化疗,血管
会议
为解决钢渣利用附加值低的问题,本文基于在橡胶填料中的应用,考察不同钢渣的基本性质,选择铁水脱硫尾渣为研究对象,开展用铁水脱硫尾渣作功能填料制备橡胶的工艺及性能研究:
基于MODIS影像数据反演的2009年2月份至12月份太湖梅梁湾水域表面叶绿素a、悬浮物浓度以及水温数据,结合初级生产力垂向归纳模型(Vertically Generalized Production Model:V
创建园林城区重要的目标之一就是改善人居环境,城市空间内人居环境的改善主要依赖于城市园林绿化的建设。城市园林绿化生态效益的发挥关键在于生物的多样性,并且生物的多样性不
介绍了灵芝短原木有机栽培的生产工艺流程及其栽培技术,并通过建立完整的灵芝短原木有机栽培的质量管理体系,将HACCP的方法和原理应用到其生产过程,建立短原木灵芝有机栽培生
我国经济社会正处于高速发展时期,投资主体呈现多元化趋势,财产的表现形式日益多样化,股权作为一项重要的财产权利,也更多的出现在夫妻共同财产范围内。然而,伴随社会价值观
西华山钨矿是一个产于燕山期花岗岩中的大脉型钨矿床。矿脉最长可达1 075 m,最大厚度3.6m,最大延深在350 m以上。从矿床上部至下部大致相应可分为4个成矿阶段:硅酸盐阶段→氧
本文就重点针对水利技术标准管理中信息化系统的应用进行了简要的分析和论述。
基于膨胀混凝土的理论计算模式,在变电站综合楼这一超长混凝土框架结构设计中采用连续式膨胀加强带代替后浇带,并给出HCSA膨胀加强带的具体做法,提出膨胀加强带及带外混凝土