基于Chrome扩展的爬虫系统设计与实现

来源 :软件导刊 | 被引量 : 0次 | 上传用户:hz9466894
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为了提高网页数据抓取效率,降低爬虫对系统资源的消耗,提出了一种基于Chrome扩展的爬虫系统。利用Chrome浏览器对网页进行解析,防止被爬取对象屏蔽和网页异步加载问题,并且实现数据结构化;通过选择普通用户版扩展和服务器版扩展,既可以实现无人值守主动抓取,也可以在用户浏览网页的同时抓取信息。整个系统前后端分离,并且采用面向接口编程,具有良好的扩展性。通过从搜达足球网站抓取英超赛程,验证了程序的高效可行性。
其他文献
《婚姻法》第四条关于夫妻应当互相忠实的条款不仅仅是倡导性规范,更有法律上的实际意义。同时,其存在有其自身的合理性。但存在一些缺陷,需要立法者进行完善,使其落实为真正
随着经济的进一步发展,企业的发展越来越离不开良好的消防安全环境,特别是对消防安全重点单位的消防安全管理,本文主要对消防安全重点单位户籍化管理系统的实际应用存在的问题进
针对肺部图像的噪声问题,采用基于小波变换的阈值去噪方法去噪。在数学形态学边缘检测的基础上,选取适合肺部图像的全方位和多尺度结构元素,采用改进的形态学边缘检测算子对去噪前后的图像进行边缘检测,并给出MATLAB软件编程实现方法和核心程序。最后将所提算法对去噪前后的图像边缘检测结果进行比较。结果显示去噪后图像的峰值信噪比(PSNR)和均方误差MSE都比去噪前有明显改善,表明采用的算法不但能有效地去除噪
为了降低TAG(TopologyAware Grouping)覆盖多播网络的加入延迟,将IP多播技术融入TAG覆盖多播网络中,提出一种将网络划分成多个独立的域,域间以IP多播方式进行传输,域内以TAG覆盖多播方式进行传输的改进的TAG覆盖多播技术,从而降低多播传递树的深度,减小加入延迟。通过仿真实验,验证了该技术比MTAG方法更能有效减小TAG覆盖多播网络的加入延迟。
<正>如今,大学生面临来自各个方面的压力,如学业繁重、就业竞争及人际关系等,并由此引发严重的睡眠障碍[1]。有研究表明,大学生睡眠问题发生率为10.2%~42.93%[2-3],并对学业表
文献[1]从概念层面上提出并区分模糊概念中存在的三种不同否定关系,即矛盾否定关系、对立否定关系和中介否定关系,由此定义了能够刻画这些不同否定的一种新的模糊集FScom。研究模糊集FScom的模糊度与贴近度,提出模糊集FScom的模糊度、距离贴近度以及格贴近度计算公式,并讨论了它们的应用。
采用集中指数、集中曲线和泰尔指数法,对2009—2013年安徽省卫生技术人员、执业(助理)医师和注册护士配置情况进行公平性评价。结果显示:2009年以来,安徽省卫生人力资源配置整体较
保证交期是生产制造业的生产制造的核心竞争点之一,在这种情况下,制造系统都要求最小化生产完成时间。最小化生产完成时间基本上涉及两个目标,即最小化机器闲置时间和最小化
随着现代移动通讯的发展,软件无线电已经成为3G标准中重要部分设计的最好的解决方案,而数字调制解调部分是软件无线电系统中至关重要的组成部分。对基于FPGA的数字调制解调系统
信息资源目录共享方式在当前多用户差异化共享需求情况下还存在着不足。在分析信息资源目录简单共享和用户差异化需求基础上,提出基于角色的信息资源目录共享方法。在明确信息资源目录使用对象基础上,通过对信息资源目录进行属性定义并以此建立基于角色的访问控制,实现同一信息资源目录面向多用户时的差异化共享,满足各类使用者的不同共享要求,弥补了信息资源目录简单共享的不足。