基于配置模板的深网爬虫系统的设计与实现

来源 :南京大学 | 被引量 : 0次 | 上传用户:soboy1759
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
包括搜索引擎在内的各种基于互联网的数据服务都需要实现数据的抽取和解析,爬虫是一种最常用和最重要的途径。隐藏数据库是指组织机构通过允许用户通过搜索界面发出查询而在网络上访问的数据集。换句话说,从这样的来源获取数据不是通过静态超链接。相反,数据是通过查询接口和读取动态生成的结果页面来获取的。这与其他障碍(例如界面可能仅部分回答查询)一起阻止了隐藏的数据库被现有搜索引擎有效地抓取。动态网页技术的出现使得以往基于静态页面的内容获取方式不能够再满足各种业务对于数据的需求。一方面,由各种大数据数据库产生的动态网页链接的内容已经远远超出传统的静态页面承载的内容,这些内容通常主题更加明确、价值和信息量也更大;此外,传统的基于种子队列、深度或者广度的链接遍历的爬虫方式无法有效获得该类信息,也即深度网络(Deep Web)的内容。获得这些深度网络内容无论对于商业领域还是研究领域都具有十分重要的意义。本文研究的基于配置模板的深网爬虫系统正是为了解决以上难题而诞生的项目,该系统通过提交Web表单的方式向目标数据库发送内容关键字来得到隐藏在背后的数据。项目系统的流程主要包括5个步骤:1、定位找到深网数据库的入口;2、实现爬虫应用系统于搜索接口的自动化交互;3、对深网数据库的属性进行评估;4、内容关键字的选择;5、获取最终的爬取结果。为了实现以上流程,本论文研究了基于配置模板的深网爬虫系统的设计与实现,系统主要包括参数配置、爬取管理、数据爬取、数据保存和数据检索共五个模块。目前,本系统已经成功上线并稳定运行,可以使得数据库中绝大部分信息能够返回。本系统的设计与实现也为其他研究和业务人员提供了设计的思路和实现的指导。
其他文献
在我国反洗钱领域,人民银行会定期对证券公司的交易数据进行稽查,要求公司上报洗钱交易数据。人民银行发掘真实洗钱数据并且与公司上报数据进行比对,如果公司存在漏报、误报的情况,则进行大额罚金处罚。其中,股票交易数据属于结构化数据,存储在关系型数据库中。由于表结构复杂,表与表之间关系繁多,可疑数据难以准确定位。因此,证券公司需要构造数据对自身交易合规监控软件进行测试。当前,测试数据通过反洗钱专员根据反洗钱
深度学习的成功依赖于大规模具有精确标记的数据。获取数据真实标记需要大量人力物力,代价昂贵。实际应用中标记通常由众包等廉价方式收集所得,往往带有噪声。如果盲目地使用带噪标记数据进行学习,深度神经网络的性能会受到严重影响。因此,如何处理噪声标记近年来成为研究热点。基于小损失准则(small-loss criterion)的样本选择方法是当前深度学习中处理噪声标记使用最为广泛的方法之一。这一准则从带噪标
日冕物质抛射物(Coronal Mass Ejection,简称CME)是在太阳大气中发生的最猛烈的爆发活动之一,通常携带大量的高能粒子,对空间环境和人类活动有着很大的影响。研究CME的活动迹象,有利于更加清晰地了解它们的运动过程,从而进行空间天气预警,降低灾害。目前的CME编目主要为手工制作和传统图像处理生成,手工编目具有明显的主观性和耗时性,而传统方法的识别结果总是存在一些误差。深度学习在目标
异质界面广泛存在于光电子器件中,对器件的性能起着至关重要的作用,是当今微电子技术蓬勃发展的基础。界面工程为提高有机场效应晶体管(organic field-effect transistors,OFETs)的器件性能以及开发新功能提供了一条有效且充满潜力的途径。目前,自组装分子单层(self-assembled monolayers,SAMs)用来修饰有机场效应晶体管中的关键界面已成为一种应用广泛
随着互联网的发展,用户能够在互联网平台中随意发布视频内容,这些内容可能存在多种违规问题,平台需要对其进行审查。传统条件下以人工审查视频内容为主,这种方式准确度较高,但是随着平台的发展、用户生成内容数量的上升,人工审查的高成本与低效率已经远远不能满足要求。因此企业平台需要一个自动化视频内容审查系统,并且该系统能够在大数据量高并发的场景下保持准确性与高性能。目前新兴的趋势是使用神经网络识别视频内容中的
场效应晶体管(FET)可利用电场掺杂效应,通过电流电压测试,获得半导体材料的载流子迁移率,同时也是电子产品中广泛使用的开关元器件。与传统的无机场效应晶体管相比,有机场效应晶体管(OFET)具有可制备在柔性衬底上、可大面积加工、加工工艺简单、制造成本低等优点,在大面积电子电路印刷以及柔性电子设备上有着巨大的应用前景。有机场效应晶体管的关键组成部分是有机半导体层,聚合物半导体因其可在柔性衬底上制备引起
在如今海量数据的时代,传统的单机文件系统无法满足爆炸式增长的数据存储需求,分布式文件系统凭借其大容量、高性能、高可扩展性等特点,在社会上得到越来越广泛的应用。由于分布式文件系统的重要定位,如何保证系统可用性就显得至关重要。目前主流的分布式文件系统大多采用元数据和实际数据分开存储的方式,且对元数据的操作比例远远大于对实际数据的操作,因此元数据服务的可用性很大程度上决定了整个分布式文件系统的可用性。国
发展新能源汽车产业是我国实现节能减排和汽车工业“弯道超车”的重大战略。电动汽车(EV)是目前新能源汽车的主要代表,保证汽车动力电池安全性已经成为人们普遍关注的话题之一,市场对电池安全状态的精准估计和检测的需求日益强烈。研发电池监控平台对车辆电池状态进行监控,并在电池出现安全故障或发生故障前发出报警,是保护司乘人员安全的重要措施。电池监控平台以大量的电池数据为基础,需要系统提供大量算法模型服务,而算
人口迅速增长和极端气候频发背景下,实现全球粮食安全是目前人类面临最严峻的挑战之一。为理解气候变化对作物生长发育的影响,准确估算作物总初级生产力(Gross Primary Production,GPP)和产量对制定合理农业政策至关重要。作物生长过程模型和基于GPP的估算方法是估产的两种主要手段。前者能动态模拟作物生长发育过程,但缺乏对光合作用生理生化机制的描述,同时输入参数的众多限制了其在区域上的
近年来,基坑监测作为保障基坑工程安全和指导施工的重要手段正朝着长距离、分布式和远程监测的方向发展。传统监测手段多以点式、电阻式、振弦式为主,其监测数据量小,成活率低,因施工条件或开挖顺序限制,也难以实现基坑深部土体和围护结构的受力与变形过程监测,密集分布式光纤技术(UWFBG)具有精度高、分布式的优点,它不仅能实现基坑工程中各围护结构的系统监测,更能精细化连续感测地连墙和土体变形过程,论文以密集分