基于分布式网络爬虫的Web空间数据获取与管理方法研究

来源 :西南交通大学 | 被引量 : 0次 | 上传用户:wangzhanglu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
GIS是一门以数据为基础的学科,空间分析、空间统计和空间数据挖掘等研究都离不开空间数据的支撑,而互联网中存在着海量的空间数据,这些数据与人们的日常生活活动密切相关并且包含的信息量十分丰富、现势性极强。如果能够对互联网中广泛存在的空间数据进行高效地获取、解析与管理,一方面不仅可以补充基础地理信息的不足,提供丰富的细节和准实时更新,另一方面还能够为GIS空间分析和空间数据挖掘提供更为丰富和实时的数据源。Web空间数据获取与管理首先需要对多源异构Web空间数据进行获取,然后需要对获取到的数据进行细粒度的解析,从中提取出感兴趣的位置和属性信息。进一步的,还需要解决多源异构Web空间数据的存储与管理问题。因此,本文针对单机网络爬虫获取Web空间数据在抓取覆盖率和抓取效率上受到限制,难以保证抓取数据的及时性和全面性问题,研究了基于分布式网络爬虫的Web空间数据获取方法。针对不同来源Web空间数据结构内容不同,周期性更新、解析困难的问题,研究了基于模板映射的Web空间数据解析方法。针对关系型数据库管理系统处理多源异构Web空间数据困难的问题,研究了基于非关系型数据库MongoDB的Web空间数据管理方法。最后基于上述方法,研发了Web空间数据获取原型系统,实现了Web空间数据的高效获取、解析与管理,通过对原型系统进行测试证实了本文所述方法的有效性并对系统进行了实例应用。通过以上的研究工作,得出如下结论:(1)基于分布式网络爬虫的Web空间数据获取方法能够提高Web空间数据获取效率。本文设计和实现的Web空间数据获取原型系统能够稳定运行,系统具有良好的扩展性,系统各个节点之间能够实现负载均衡。(2)基于模板映射的Web空间数据解析方法能够实现多源异构Web空间数据的自动化、高准确度解析。在解析准确率方面,基于模板映射的解析方法与传统的正则表达式解析法相当。在解析召回率方面,基于模板映射的解析方法优于传统正则表达式解析法。(3)基于MongoDB的Web空间数据存储与管理方法能够实现多源异构Web空间数据的对象化存储,降低了Web空间数据存储与管理的复杂度,增强了Web空间数据存储的灵活度和自动化程度。
其他文献
对人工神经网络技术在10MW高温气冷堆故障诊断中的应用进行了可行性研究,并用事故工况下反应堆监控参数的实际值和趋势变化值分别对2个BP网络进行训练和检验,综合2个网络诊断
房地产建筑行业的发展是促进我国经济发展的重要行业之一,其施工质量的高低直接影响着建筑质量,进而影响我国经济的发展。本文将简单探讨房地产建筑施工管理及其控制要点。
本文采用电化学测量方法测定了特殊换热器传热管用材料钛合金T225NG在高温高压不同氯离子浓度和不同溶解氧含量水质条件下的极化曲线,并探讨了钛合金T225NG在不同水质条件下的
管路热力输运系统中可能同时出现汽 -液两相。当汽 -液两相可能接触且存在大温差时,会导致汽相急剧冷凝相变,引起蒸汽泡溃灭水锤,导致管系结构破坏。核电站中有大量布局十分复杂
中国核动力研究设计院设计了各种工程试验研究装置,建成了核动力实验研究基地,积累了丰富的核动力整体试验装置建设经验.本文介绍了核动力整体试验装置设计、施工及调试经验.
国内生物安全柜执行的两份标准(JG170-2005和YY0569-2011)存在一定差异,导致实际执行中存在分歧和疑惑。该文就两份标准中对生物安全柜的结构要求,性能要求和测试方法进行了
介绍了美国核管会(NRC)根据风险信息对生产与应用核设施的许可证审批(10 CFR 50)中的安全要求进行评估、修改和补充的技术框架,主要包括高层纵深防御策略、定量安全目标以及
介绍用于估算个人内照射剂量的新一代计算机应用软件系统.该系统参照ICRP第56、66、67、68、69、71、78号等一系列出版物提供的代谢模型和参数,采用了适于在微机上实现的矩阵
作为先进压水堆核电站关键技术研究项目之一,参照西屋电气公司和法马通公司的相关技术,研制了线功率密度保护的物理模型。通过限制线功率密度,可以限制燃料芯块的温度。可以限制
21世纪是生态文明的世纪。随着环境问题日益凸出,人们开始重新思索和自然之间的关系。马克思曾指出,在人与自然关系中,人是最关键、最核心的因素。而生态道德教育对于人们生