论文部分内容阅读
GIS是一门以数据为基础的学科,空间分析、空间统计和空间数据挖掘等研究都离不开空间数据的支撑,而互联网中存在着海量的空间数据,这些数据与人们的日常生活活动密切相关并且包含的信息量十分丰富、现势性极强。如果能够对互联网中广泛存在的空间数据进行高效地获取、解析与管理,一方面不仅可以补充基础地理信息的不足,提供丰富的细节和准实时更新,另一方面还能够为GIS空间分析和空间数据挖掘提供更为丰富和实时的数据源。Web空间数据获取与管理首先需要对多源异构Web空间数据进行获取,然后需要对获取到的数据进行细粒度的解析,从中提取出感兴趣的位置和属性信息。进一步的,还需要解决多源异构Web空间数据的存储与管理问题。因此,本文针对单机网络爬虫获取Web空间数据在抓取覆盖率和抓取效率上受到限制,难以保证抓取数据的及时性和全面性问题,研究了基于分布式网络爬虫的Web空间数据获取方法。针对不同来源Web空间数据结构内容不同,周期性更新、解析困难的问题,研究了基于模板映射的Web空间数据解析方法。针对关系型数据库管理系统处理多源异构Web空间数据困难的问题,研究了基于非关系型数据库MongoDB的Web空间数据管理方法。最后基于上述方法,研发了Web空间数据获取原型系统,实现了Web空间数据的高效获取、解析与管理,通过对原型系统进行测试证实了本文所述方法的有效性并对系统进行了实例应用。通过以上的研究工作,得出如下结论:(1)基于分布式网络爬虫的Web空间数据获取方法能够提高Web空间数据获取效率。本文设计和实现的Web空间数据获取原型系统能够稳定运行,系统具有良好的扩展性,系统各个节点之间能够实现负载均衡。(2)基于模板映射的Web空间数据解析方法能够实现多源异构Web空间数据的自动化、高准确度解析。在解析准确率方面,基于模板映射的解析方法与传统的正则表达式解析法相当。在解析召回率方面,基于模板映射的解析方法优于传统正则表达式解析法。(3)基于MongoDB的Web空间数据存储与管理方法能够实现多源异构Web空间数据的对象化存储,降低了Web空间数据存储与管理的复杂度,增强了Web空间数据存储的灵活度和自动化程度。