互联网多源矢量空间数据自动获取与管理方法研究

来源 :中国测绘科学研究院 | 被引量 : 7次 | 上传用户:lgfgdf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
开展互联网条件下的多源矢量空间数据获取与管理方法的研究,能够实现对互联网中广泛存在的多源矢量空间数据进行高效的获取、解析与管理,为GIS空间分析和空间数据挖掘提供更为丰富和实时的数据源,为大数据时代的地理信息技术研究提供便利。本文重点研究互联网条件下的矢量空间数据获取与管理技术。针对一般聚焦爬虫数据爬取方式单调、爬取效率低等问题进行优化,提出基于多线程并行和异步I/O模型的方法协同提升Web矢量空间数据获取的效率;针对多源异构的矢量空间数据结构,研究一种基于模板映射的数据解析方式,相比常规Web数据解析中使用的正则表达式解析法在准确性和稳定性方面均有提升;针对Web矢量空间数据结构复杂多变的问题,研究基于MongoDB对矢量空间数据进行对象化存储,有效的降低了空间数据管理的复杂度。本文的主要工作包括:1)提出了一种多策略并行的Web矢量空间数据高效获取方法。基于聚焦爬虫技术,在研究了多种开源爬虫框架的基础上,提出通过多线程和异步I/O两种策略,优化矢量空间数据的获取效率。2)提出基于模板映射的多源矢量空间数据自动解析技术。通过将结构化和半结构化文本数据转化为树状结构对象,基于给定的模板对互联网中的异构矢量空间数据进行解析,相比传统的正则表达式解析法来说,本方法在维持较高的解析准确度的基础上,通过模板映射技术有效提升了解析的稳定性。3)提出一种基于MongoDB数据库的多源矢量空间数据对象化存储方法,可管理由Web爬虫获取到的矢量空间数据。并提出了一系列REST数据管理API,实现矢量空间数据在云环境下的管理。4)基于上述方法,构建NetCrawler爬虫系统,实现了互联网条件下多源异构矢量空间数据的快速获取、解析与管理。并通过测试证实了所述方法的有效性。
其他文献
2003年国家发改委等五部门联合下发了《棉花质量检验体制改革方案》,提出力争用5年左右时间,建立起符合我国国情、与国际做法接轨、科学权威的棉花质量检验体制。如今5年时间过
一般说来,机械表为什么没有石英表走时准确在众多消费者购买产品时,通常都会有这样的疑问,下面我们结合石英表和机械表相关技术特性来分析解读。按照指针式石英手表相应技术要求
有些高档名牌手表上印有“GENEVE”,此为何意?GENEVE(中文译为:日内瓦)印记原本是为了要保障真正在日内瓦地区制造出的顶极好表,避免与其它地方或国家制造出的表(包括高品质和低劣
全自动EAT2896机械机芯,全钢古典方正酒桶型表壳,实心表链,配置蓝宝石防磨损水晶表镜,不锈钢隐蔽式双按钮表扣,50米防水。参考零售价:8,800元。
目的:研究血液灌流联合血透治疗尿毒症疗效及对肾功能的影响。方法:将 2017 年 1 月至 2018 年 12 月在本院实施诊治的 70 例尿毒症患者视为调查对象,以信封法随机 纳入实验
每天,穿梭在城际间的时空隧道,不期而遇的同道中人。注定要走到一起。相通的语汇,无言的对白,疏离遥远的心灵,在瞬间彼此找寻着……慢慢靠近……
胰腺炎即为胰腺重症炎症表现,常见急性炎症、慢性炎症。该类炎症是因胰 腺分泌胰酶激活导致的,常规情况下胰酶可促进十二指肠消化,但若处于过度活 跃状态,则会对自身组织造成
每颗钻石都是历经万难,夹带着缘分与天意的璀璨来到主人的手中。钻石必须经过一系列的历练,最终光芒才会破茧而出。凝视那一份映射,你会明白——这是爱!颠簸的不堪,时空的转
期刊
认识刘总并非今日,早在1998年,我以《钟表》杂志社记者的身份就去过当时还在华侨城的科发公司,那次去科发应该说是与刘总首次近距离接触,心里不免有点紧张,所提的多是些老生
无论是医生对患者开展药物治疗还是患者自行用药,都需要结合患者的实际 病情,并且还需要考虑患者的病史、过敏史、年龄、性别等特殊情况,合理选择药物 品种以及药物剂量,合理