GIS在大数据时代下的发展

来源 :电脑知识与技术 | 被引量 : 0次 | 上传用户:romotic
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:大数据技术的发展和大数据时代的来临将对极大地推动GIS的发展。该文主要介绍了GIS当前的发展现状及瓶颈,探讨了GIS在大数据时代下的数据采集、数据存储与管理及数据分析和挖掘所面临的问题和初步的解决办法,展望GIS在大数据时代下的发展前景。
  關键词:GIS;大数据;空间数据
  中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2014)32-7585-03
  Abstract: As the development of the Big Data technology and the coming of the era of Big Data which will greatly promote the development of GIS. This paper introduces the current situation and the check point of GIS development, discusses the problem and some preliminary solution of data collection,storage and data mining of GIS.
  Key words: GIS;big data;spatial data
  自20世纪60年代的诞生以来,GIS(地理信息系统)行业飞速发展,广泛应用于资源调查、环境评估、灾害预测、国土管理、城市规划、邮电通讯、交通运输、军事公安、水利电力、公共设施管理、农林牧业、统计、商业金融等几乎所有领域,为人们的生活提供了极大的便利。随着GIS发展的实践,人们发现,GIS拥有海量的非结构化的空间数据,这些数据采集困难,存储不便,处理起来也十分繁琐。如何更加高效地读写和分析GIS的海量数据,这个问题困扰了一代又一代的GIS从业者。大数据概念的诞生及大数据时代的到来,提供了从本质上解决这个问题的希望。旨在处理越来越多的数据特别是非结构化数据的大数据技术,恰好契合了GIS发展了近半个世纪以来所面临的最大的难题。在大数据时代,GIS庞大的数据量不再显得臃肿,反而是一份巨大的资产,能够带来可观的价值,这使得GIS与大数据的结合是GIS发展的必然趋势。
  1 什么是大数据
  大数据其实并不是什么新鲜的事物,人们在大数据的概念被提出之前就已经开始在用大数据解决实际的问题了。沃尔玛通过分析大量的数据从而得出将啤酒和尿布放在一起能提高啤酒的销量的结论,这个人们耳熟能详的案例在本质上就是一种典型的大数据的分析思路——虽然那时候人们并不称之为大数据。
  近年来大数据的概念空前火爆,各个研究机构、百科网站、大型公司都对大数据有不同的认识从而引出了不同的定义。而现在普遍认为大数据具有5V的特征属性,即Volume(数据体量大)、Velocity(数据的更新速度、处理速度快)、Variety(具有多样性)、Veracity(真实性)、Value(具有价值)。[1]
  随着社交网络的诞生,LBS(基于位置的服务)的出现,世界上的数据达到了前所未有的规模并且还在高速递增,这就是大数据的Volume;而现在的数据不再仅仅是传统的结构化数据,更多的是空间数据、视频数据、网站点击流数据等等这样的不能存储在传统数据库中的非结构化数据,这就是大数据的Variety;随着物联网的发展,如何优秀地处理实时更新地传感器数据是人们面临的新的挑战,同时传统的处理数据的方式必然会随着数据量的增加从而导致数据的写入和查询速度越来越慢,如何提高数据读写的速度,也是人们必将面临的问题,这就是大数据的Velocity;IBM认为,由于数据的噪音、缺失、不一致性、歧义等问题会导致数据的不确定性,因此大数据必然要具有真实性,这就是大数据的Veracity[2];与此同时,人们必须要认识到,现今的数据不再仅仅是获取信息的媒介,而是一种资源,是能够获取经济利益和挖掘相关知识的一种有价值的资产,这就是大数据的Value[3]。
  大数据技术的进步必将对世界产生巨大的推动作用,同时人们的观念也要发生改变。维克托·迈尔-舍恩伯格认为,在大数据时代人们将发生三个巨大的思维变革:①人们对数据的操作不再是针对随机的样本,而是面对全体的数据;②人们不再过多地要求数据的精准性,而是需要数据纷繁复杂,种类多样;③人们不再追求事物的因果关系,转而关注数据之间的相关关系[4]。这种观念上的改变会随着大数据的发展而逐渐作用于各个行业中,对整个人类社会的发展产生巨大的推动作用。
  2 大数据时代下GIS的发展
  作为一门从计算机科学衍生出来的综合性学科,地理信息系统(GIS)从诞生起就跟计算机科学的发展密切相关。在pc机时代,桌面GIS是主流;在互联网时代,WEBGIS大行其道;在云的概念诞生后,国内外的GIS公司也陆续推出了云GIS。而大数据时代的到来也将极大地促进GIS的发展:物联网的发展和传感器的普遍使用为GIS提供了丰富的数据来源;云计算降低了GIS的海量数据存储和处理的成本;而大数据的相关技术会使GIS数据的存储更加便捷和高效,同时使人们可以从海量的GIS数据中挖掘出相关的知识,并运用这些知识为国家治理、企业决策及个人生活服务。
  传统的GIS处理的数据分为属性数据和空间数据。属性数据会随着时间的推移而导致其数据量越来越大从而具备结构化大数据的属性,而在大数据概念未被提出来之前,庞大的非结构化的空间数据在本质上就是某种意义上的大数据。
  虽然大数据时代下GIS数据依旧是属性数据和空间数据,但是GIS数据的许多问题都需要用新的思路考虑和解决。笔者试着从GIS大数据的采集、GIS大数据的存储与管理和GIS大数据的分析与挖掘三个方面思考大数据时代下GIS数据需要解决的问题。   2.1 GIS大数据的采集
  结合传统的GIS数据源,大数据时代下GIS的数据来源有地图数字化数据、摄影测量数据、遥感影像数据、卫星航图数据、传感器实时数据、RFID(射频识别技术)数据、计算所得数据和历史数据等。而通常我们认为,高质量的数据通常具有精确性、一致性、完整性、同一性、实效性和真实性这6大特性。精确性是指数据符合规定的精度,不超出规定的误差范围;一致性是指数据之间不存在相互矛盾;完整性指数据格式和数据内容的完整;同一性指数据具有统一的标识;时效性是指数据的值在不同的时间拥有不同的效果;真实性是指数据必须是真实可靠的,不能是伪造的[5]。
  因此数据的获取者需要从高质量的数据源中提取数据,建立完善的数据精度评价模型,逐步提高数据的精度,以获取更精准的数据。而GIS数据源的种类各异,获取数据的方法也各不相同,从而需要建立多源数据的实体关联模型和识别模型、多源多模态数据的实体自动识别方法、实体识别效果的评估模型等,形成高质量的数据整合方法,将不同来源的GIS数据结合起来用于从多角度、全面地描述事物对象,保证数据的一致性。同时还需要建立完善的正确性条件和约束性规则以确保数据的完整性和同一性。GIS数据源中虽然有着传感器数据这样的实时性数据,也有地图数字化数据这种低实时性的数据。我们需要运用所有能用到的数据来对事物进行分析,故而需要建立数据时效性分析模型,形成完善的时效性评价机制。与此同时,对于数据真实性的监督必不可少,不仅仅要对数据进行溯源管理,还需要成立专门的数据监管部门,确保数据的真实性。
  2.2 GIS大数据的存储与管理
  存储是分析的基础,管理是挖掘的保障,随着数据量的增加,数据的存储和管理也需要发生从量变到质变的改进。海量的数据虽然可以为分析和挖掘提供丰富的数据来源使分析和挖掘更加准确和全能,但是也对数据的存储和管理提出了新的要求。分布式的存储和管理是处理大数据的一个基本的思路。大数据时代下GIS数据的存储与管理有如下几个问题:
  ①随着数据的规模越来越大,数据库如何存储大规模的结构化数据和非结构化数据:分布式文件系统将数据分散存储在各个节点上,存储资源通过网络连接:分布式数据库可以用并行处理的方式解决传统数据库中数据增加的问题,像NoSQL这样的数据库通过放松对事务 ACID 语义的方法来增加系统的性能以及可扩展性。同时构建在 Hadoop 之上的类数据库系统可以提供各自存储模型所对应的查询语言和访问接口,既借用了SQL的优点,又能够适应大数据时代下新的挑战。
  ②数据存储的格式:传统的GIS以矢量数据和栅格数据的格式对非结构化的空间数据进行了很好的存储,但是矢量数据和栅格数据由于数据结构的差异在表达不同的地理信息方面 各有所长,将矢量数据和栅格数据的优势结合起来,将数据用矢栅一体化的技术存储起来,将这种矢栅一体化的技术转化为存储格式的标准,则可以对矢量数据和栅格数据各取所长,以便数据能够更方便高效地进行表达。[6]
  ③在数据库与应用层之间建立良好的接口:大数据环境下的存储与管理软件栈,需要从上层应用中读取 PB甚至 EB量级的数据,同时还需使上层应用能够快速、准确、高效地访问数据库的各个节点以读取数据,建立良好的访问接口是必不可少的。而数据在数据层和应用层之间的流动过程中必须保证其正确性和准确性,则需要建立数据评价模型和数据保障模型以確保数据的可用性。
  2.3 GIS大数据的分析与挖掘
  传统的空间数据虽然具备大数据的属性,但是由于缺乏足够的大数据的理论支撑,空间数据并不像如今的大数据时代所提到的大数据那样的全能。其主要功能是用于展示和描述性分析,在预测分析和决策支持的相关方面比较弱势。而在大数据时代,建立在相关关系分析法基础上的预测是大数据的核心,同时人们需要从传统的决策模式过渡到数据指导决策的新的模式中,在大数据持续发展的过程中,会渐渐地进化为数据即决策的行为模式[5]。同时随着智慧城市、智慧地球等概念的兴起和推广,遥感数据、卫星航图影像数据随着技术的更新而日益增加,传感器数据随着时间的推移不断的累积,GIS的数据越来越多,然而与之相对应的是现在GIS行业面临着一个问题:“数据庞杂,知识匮乏”。即人们拥有很多的数据,但是缺乏从数据中提取出来用于预测和决策支持的相关知识。在数据库知识发现兴起之后,随着数据挖掘技术的不断发展,人们将陆续从GIS庞大的数据库中挖掘出相关的知识用于指导实践。
  大数据时代GIS的分析与挖掘面临着如下的转变和挑战:
  ①庞杂的数据使分析和挖掘变得更加复杂:大数据时代的到来使GIS本身就庞大的数据量急剧膨胀,同时由于大数据时代下的空间分析的分析对象从“样本”转换成了全体数据,这导致参与分析的数据量跟之前的样本数据不能同日而语,人们需要对更加复杂、更大规模的数据进行分析和挖掘。大数据时代下空间分析的对象通常是TB级别的大数据,如何对其进行分析是一个巨大的挑战。[7]
  ②数据深度分析需求的增长:要从浩如烟海的数据中挖掘出相关的知识用于指导实践,必须对大数据进行深入的分析而不仅仅是生成报表。复杂的空间分析依赖复杂的模型,很难用SQL来表达,称之为深度分析。人们不仅仅需要知道发生了什么,还需要对将要发生的事情进行预测,为将要发生的事情做好准备。
  ③自动化分析出现:对大量的数据进行有效的分析,分析过程需要按照标准化的自动分析流程进行,这就要求计算机能够分辨数据在数据结构上的差异,明白语义并自动地进行分析。
  3 结论
  大数据技术的发展和大数据时代的到来会对世界产生深刻的影响,也会极大地促进GIS的发展,这毫无疑问将是一个巨大的机遇。在大数据时代,GIS数据采集的手段、存储和管理的形式、分析和挖掘的方法必将发生巨大的变革。作为一门以空间分析为核心、以指导决策为目的的综合性学科,数据对GIS的重要性不言自明。要想在大数据时代发挥GIS的最大功效,必须采集高质量的数据,将数据进行安全、高效和方便的存取和管理,同时与时俱进地转变分析的观念和方法,才能在提高分析效率的同时保证分析的准确性。同时我们能看到,只有将GIS与大数据技术相结合,才能从根本上解决GIS庞大的数据量所面临的各种问题,同时将GIS的海量的数据变成具有价值的资产,进而从这些数据中挖掘出知识。
  参考文献:
  [1] 李清泉,李德仁.大数据GIS[J].武汉大学学报(信息科学版),2014,6(39):641-644.
  [2] IBM. What is big data?[EB/OL].2012.http://www-01.ibm.com/software/data/bigdata/.
  [3] Barwick H. The “four Vs” of Big Data. Implementing Information Infrastructure Symposium[EB/OL].2012.http://www.computerworld.com.au/article/396198/iiis_four_vs_big_data/
  [4] 维克托·迈尔-舍恩伯格,肯尼思·库克耶.大数据时代(生活、工作与思维的大变革)[M].杭州:浙江人民出版社,2012.
  [5] 李建中,刘显敏.大数据的一个重要方面:数据可用性[J].计算机研究与发展,2013.50(6):1147-1162.
  [6] 何嘉珈.矢栅数据一体化存储技术研究[J].科技资讯,2009,(26) :233-233.
  [7] 王树良,丁刚毅,钟鸣.大数据下的空间数据挖掘思考[J].中国电子科学研究院学报,2013,8(1):8-17.
  [8] 严霄凤,张德馨.大数据研究[J].计算机技术与发展,2013,4(23):168-172.
  [9] 城田真琴.大数据的冲击[M].北京:人民邮电出版社,2013.
  [10] 孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发展,2013,50(1):146-169.
  [11] 中国计算机学会大数据专家委员会.中国大数据技术与产业发展白皮书[Z].中国计算机学会,46-63.
其他文献
摘要:近年云计算应用的深度和广度都在迅速加强,形形色色的云计算生态系统服务将极大地提升各地信息化发展进程,探讨广佛肇地区如何抢占信息新技术先机的历史机遇,利用地区的优势互补、共建共享,尽快打造成熟的云计算产业链,更好更快地推进广佛肇地区经济转型和升级。  关键词:云计算;生态系统;广佛肇  中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2014)31-7253-03  Ab
摘要:随着教育教学改革步伐的加快和现代信息技术的广泛应用,高职精品课程建设存在了一些问题和不足。文章以宁夏工商职业技术学院为例,就该学院精品课程建设出现的问题进行分析,从中找出相应的解决对策,旨在加强精品课程建设,来提高高职学院的教学质量。  关键词:高职;精品课程建设;问题;策略  中图分类号:G424 文献标识码:A 文章编号:1009-3044(2015)20-0131-02  Proble
摘要:在第五代媒体基于网络的学习中,学习环境具有了网络交流人际化、人际沟通虚拟化、资源共享可行化的特点,该文从构主义出发,结合多年中职学校网络教学实践,对构建网络学习共同体的原则、模式进行了认真的思考、深入的研究,提出了网络学习共同体的构建策略。  关键词:构建;网络学习;学习共同体  中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2013)12-3086-02  行为主义
摘要:浅谈了现今计算机网络信息技术在县级的疾病预防控制机构中的应用,江苏省扬州市宝应县疾病预防控制中心(以下简称为宝应县疾控中心)为向社会提供准确数据及优质高效的服务,利用现有的自身条件投入人力、财力等组建局域网、积极引进和启用了多种应用管理信息系统系列软件,分别应用于疾病预防控制信息报送、卫生检验、生物制品、计划免疫、财务直报等实际业务工作中,提高了工作效率和工作质量,提升了卫生技术人员的整体素
摘要:全球信息化水平突飞猛进,我们的生活方式和学习方式也发生着翻天覆地的变化。在信息技术与教育的深度融合下,以网络学习空间为平台,应用翻转课堂的教学模式,实现将知识学习与知识内化的颠倒,创新了教学模式。在教学模式设计中,以学生为主体,教师为辅助,以思维导图和学习任务单为导向,引导学生利用教师在网络学习空间中搭建的学习资源自主学习,实现课堂的翻转。这种模式突破了时空和地域的限制,改变了教师的角色,大
摘要:该文主要探究了关于物流快递配送的未来发展趋势。  关键词:物流;配送;终端;效率;完善  中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2014)31-7287-02  Abstract: This paper mainly explores about the future development trend of logistics, express delive
提要:建立数字化校园就是为了解决应用系统之间的数据共享和集成问题,让各种数据资源能够在应用系统之间实现互联互通,从而实现高校信息资源整合共享。该文首先对研究背景数字化校园的现状进行了详细分析,进而提出了通过建立数字化校园的数字交换平台建设的设计方案。  关键词:数字化校园;资源共享;设计方案  中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2013)32-7166-02  
摘要:实验教学是计算机专业教学环节中一个重要组成部分,是使学生理论联系实际的最直接、最有效的环节,对培养学生创新能力、动手能力、分析问题和解决问题能力,实现“知能共进”有着不可替代的作用。以湖北理工学院计算机学院为例,阐述了人才培养模式改革、课程建设改革和实践教学改革的探索与实践。从实践措施与效果来看,有一定的借鉴意义。  关键词:计算机专业;人才培养;实验教学;改革与实践  中图分类号:G642
摘要:在这信息飞速发展的时代,微小说、微博、微电影似乎都在一夜间成了热门话题。在新媒体的迅速更新及普及下,微电影由于其放映的方便性,制作成本较低,故事性强等特点以不可抑止之势进入大众生活中,更是对青少年产生巨大的影响。正确的在学校教育利用这一趋势,微电影将会是学校教学中的一种新的、有效的教学方式。  关键词:微电影;学校教育;现状;策略  中图分类号:G424 文献标识码:A 文章编号:1009-
摘要:本文介绍一种基于CAN总线的分布式微型自动灭火系统,包括系统组成、功能以及节点模块的设计,并结合实际应用给出了一些抗干扰措施。  关键词:CAN总线;分布式;微型自动灭火系统  中图分类号:TP273文献标识码:A文章编号:1009-3044(2008)09-11728-02    Distributed Control System of Mini-stream Auto-fire-ext