面向复杂来源的大数据分析架构研究

来源 :科学与生活 | 被引量 : 0次 | 上传用户:mqkxxmvo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:大数据时代数据的大不仅仅在于数据量的多少,更为复杂的是数据结构的多样性。本文首先介绍了研究背景和研究目的。然后分析了大数据可能的来源,从这些来源初步可以判断出数据形式的复杂。紧接着对不同类型数据进行了特征分析,重点在于地理数据及人类反馈信息。基于对复杂数据的特征分析,随后给出深度数据分析的工作流程,提出基于聚类算法模块的全局架构设计方案。
  关键词:聚类分析,GIS,人类,时空,维度
  前言
  对于一个社会来说,信息获取由三大部分组成,一个是物理,一个是人类本身,一个是信息。当今大数据趋势呈不断上升趋势,除了物理传感以外,时空数据的感知渠道新增了许多。首先是互联网,像Facebook、微博、微信等有大量的信息每天都在网上,这些信息大量反映社会发展的现状,也包括人文的一些理解和信息,以及包括人的相关观点模型。
  数据很“大”不仅仅是数据很“多”。事实是,大数据的类别、数据间关联的复杂才是真正的“大”。处理海量的复杂的数据,首先要弄清楚这些数据的来源。来源不同的数据造成了数据的积累、数据结构复杂度的提升。
  1.大数据来源分析
  1.1现实社会大数据的产生
  首先当今许多行业的日常工作几乎都是在互联网上进行,关键词搜索、各官网平台数据交互、数据通信等。
  第二是智能手机,智能手机更多地反应了个人在社会经济中的行为,如在线申报、及时通信、各种APP等。
  第三是导航设备,包括实时的交通、路况各种信息,都是由导航设备得到的。
  第四是视频监控,城市、企事业单位里现在有大量的视频,每个城市都有几十万、上百万甚至更多,这些视频从原理上说既是感知物理世界的视频,同时也是感知人类社会的视频。对人流量感知,对突发事件的感知,都会有大量信息获取。
  最后,现在很多人戴的手环、电子表,这些可穿戴设备本身提供很多的信息,包括个人、群体的信息等。
  1.2量化与感知数据
  针对这些来源,一些可由物理感知获取较量化的数据,较复杂的是社会感知产生的数据。那么,现在对于一个应用,越来越多地需要同时获取来自物理感知和社会感知的多方数据,并能为这个应用同时服务。
  首先,我们就需要识别有哪些数据来源,并分析这些不同来源数据的特征。其次,这些来源经常会涉及不同领域、不同物理设备以及人类自身,因此必然造成从这些复杂来源获取数据的复杂多样化。这些数据有些本身在结构性、动态化等方面就已经非常复杂,如何统一收集、管理、分析这些数据的任务复杂度则是呈级数增加。如何融合复杂来源的大数据高效地为同一应用所服务,我们需要分析来自复杂来源大数据的个性及共性特征。进而,清理出不必要的冗余,找出不同来源数据的关联性。
  在《面向复杂来源的大数据分析架构及算法模型研究》项目实施中,发现用户在网络和数字地图上的活动数据具有GIS数据的时空特性,还具有人类本身感知反馈产生的数据。这些数据造成了多种应用系统大数据处理的复杂度。
  2.多种数据特征分析
  2.1GIS数据特征分析
  如今,社会上许多行业和部门都在使用GIS(Geographic Information System)。在研究项目中,某职能部门的预警系统时时刻刻都在收集地理数据。
  地理数据是与空间相关的。它可以被分配坐标或任何空间引用。数据在地球表面,包括位置和组织。地理数据的规模可以从一般到具体,从简单到复杂。一颗卫星每天可以产生几百万兆的数据。地理数据是动态的,包括空间动态(空间变化)和时间动态(时间变化)。地理数据既具有空间特征,又具有属性特征,并随时间变化。因此,数据量非常大。
  空间数据是指用来表示空间实体的位置、形状、大小和分布的数据。它可以用来描述现实世界的目标。它具有区位性、质量性、时间性和空间性的特点。空间物体在已知坐标系中具有独特的空间位置。质量是指空间目标的性质,伴随着目标的地理位置。空间目标会随时间改变。空间关系通常用拓扑关系来表示,如图1所示。空间数据是人类赖以生存的自然世界的数据。空间数据由基本的空间数据结构(如点、线、面和实体)表示。
  2.2人类反馈数据特征分析
  在研究项目中,某职能部门的预警系统不仅定时收集固定时刻的地理数据。同时,在有临时事件触发预警系统时,可能会收集触发系统的民众信息。这些信息包括:民众的地理位置、反馈时间、反馈事件、预警等级、民众个人信息、意见等。
  相对较量化的地理数据而言,人类反馈信息的准确性、清晰度都是不定的。也就是说相对而言,数据“噪音”较多。那么在大数据分析架构中需要考虑“噪音”的处理。
  首先,原始数据不准确性是产生不确定性数据最直接的因素。物理仪器所采集数据的准确度受仪器的精度制约;在网络传输过程(特别是无线网络传输)中,数据的准确性受到带宽、传输延时、能量等因素影响;在传感器网络应用与RFID应用中,周围环境也会影响原始数据的准确度。
  第二,从粗粒度数据集合转换到细粒度数据集合的过程会引入不确定性。例如,假设预警系统以行政区为单位统计预警人数,而需要精确到街道时,则预警人数存在不确定性。
  第三,缺失值产生。装备故障、无法获取信息、与其他字段不一致、历史原因等都可能产生缺失值。无论是用插值还是删除的方法,都有可能变动原始数据的分布特征。
  第四,不同数据源的數据信息可能存在不一致,在数据集成过程中就会引入不确定性。例如,应用前端中含很多信息,但是由于页面更新等因素,许多页面的内容并不一致。
  还有一点,也是较常出现的问题。人类在移动过程中产生的地理数据很容易出现不确定性。LBS(Location-Based Service)是移动计算领域的核心问题,在军事、通信、交通、服务业等领域有着广泛的应用。LBS应用获取各移动对象的位置,为用户提供定制服务,该过程存在若干不确定性。首先,受技术手段(例如GPS技术)限制,移动对象的位置信息存在一定误差。其次,移动对象可能暂时不在服务区,导致LBS应用采集的数据存在缺失值情况。   3.深度数据分析的工作流程
  首先,必须确定系统需要哪些数据。数据资源可以通过访问公众、收集地理信息等方式获得。可以先把所有的数据进行分类、去噪、初步筛选。其次,只有遵循正确的程序,我们才能有效地应用深度数据分析挖掘技术。
  图2给出了深度数据分析的工作流程。从这个流程中,可以直接确定每个阶段的任务。工作流包括四个阶段: 挖掘对象确定(Miningobjects determination)、数据准备(Data preparation)、模式提取(Pattern extraction)、模式评价(Pattern assessment)。
  在此工作流程中,从问题域直接获取的业务数据库,依据应用需求经过数据“清洗”提取获得目标数据库。然后针对目标数据库,对数据进行预处理,当然是基于模式提取需求的。模式提取使用一些科学的计算方法,得到可用模式集。最后根据用户意愿评价模式,用户意愿可以使用一些评估值或阈值设定提取范围,评价出的模式用以辅助用户决策。
  4.基于聚类算法模块的全局架构设计
  在确定了数据来源之后,应用科学的流程对不同类型特征的复杂来源数据进行预处理后,即可构建数据挖掘的算法架构。
  如图3所示,基于聚类算法的体系架构由四个部分组成: 数据维的划分、切片、聚类、识别。
  聚类(Cluster)分析是由若干模式(Pattern)组成的,通常,模式是一个度量(Measurement)的向量,或者是多维空间中的一个点。
  广泛获取不同来源的大数据后,首先设别出不同类型的数据,对这些数据进行分类,有些数据存在多种维度。在Data preparation modules阶段,对数据的维度进行划分,根据应用需求切片。本阶段,可根据应用需求的变化,重新设定维度划分的大小、切片的标准。以此尽量获得应用需求所需粒度的维度数据。一个数据库或者数据仓库可能包含若干维或者属性。人类的眼睛在最多三维的情况下能够很好地判断聚类的质量。在高维空间中聚类数据对象是非常有挑战性的,特别是考虑到这样的数据可能分布非常稀疏,而且高度偏斜。
  在Pattern assessment modules阶段,应用合适的聚类算法,计算出相关模式,然后根据人类自定义的阈值选取结论,產生数据深度挖掘后的结论。很难对聚类方法提出一个简洁的分类,因为这些类别可能重叠,从而使得一种方法具有几类的特征。本研究主要用到的聚类分析计算方法有:划分法、层次法、基于密度的方法等。
  大部分划分方法是基于距离的。给定要构建的分区数k,划分方法首先创建一个初始化划分。然后,它采用一种迭代的重定位技术,通过把对象从一个组移动到另一个组来进行划分。一个好的划分一般准备是:同一个簇中的对象尽可能相互接近或相关,而不同簇中的对象尽可能远离或不同。
  系统关注的是地理数据的维度,这些数据被信息需求分割。然后高密度区域被划分为集群。在对数字地图进行聚类之后,用户可以进一步识别地图上的深度信息。
  结语:空间数据已广泛应用于社会各行业、各部门,如公安系统、城市规划、交通、银行、航空航天等。随着科学和社会的发展,人们已经越来越认识到空间数据对于社会经济的发展、人们生活水平提高的重要性,这也加快了人们获取和应用空间数据的步伐。空间数据及人类反馈的不确定性数据的综合分析处理,对各种应用系统产生决策信息的有效性起着至关重要的作用。
  参考文献:
  [1]Arabameri Alireza, Pal Subodh Chandra, Rezaie Fatemeh et al. Modeling groundwater potential using novel GIS-based machine-learning ensemble techniques[J]. Journal of Hydrology: Regional Studies. 2021, 36
  [2]张晓东.基于复杂系统理论的平行城市模型架构与计算方法[J].指挥与控制学报. 2021,7(01)
  [3]Venkat Rayala. Big Data Clustering Using Improvised Fuzzy C-Means Clustering[J].Revue d’Intelligence Artificielle. 2020,34
  项目来源:面向复杂来源的大数据分析架构及算法模型研究,湖北省教育厅2019年度科研计划项目,项目编号B2019285
  作者简介:熊燕,女,副教授,湖北省武汉市武昌理工学院,人工智能学院
其他文献
患儿,男,3岁7个月.于2006年7月因反复发热伴不规律腹痛1个月余入院.查体:体温37.2℃,心率128次/min,呼吸24次/min,血压110/68 mm Hg,神志清楚,呼吸平稳,面色稍苍白,皮肤无出血点及皮疹,全身浅表淋巴结未触及肿大,巩膜无黄染,咽部稍红,胸骨无压痛,心、肺未见异常,腹软,无触痛,肝、脾肋缘下未扪及,四肢关节活动正常,神经系统检查未见异常。
期刊
期刊
肌纤维母细胞是一种反应性间质细胞,能加速肿瘤发展、促进肿瘤转移,近年在肿瘤研究中受到重视,7%~17%慢性粒细胞白血病(CML)急变期患者并发或单纯表现为髓外急变,累及淋巴结、骨、皮肤和软组织等部位,但髓外急变过程未见有关肌纤维母细胞转化报道.现介绍1例CML髓外淋巴结浸润,间质同时出现肌纤维母细胞转化的病例。
期刊
摘要:随着现如今科学技术和经济在不断的发展,计算机科学在各个领域的发展中也成为了重要的影响因素。这项技术在发展的过程中,也成为了社会比较关注的重点。同时大数据时代在发展的过程中,信息化技术也成为了发展的浪潮。管理人员对大数据时代背景下计算机科学进行不断的研究和探索,可以找到更多科学性的数据信息管理内容。这篇文章主要从大数据信息背景下的整体情况去进行分析和了解,明白了发展过程中存在的一些挑战和机遇。
非霍奇金淋巴瘤(NHL)是血液系统常见恶性肿瘤,其中<1%患者表现为原发骨损害~([1]),<5%患者首发伴高钙血症~([2]),以高钙血症及多发骨损害为首发症状的NHL临床罕见,现报道我院诊治的1例弥漫大B细胞淋巴瘤(DLBCL),并就NHL的高钙血症问题作文献复习。
期刊
Kasabach-Merritt综合征(KMS)临床少见,表现为血管瘤及其伴随的血小板减少、消耗性出血,目前尚无统一的治疗标准和良好的根治方法,死亡率为30%~50%[1,2]。
期刊
目的 探讨国际分期体系(ISS)在我国多发性骨髓瘤(MM)患者中的适用性,并与Durie-Salmon(DS)分期、法国骨髓瘤工作组(IFM)分期进行比较.方法 对112例具有ISS分期资料的MM初诊患者进行回顾性分析.结果 ①预后因素:血清β2微球蛋白(β2-MG)1≥3.5 mg/L是患者总体生存(OS)时间的独立预后不良因素,血清白蛋白(ALB)<35g/L是患者疾病进展时间(TTP)的独立
中华医学会血液学分会定于2008年10月30日至11月2日在武汉市召开第十次全国血液学学术会议。会议内容包括:继续教育、大会特邀报告、大会报告、专题发言、成人与儿童急性白血病专题讨论。会议将邀请国内外著名专家介绍血液病及相关领域的最新进展。专题发言按红细胞疾病(包括骨髓增生异常综合征)、白细胞疾病(包括白血病、淋巴瘤、多发性骨髓瘤)、出血性疾病与易栓症、造血干细胞移植、血液学基础研究等5个专题进行
期刊
摘要:随着社会经济的发展,劳动关系发展为社会经济关系。劳动关系不和谐直接影响社会稳定,企业劳动关系不稳定影响企业的健康发展。劳动关系管理是企业人力资源管理的主要部分,贯穿于人员招聘与岗位配置、绩效管理等各环节。现代企业管理制度不断完善,对建立劳动关系管理制度提出更高的要求,如何避免减少劳资矛盾成为现代企业人力资源管理亟待解决的问题。本文概述企业人力资源劳动关系管理理论,分析企业劳动关系管理存在的问
造血干细胞移植(HSCT)技术的日趋成熟和广泛应用已使其成为治疗某些血液病、恶性肿瘤、遗传性疾病和自身免疫性疾病的有效方法之一.作为最早开展研究的干细胞,造血干细胞在临床应用、细胞移植研究等方面取得了许多成果,但在造血干细胞的基础研究中还有不少尚待解决的问题,如造血干细胞的获取、扩增,造血重建能力的维持,体外对造血微环境的模拟等,而这些问题的深入研究将为临床细胞移植实践,如体外大量扩增造血干细胞解
期刊