论大数据和数据集成

来源 :商 | 被引量 : 0次 | 上传用户:xiaoex11
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  大数据是大事务数据(即关系数据库)、大交互数据(即社交数据、网站日志、传感设备、电子邮件),以及大数据处理(即Hadoop)的大综合。大数据处理主要源自于社会化媒体、移动应用以及云计算。通过以更快的速度对更多的数据值,更多类型的数据进行分析,大数据可以驱动快速创新。
  实践表明,大数据项目中80%的工作都和数据集成有关。我所说的数据集成是指访问、解析、规范化、标准化、集成、清洗、抽取、匹配、分类、修饰以及交付数据等功能。如D.J.Patil在他的书《Data Jujitsu》(数据柔术)中所说的那样,大数据项目中80%的工作都是清洗数据。)最近在针对来自25个公司的35名数据科学家的一次调研中,其中一个参与者说道:“还没有开始做任何实际的分析之前,我在集成、清洗,以及转换数据上花费了一半以上的时间。很多时候,在开始数据分析的工作的时候,我都感到非常庆幸。”(Kandel等,企业数据分析和可视化:一项调研访谈。IEEE可视化科学和技术(VAST),2012)。换句话说,在利用大数据做任何有意义的事情之前,必须首先进行集成。这是因为大数据来自于如此众多的不同类型是数据源,数据格式也千变万化。
  不仅仅是因为有很多数据,而且由于有很多不同类型的数据源、不同类型的结构和格式。在企业内外来自客户和供应商交易的数据正在被大规模地产生和使用,例如互联网、社交、云以及传感器设备等。为了从大数据中发现价值,就需要将数据从发源地和源系统中移动到大数据平台,经过集成、分析之后就可以交付这些原始数据中的价值。
  在某些情况下,可以使用数据虚拟化技术以避免移动数据,利用数据虚拟化可以创建一个数据抽象层以隐藏底层数据源的复杂性。基于这个数据抽象层,可以决定是否需要连接不同的数据源或者将合并后的数据移动到一个屋里目标存储。
  数据集成另外一个重要的方面就是元数据管理和数据治理。元数据管理为更好地理解数据创建了一个语义层,并且可以更好地支持数据治理活动。
  确实有不同的考虑。但是,我发现详细比较传统的行列格式的关系数据以及平面文件数据和多结构(即层次式、图形)以及非结构化数据会比较有用。前者很多情况下只能被传统的数据平台(即关系数据库管理系统)所处理,而后者可以使用新出现的NoSQL技术进行更为经济高效的存储和处理,例如Hadoop,还可以进一步区分高密度、高价值的数据(例如存储于关系数据库系统)和低密度的原始数据(例如:网站日志、社会化媒体文本),以便决定如何以最佳的方式存储,集成和处理数据。
  如果数据集成没有做好,那么总会导致项目延期、项目失败、最终用户的参与程度降低等结果,并且直接影响业务,导致较差的客户服务、低劣的产品质量、低效运营,以及不成熟的决策。考虑到不完全、不一致、不精确,以及不能准时交付给业务的数据,影响可能是跨越多个订单通道的不一致的客户体验,由于订单错误或者延期交付所导致的忠诚度下降,或者由于缺乏优化的交叉销售、纵深销售而导致现金流的损失。
  大数据项目中数据集成的最佳过程就是包含了访问和挖掘、解析和准备、发现和概要分析、转换和清洗,以及抽取和交付数据等功能的过程。如前所述,大数据项目中80%的工作都是数据集成。例如,大型跨国银行将数据集成应用于和欺诈检测、风险和投资组合分析、投资建议、法规复符合性,以及积极的客户开拓等相关的大数据项目中。大数据不仅仅是分析。而是整个流水线。因此,当提到大数据方案的时候,就必须考虑到所有的过程:收集、存储、组织、分析、以及分享。
  数据集成常常被忽略,这是因为一个快速但粗劣的集成方式实施起来阻力会小些。在这些项目中,没有全面考虑到在大数据项目中位了支持和维护生产环境中不断增加的数据量和数据类型所必要的范围和需求。组织需要一个可以线性扩展、具备24x7可靠性的数据集成平台,以支持一个灵活可变的架构,同时提供工具以增强生产率,提高协作。
  总的来说,大数据的元数据处理确实存在一些需要特别考虑之处。并不是所有的数据都以与大数据项目相关的方式进行建模。原始的交互数据(即社会化数据、网页日志、传感器设备、电子邮件等)是以读取模式而不是以写入模式进行处理的。因此,在大数据项目中,元数据的缺失是其固有属性。这也是数据治理在大数据项目中发挥着关键作用的原因。元数据可以通过数据发现(即领域、关系)以及数据管理来逐渐完善(即规范化、清洗)。有些元数据可以随着数据在企业范围内被访问、集成、分析和使用的过程而自动逐渐完善。例如,法规符合性审计数据的历史以及使用模式可以通过某些集成工具而自动获取。大数据项目中有多种不同类型且非常有用的元数据(技术型、业务型、操作型)这些元数据有助于增强搜索、简化数据审计、增强信任、提高协作、减少返工并增加安全性。
  大数据需要一个经过优化的数据集成平台,以支持一个异构的数据环境,其中包括生产效率工具,这个工具必须具备一定的可扩展性,既可以用生产环境,也可以用于其他多个项目,并且易于在整个生命周期中对项目进行管理。大数据项目需要的集成工具必须能够针对交易和交互数据提供一致、稳定的连接;预先构建的ETL和数据质量转换;解析库(解析器);一个用于构建数据流的可视集成开发环境(IDE);以及数据概要分析功能。组织需要一个可以支持所有数据量和数据类型的集成平台,这一平台应当能够通过数据复制、数据流,以及复杂事件流程(CEP)对实时和批处理过程提供支持。数据集成应当被作为完整的大数据参考架构的一部分来考虑 ,这一架构也包括了MDM。
  批处理数据集成主要用于对大量数据进行预处理,从而实现对数据的分析,并从中识别出模式和趋势为业务开发提供服务。批处理集成通过更快地处理更多类型的数据,从而实现其业务价值。实时数据集成有不少应用场合:通过只捕获和集成那些发生了变化的数据以避免不必要的数据暂存和很长的批处理窗口,从而使大数据处理的负载更为均衡;以及根据不同的情境积极响应事件。批处理和实时数据集成都可以提供一些非常有用的大数据方案。例如:在欺诈检测中很常见的一种做法就是以批处理的方式对大量的历史数据进行分析,识别出欺诈的模式,然后使用实时数据集成来建立情境上下文,并以一种实时的方式来判断某一欺诈事件发生的可能性,然后据此产生报警。
  大数据的技术变化很快。但是,就新技术和趋势而言常常就是这样的在等式的另一边,即人和流程,并没有足够快地采用最佳实践,因此没有充分吸收大数据所提供的好处。从根本上说,成功取决于业务和信息技术更高效的工作和相互协作。数据科学团队致力于管理数据资产,创建新颖的数据产品和服务,这些需要多种不同的技能,其中有些可以从外部购买或者通过培训而获得。大数据项目和传统的商务智能不同之处在于,组织需要一个更为一致的自上而下的业务技术策略,持续不断地寻求各种方法以从大数据上获得最大的回报,通过引人新产品和服务从而变现数据资产,同时提升业务运营能力。我们可以期望见到管理层对数据科学团队支持与战略性的业务措施保持一致(即增加客户认知和粘性)。
  大数据技术正在快速的变化和发展。开源社区和商业开发商都在和他们的客户一起工作,以便令新出现的技术更为成熟,从而确保这些新技术可以用于现有的数据管理基础设施。我们将会看到更多的基于通用设计模式构建的具有特定用途的应用(例如推荐引擎),以及特定的垂直大数据应用案例(例如风险和组织分析、预测病患结果、车辆远程信息处理)。很多新技术需要专业化的技能,从而给大数据项目增加了复杂性。因此,我们将看到 开发商们将这些新技术进行集成,并创建一个抽象层,从而隐藏 了这些技术的底层复杂性。(作者单位:齐齐哈尔工程学院)
其他文献
在经过对转基因粮食作物安全性的激烈辩论后,印度最高生物技术管理机构于2017年5月初公开宣布,一种转基因芥菜作物可以“安全的消费”.这种转基因作物能否交到农民手中完全取
期刊
河北武安市现有老年学校6所,学员达800余人.该市充分发挥老年学校在社会主义精神文明建设中的阵地作用,努力把老年学校办成四个“基地”:
要有扎实的文化素养和丰富的知识.老年大学工作人员要具备高层次的文化知识和政策水平,熟悉党和政府的路线、方针和政策,了解现代科学技术发展情况,还要懂得老年心理学、保健
2001年1月16日,西安老年大学校长朱文蔚、副校长韩同吉带领书法、国画研究班学员一行18人,前往未央区三桥镇西围墙村,参加由市文联组织的“文化下乡”书写春联活动.银发学子
摘要:社会信息环境纷繁复杂,占据社会大众传播媒介主导地位的电视媒体,正经历着新媒体的强大影响。在这样的大背景下,地方电视台在对访谈节目进行透彻分析后,发挥自身优势,在竞争激烈的生态环境中成功策划一档独具地方特色的访谈类节目,其完全可行,且对地方台发展,甚至区域文化环境起到推动作用。  关键词:访谈节目;信息环境;大众传播;地方电视台  一、访谈节目的起源及背景  访谈节目起源于1954年美国NBC
我在老年大学交谊舞班当班长,几年中,我碰过钉子,哭过鼻子,得过表扬,也受过批评.虽说是酸甜苦辣,五味俱全,仍乐此不疲.我的体会有两点:
去年,在青海省老年大学的结业大会上,肖荣泰、杜秀兰夫妻俩分别被评为优秀班干部和优秀学员.这对来自世界屋脊--玉树草原的老夫妇,已是连续两年获此殊荣了.
摘要:在现代生活节奏快速的情况下,医药广告设计一定要简炼明确,使受众一目了然。科学的广告宣传,能够提高产品市场知名度、增加产品市场竞争力。针对不同平面媒体广告设计需求,广告设计工作中也应针对广告类型及受众特点,确定艺术设计要点。利用计算机设计技术及艺术设计基本元素,满足平面媒体宣传需求、满足平面媒体广告运用目标。受平面媒体广告宣传特点影响,在平面媒体广告设计中应加强艺术元素及广告设计理论的运用。通
根据苏格兰优质肉制品协会数据,苏格兰生猪出场价格处于2014年年中以来的最高价,较2016年同期大幅上涨38%;若考虑到欧元汇率,同比涨幅为21%.从当前生猪价格形势可以看出,欧洲
期刊
自2017年4月19日起,欧盟对进口有机产品实施的电子认证制度生效.此举旨在强化对进口有机产品的追溯、打击食品掺假、确保数据的真实性.这项制度提供了6个月过渡期,即从2017年
期刊