数据在数据仓库中该保留多长时

来源 :中国计算机报 | 被引量 : 0次 | 上传用户:XU739603
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  我们是否需要强制规定保留数据?如果答案是肯定的,那么我们需要保留多长时间?或者,我们是否应该在数据已经失去价值的情况下,将其销毁以降低泄露的风险?我们又如何能够得知数据已经得到了妥善保管,以阻止入侵者接触到它们?关于是否应该无限期保存数据的争论有两个对立面。最后将具体到保留的数据类型、保留数据的目的与用途,以及数据泄露造成的风险。
  在美国,你需要保留最近七年的财务数据以备税务局审核。但是你的业务数据或者个人数据是否存在这么一个硬性的保留期限呢?随着数据量的不断增加,这个问题变得越来越难以回答,同时也为数据管理带来了更多挑战。
  数据掌控在业务高管、企业负责人以及IT管理者手中,他们有足够的理由希望存储更多的数据。从数据中发现新亮点这足以诱惑人们增加存储的数据量。但是,有些人也认为,大量存储的数据已经不仅是简单的经济成本问题,它们也带来了风险成本。我们是否需要强制规定保留数据?如果答案是肯定的,那么我们需要保留多长时间?或者,我们是否应该在数据已经失去价值的情况下,将其销毁以降低泄露的风险?我们又如何能够得知数据已经得到了妥善保管,以阻止入侵者接触到它们?
  数据长期存储的经济学
  现在,我们来考虑一下长期存储大量数据的经济学问题。搜索关键字“硬盘存储的高昂费用”,就会找到2009年的几个数据,在内部系统中每GB每个月的存储成本是25美元,相当于25000美元/TB,而将10TB数据存储五年的总体拥有成本将近1亿美元。但今天,在亚马逊上存储10TB数据的成本则是每月300美元。
  现在我们用杰文斯悖论来整体分析云存储或者云计算。存储成本的降低会提升使用量。低成本的分布计算资源加上低成本、供应量充足的硬盘和类似Hadoop的开源软件,2020年,预计大数据存储市场的规模将达到500亿美元。
  信息生命周期管理
  还有人记得信息生命周期管理这个缩写为ILM的名词吗?在2004年的时候,主要的存储供应商都在推动ILM战略,以帮助存储管理员通过存储层级方式降低存储的整体成本。关键数据可以用高可用性的冗余技术存储,而比较陈旧的数据则以比较低的服务等级进行低成本存储。按照数据的价值规划在基础架构方面的投入,从而降低总体成本。
  实施ILM需要部署一套数据分类系统,以根据元数据及业务规范来标记数据集,并且随着时间的推移随时对变化进行监控。业务词汇和元数据管理工具同数据集成和转移技术结合在一起,帮助数据从业务处理数据库转移至数据仓库、分析数据库,以及类似Hadoop的开源平台。
  并不是所有人都需要从历史中获取经验,然而历史数据给大数据、数据仓库、数据保存这一主题带来了一个重要的背景。Cloudera的创始人——Amr Awadallah在他关于大数据新用例的博客中,并没有将关注点放在成本上,而是说明了如何利用Hadoop来实现活动归档。他的观点是:并不是所有的数据都在分析数据库中占据重要位置。细节、琐碎的数据可以以低成本的方式存储在Hadoop上。
  关于无限期保存数据的争论
  数据分析师现在能够以几乎零成本的方式存储海量的历史细节数据,但是历史数据的数量会减少未来数据的存储空间。Salesforce CEO Marc Benioff在 2014 Dreamforce上说:“世界上90%的数据都是在过去两年内创建的。”可以想象未来的数据量会有多可怕。
  历史数据在探索行为模式的时候能够提供背景。验证猜想的时候,完备的数据对于检测预测模型具有相当大的价值。存储不再只考虑成本。如果你观察Hadoop和它的客户案例——DataKind(一个致力于在善意的数据科学家和寻求公益活动帮助的团队之间建立联系的非营利组织)如何利用数据来进行人道主义服务的话,主张永久保留数据的呼声会非常高。受益于数据,我们以商业与医学的方式改变着我们的世界。
  关于强制限制保存数据的争论
  想通过分析获得价值的人们希望能够将数据永久保存,这是故事的另一面。随着数据容量的增加,数据盗窃和数字犯罪的数量和严重性也在不断增加。首席数据官希望能够自由接触数据、首席信息安全官希望能够保护数据不受操作失误的威胁。安全人员和记录保存管理人员正是出于这一原因,对当前数据和记录的保存事项进行优缺点分析。
  作为美国联邦健康保险交换系统的核心,Healthcare.gov管理着政府数据仓库,其中保存着数以百万计的个人信息。目前这个被称为MIDAS的系统以无限期的方式保存着所有数据。合众社的一篇文章曾经提到,数据仓库中存储的数据类型引起了越来越大的担忧,这些信息可以被用来进行身份窃取、保险欺诈和税务欺诈。
  今年,白宫任命了历史上第一位首席数据分析师——DJ Patel,他的职责之一就是负责政府的“精准医学计划”。超过100万美国人将被征求意见:是否以自愿的方式来提供自己的医疗数据。预测模型将使用个人的状况辅以基因架构来决定更好、更精准、更个人化的治疗方法。当人们自愿提供数据的时候,他们应该知道这些数据会在研究数据库中保留多长时间。
  妥协
  很明显,关于是否应该无限期保存数据的争论有两个对立面。最后将具体到保留的数据类型、保留数据的目的与用途,以及数据泄露造成的风险。
  随着数据源和数据量的增加,保留数据踪迹成为了一项非常艰巨的工作:特别是数据在云环境中转入转出而无需IT人员介入,或者不被安全团队监督。在最近一份Informatica赞助、由美国独立研究机构Ponemon Institute发布的研究报告中提到,超过50%的受访者认为最让安全人员担心的是“不知道敏感和保密数据究竟存储在什么地方”。如果你不知道你要保护的东西在哪里,那么保护就成了一个不可能的任务。
  最佳实践作出了妥协,采取了类似信息生命周期管理的哲学。其根本在于将管治措施同数据分类规则相结合。一旦了解了哪些是敏感数据或保密数据,以及它们的存储位置,你就可以在数据安全技术方面进行相应的投入。当数据逐渐变得陈旧的时候,就可以在分析环境中进行数据去标记化(即数据脱敏),从而降低甚至消除风险。
  如果保存数据是为了用于未来的需求,你拥有的另外一个选择是利用归档技术将数据复活。将敏感和管制信息迁移到一个集中化管理、高度压缩并且安全的数据存储环境中,配合良好的接触控制,可以降低潜在的风险。
  我们大家都同意数据容量会不断增加,数据源的数量同样会不断增加。回头看看我们10年前存储的数据,它会启发你今后10年将是怎样的状况。将数据分类及保存管理引入企业数据架构中,重拾ILM将提升企业在未来的表现,并且可实现提高收益与降低风险这一目标。也许随着时间的推移,我们能够将ILM无缝融入到系统中,使之成为数据管理平台的一部分。
  美国国税局要求的7年也许对于保存个人税务数据是足够的,但未来,企业数据也许需要保存70年。
  链接 信息生命周期管理
  信息生命周期管理(Information Lifecycle Management,ILM)这一概念诞生于上个世纪六七十年代。在大数据时代,这一概念又被重新提起。它是指从一个信息系统数据及其相关元数据产生和初始储存阶段到最后过时被删除时的一套综合管理方法。与早期的数据储存管理方法不同,信息生命周期管理技术根据用户的操作从全方位对数据进行管理,而不仅仅是让数据储存流程自动化。
  信息生命周期管理可以根据各项数据标准自动把数据归到各层,并且自动完成数据在各层之间的移动。一般管理规则就是把新数据和常用数据放在速度比较快、比较好的储存媒体上,而不是很重要的数据就放在速度较慢、比较便宜的储存媒体上。不过,该管理系统在界定数据的重要性时并不仅仅根据数据的使用年限和常用性,用户可以自己制订规则,调整数据在不同时期的重要性和通过延长它的使用周期来保持它的重要性。路径管理应用软件无论作为信息生命周期管理软件系统的一部分使用还是与它联合使用,都可以根据数据储存循环中的路径重新找回数据。
其他文献
本报讯 日前,首届中国“互联网 ”大学生创新创业大赛总决赛落幕。哈尔滨工程大学参赛项目获得金奖。本次大赛,以“‘互联网 ’成就梦想,创新创业开辟未来”为主题,旨在深化高等教育综合改革,激发大学生的创造力,培养造就“大众创业、万众创新”的生力军;推动赛事成果转化,促进“互联网 ”新业态形成,服务经济提质增效升级;以创新引领创业、创业带动就业,推动高校毕业生更高质量创业就业。 (龚
CIO的门槛很高,要与CEO一样懂战略,与COO一样懂运营,与CFO一样懂财务,与CTO一样懂技术,与CMO一样懂营销……另外,还要能写代码、会做网线、善于沟通协调、管人理事。  23年IT行业工作经验、近15次担任IT项目经理,曾经在1年内同时负责4个信息化项目实施……他是同事眼中清高的“IT老人”,但在他身上不见一丝IT男的死板。他爱摄影、爱茶道,爱网球,也爱借书写毛笔字修生养性……在与记者两
中电华通通信有限公司成立于2003年1月,注册资本金20亿元,是工业和信息化部批准的无线宽带接入运营商,目前拥有全国12个省会、直辖市的3.5GHz频率使用权和业务经营授权,主营业务为无线接入服务、互联网接入服务、数据中心业务、华通云及连锁网吧业务等。  IDC数据中心介绍  工体机房(自有机房):中电华通(北京)IDC机房位于北京东二环的商务中心区,以整幢大楼做为数据中心,避免外界因素干扰。大楼
说起2013年的互联网行业,你脑海中是不是会马上蹦出诸如互联网金融、智能可穿戴设备、互联网电视、手游、在线教育、云计算等这些充斥着各种预测以及未来趋势分析的新宠话题?与此同时,纵观整个2013年的互联网行业,地位与收入依旧岿然不动甚至有所突破的还包括电子商务、视频以及游戏等互联网行业的老面孔。  这一年,渗入我们生活中影响深刻、甚至已改变我们的行为习惯的是快速增长与普及的移动互联网。在2013年互
它,盖茨不明就里,马云捷足先登,这是一场顶级的较量。  盖茨阅人无数,IT世界还有什么他也不懂?它,就是盖茨唯一承认过不明就里而又重金投入的技术,因为它代表未来。  马云打造电商王国,为何又以IT形象示人?它,也是马云兑现云计算核心战略承诺的顶级技术,“为了无法计算的价值”。  它,就是量子科技,属于物理世界的范畴。要不是这次云栖大会上,阿里云宣布量子加密通信技术全球首次落地公有云,IT界的程序员
作为国产CPU的代表,龙芯一路走来,备受业界关注,也争议不断。8月18日,龙芯中科发布新一代处理器与微架构。最值得关注的是,龙芯主动降频了。那么,龙芯逆行是为了什么?  作为国产CPU的代表,龙芯一路走来,备受业界关注,也争议不断。  8月18日,龙芯中科发布了新一代处理器及其相关产品,包括龙芯自主指令系统LoongISA,龙芯新一代处理器微结构GS464E,新一代处理器龙芯3A2000、龙芯3B
本报讯 11月20日,方正数码、中国交通通信信息中心(以下简称“CTTIC”)、北京乐金系统集成有限公司(以下简称“LG CNS”)三方达成战略合作伙伴关系,今后将在交通领域开展合作,共同推动中国船运事业的发展。 CTTIC自1989年成立以来,作为交通运输部的信息化技术支撑部门,立足于交通运输行业,通过发挥资源、人才、技术的优势,推动中国交通运输通信和信息化事业的发展。  方正数码依托方正集团人
互联网与云存储已在很大程度上改变了用户观看视频和存储数据的方式,  也让由DVD光驱等支撑起来的光存储市场陷入低迷。  然而在大数据时代,对大数据安全、低耗能、长期存储的苛刻要求,为光存储带来了新的希望。  现有主流的存储技术难以满足大数据时代对海量数据长期、安全、高效存储的要求。 这是4月23日在国家信息中心举办的“第三届大容量光存储技术研讨会暨中国大数据光存储产业联盟发起大会”上与会专家的共识
当德国工业遇上硅谷科技会是怎样的景象?今年的CES就是答案。往年的CES都是IT厂商唱主角,今年以奥迪、宝马、奔驰为首的德国汽车厂商,却成为当之无愧的明星。CES也有了新的一层含义——Car Electronics Show(汽车电子秀),大有争抢之后开幕的底特律车展风头之势。  在今年的CES展上,全球十大汽车制造商中有九家参展,奥迪、宝马、福特更是在展会上发布了其新款产品。“当你想到CES时,
哪个云服务商对技术服务那么狂热,以至于将自己的服务品牌也命名为“Fanatical Support”(狂热支持)?哪个云服务商对技术服务那么狂热,甚至不避竞争之嫌,与自己的竞争对手亚马逊AWS、微软Azure合作?只有Rackspace。  谁来管理你的云?  近日在香港举行的Rackspace:Solve大会上,Rackspace公司首席执行官Taylor Rhodes与用户和行业分析师代表齐聚