大数据时代的挑战

来源 :中国计算机报 | 被引量 : 0次 | 上传用户:kentron
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  我们在大数据时代面临着什么样的挑战,今天我就讲讲这个问题。
  大数据通常来自三个方向:自然大数据、生命大数据和社交大数据。PB时代是对科学的挑战,更是对包括数据挖掘在内的认知科学的挑战,也是对软件工程的挑战。
  尤其是社交大数据。在奥巴马就职的现场有这么多面孔,每一个面孔下都有一个故事。人脸是数据安全很重要的识别器。那么,怎么识别呢?人们想到了摄像头,北京市约有80万个摄像头,我们每天都在摄像头的监督下开车、购物等。
  “谁?是他吗?”这是社交网络中基本的问题。我们要确定一个人,通常需要从身份认证、年龄识别、情感计算、亲缘发现、性别识别、地区和民族识别等方面进行辨识。
  结构化数据面临挑战
  我们认为计算在过去的20年里起到了主导作用,它的标志就是摩尔速度。跟这个时代相对应的是结构化数据,“软件”加“程序”加“数据”加“存档”,这个数据应该是结构化数据才能运行起来。
  结构化数据的典型代表就是关系数据库。1970年,伟大的科学家埃德加·弗兰克·科德教授提出关系模型,以关系代数为核心运算,用二维表形式表示实体和实体间联系,通过关系运算实现结构化查询。30多年来,各行各业的数据库和数据仓库技术,以及从数据库发现知识的数据挖掘构筑起巨大的信息处理产业。
  关系代数是关系数据库的形式化理论和约束。关系数据库有严格的顶层设计。为构造良式关系,必须消除元组中不合适的数据依赖,通过第三范式(BCNF)甚至约束度更高的范式,分解数据表,以解决插入异常、删除异常和数据冗余等问题。对这样的关系进行运算,运算结果仍然是关系,运算符可以是集合运算、算术运算、逻辑运算,或者关系运算。只要数据在关系数据库中,用户总可以通过SQL语言将满足条件的唯一结果挖掘出来,无需关心数据的获取、存储、分析和提取过程,更无需关心数据结构的内部组织形式。
  但是,结构化数据仍然面临着一些挑战:挑战一,形式化约束过于苛刻,无法表示原生态数据;挑战二,随着数据量的增大,关系代数运转的性能急剧下降。
  在计算时代,人们发现,这种摩尔速度下的存储也有很大的发展。尤其随着存储材料和存储技术的发展,市场上500元就能买到1TB的硬盘,这是我们以前不可想象的。存储技术在交互方面的发展,让我们有了存储的网络和阵地。于是,整个社会进入了半结构化的数据阶段。而半结构化数据的典型特征是超文本、超链接、超媒体,其组成形式是C/S、B/S和云计算。
  万维网(World Wide Web)之父Tim Berners-Lee,是把超文本技术引入互联网的第一人。1989年,他开发出世界上第一个Web服务器和Web客户机。1991年,Web实现了通过超文本方式,使网络中不同计算机内的信息实现超链接,通过超文本传输协议HTTP从一台Web服务器转到另一台Web服务器上检索。另外,服务器在软件支持下可以发布包括文本、表格、图片、音频和视频等碎片化的超媒体信息。而E-mail、 Telnet、 FTP、 WAIS 等都可以通过Web服务实现。从此开始了Web纪元,人类进入搜索时代。
  我们看到,数据围绕实体,实体围绕链接转。挖掘就是云环境下的探索和个性化服务,没有死板的查询方式,也没有唯一的结果,挖掘结果允许带有不确定性,重视探索的统计性质。现在的挖掘已经延伸到了图片和语音的搜索,这类搜索引擎的出现也带来了互联网上繁荣的内容服务。
  移动互联网的大数据挖掘
  现在,我们处在网络化和交互的时代。移动互联网时代的大数据挖掘,主要是网络环境下的非结构化数据挖掘。这些数据形态反映的是带毛的、鲜活的、碎片化了的、异构的、有情感的原生态数据,而这些原生态数据的特点常是低价值的、强噪音、并购、冗余的冷数据。
  同时,移动互联网大数据挖掘过程中,数据的简约具有各自适应性。长期以来,我们用认知物理学方法来实现数据的自适应简约。我们在国内外第一次提出了数据场的思想。把人脸变成数据场,大家可以看到这张人脸跟其他人的脸是有相似之处的,可以用线性的方法也可以用非线性的方法来表现。
  举例来说,如果想突出眼睛、鼻子和嘴巴,我们可以用这种数据场的方法来突出。用物理学中“场”的方法来类比形成数据场,像素之间相互影响越小,特征点个数越多,图像的描述细节越多,反之特征点个数越少。
  百度用深度学习的方法实现了数据自适应简约,我们觉得他们跟我们现在做的是非常一致的,例如,百度搜图做的人脸相似性搜索。当前的情况是,数据量急剧增加,组织结构已经围绕数据转了,程序碎片化可以随时重组,挖掘常常是人机交互环境下不同社区的发现。
  社区可以给我们提供数据实物。网络化大数据挖掘的方法是社区发现。人们最关心的是社区,并且我们关心社区中的交互。社区交互表现的形式有显性和隐性两种形式。显性形式有评论、心情、收集、购买、评分、顶、踩、分享、加为好友、邀请加入等,而隐性形式有跳转等。我们利用拓扑势方法挖掘社区,并且发现社区成员的重要性及成员角色。现实生活中经过一段时间的反复、交互、汇聚,修正和演化,群体形成趋于相对稳定的共识。
  云计算支撑大数据挖掘
  云计算是基于互联网大众参与的计算模式,其计算资源、存储能力、交互能力是动态、可伸缩和被虚拟化的。端产品摆脱了传统IT配置带来的系统升级开销,其特点是更加简洁、灵活、多样、个性化。手机、游戏机、数码相机、电视机、上网本、笔记本电脑等功能交叉,差别细微,出现更多iCloud产品。界面人性化、个性化,可随时变换成为各种各样的大数据发生器,或者虚拟遥控器,或者大数据挖掘终端。
  大数据挖掘和云计算在支撑着各种各样的大数据应用。于是,软件工程出现了巨大的变化,通过众包细分法,完成云环境下的社会生产。在互联网环境下,利用人的认知和大众之间的交互,融合计算机群组对大数据的价值挖掘,形成群体智能。由此,我们提出了一个新概念“众挖”。用户不再需要关心数据的形态、数据的获取位置、结构模式、存储方式和分析过程,就能够获得足够满意的挖掘结果。
  大数据标志着新时代的到来,这个时代的特征不只是追求丰富的物质资源,也不只是互联网带来的便利,它还包含区别于物质的数据资源的价值挖掘和价值转换,以及由大数据给金融行业带来的很多思考,同时还有由大数据挖掘带来的精神和文化方面的崭新现象。
  (本文根据李德毅院士发言整理,未经本人确认)
其他文献
杭州西软信息技术有限公司,简称“西软”公司始创于1993年,是国内专业致力于旅游饭店业信息化系统和项目建议、开发和服务的高科技企业。  自1998年以来,“西软”以稳健的发展一直居于中国饭店管理信息系统供应商前列。  近年来公司大规模投入人力和财力于新一代“酒店信息管理系统”的研发,旨在打造更加出类拔萃的新一代信息系统;这些产品在很大程度上满足了酒店信息管理的各种需求,在帮助客户提升核心竞争力、获
网络应用是当今企业信息安全威胁的主要来源,网络应用程序往往是攻击者的主要切入点。鉴于网络通信和网络应用程序是造成如此多的安全风险的来源,IT管理员可以通过限制用户只使用工作必需的应用程序和相关的应用服务,从而减少潜在威胁的产生。  如今,企业为了保护它们的信息资产安全,需要的不仅仅是传统防火墙这样单一的功能。随着商业协作的增长,以及员工使用的终端设备的多样化,企业数据安全和合规性要求就成了企业面临
在人们的日常工作中,打印机是必不可少的生产工具。虽然不同用户的需求各不相同——美术设计公司希望打印机可以打印高清晰、高对比度的图稿;商业公司希望打印机打印速度快,日常使用成本低。但是它们对打印机有一个共同的要求,这就是一定要安全,打印机不能成为泄露公司创意和商用机密的漏洞。如何解决它们共同关心的安全问题?  在日常办公中,员工泄露公司的机密也许并不是故意而为之,也许只是打印了一个文稿而没有及时取走
朗新科技股份有限公司(简称朗新科技)创立于2003年,是一家专注于电力及能源行业,从事信息技术研发、技术咨询服务和系统运营管理的大型股份制有限公司。目前,朗新科技已为超过1.4亿的终端用户提供计费和客户服务,是中国最大的电力及能源行业关键业务解决方案和服务提供商之一。  目前,朗新科技已获得ISO9001质量管理体系、ISO27000安全体系和软件能力成熟度CMMI 4等广泛资格认证。近几年来,朗
在前不久刚刚结束的2014IBM技术峰会上,IBM首次强调全新“组合式业务”(Composable Business)理念,并推出只有组合式业务才能跟据企业的不同业务需求,灵活组合大数据、云、移动、社交等业界领先技术,实现高效交付,自如应对挑战。  综观IBM技术模式的发展,曾经在相当长的一段时间里,IBM在技术上的优势一直强调的是端到端的能力,即从芯片、硬件、软件到服务的纵向一体化能力。这样的能
本报记者:作为SoftLayer的掌门人,您怎么看待与亚马逊AWS竞争?并入IBM之后,您怎么看待整合后的云平台与AWS之间的差异?  Lance Crosby:SoftLayer在亚马逊涉足云业务之前一年就成立了,所以我们比AWS更早地提供云服务。SoftLayer专注于企业级,倾向于向企业、政府、机构提供云,不管是单向还是多向,SoftLayer提供的云都是透明的。  虽然与AWS相比,客户在
近日,北京牡丹电子集团有限公司(简称牡丹集团)在京发布了牡丹大数据产品,希望籍此机会向大数据转型,重新崛起。  转型的机会  “牡丹集团不是生产电视机的吗?”很多人听到牡丹集团,第一个反应便是提出这个疑问。没错,这个牡丹就是那个成立于1973年的传统电视生产商。  从2008年起,牡丹集团就开始放弃传统制造业,而向生产性服务业、向数字科技产业转型。当前,牡丹集团紧紧围绕互联网经济、实验室经济和创意
当前,一提到大数据人们就会想Hadoop,它似乎成为大数据的“代言人”。不可否认,Hadoop在集群扩展性和成本上都有巨大的优势,但是,Hadoop并不适合做实时分析系统。  因此,很多企业都会利用Hadoop实现数据存储,再通过其他工具实现对大数据的高速捕获和实时分析。这里,我们将通过艾瑞咨询集团的一个真实案例,解读一下敏捷BI如何和Hadoop进行互补,帮助其实现互联网大数据分析的。  定制化
凌志软件股份有限公司(证券代码830866)于2003年在苏州成立,是一家专注于向国际、国内客户提供高端金融IT服务的高新技术企业,主营业务涵盖了金融IT系统咨询、设计、开发、测试、验收上线、运维等软件全生命周期作业。业务范围涵盖证券、银行、保险、基金、期货等金融子行业。经过十余年的发展,凌志软件已成为金融领域IT企业的行业翘楚。  凌志总部位于苏州,在上海、北京、日本等地均设有分支机构。 201
穿着随意,操着网络流行语,喜欢站在最前面听演讲人讲演,这是记者在IDG“90后”创业者基金启动仪式暨“90后”创业者媒体见面会现场最直接的感受。与“不靠谱”、“情绪化”等人们为“90后”贴上的标签不同,记者深深感受的到是“90后”创业者的独立、个性、激情和坚持。在8月14日的IDG“90后”创业者基金启动仪式上,IDG资本创始合伙人熊晓鸽宣布,IDG将正式设立“90后基金”,规模为1亿美元,这是I