论文部分内容阅读
我们在大数据时代面临着什么样的挑战,今天我就讲讲这个问题。
大数据通常来自三个方向:自然大数据、生命大数据和社交大数据。PB时代是对科学的挑战,更是对包括数据挖掘在内的认知科学的挑战,也是对软件工程的挑战。
尤其是社交大数据。在奥巴马就职的现场有这么多面孔,每一个面孔下都有一个故事。人脸是数据安全很重要的识别器。那么,怎么识别呢?人们想到了摄像头,北京市约有80万个摄像头,我们每天都在摄像头的监督下开车、购物等。
“谁?是他吗?”这是社交网络中基本的问题。我们要确定一个人,通常需要从身份认证、年龄识别、情感计算、亲缘发现、性别识别、地区和民族识别等方面进行辨识。
结构化数据面临挑战
我们认为计算在过去的20年里起到了主导作用,它的标志就是摩尔速度。跟这个时代相对应的是结构化数据,“软件”加“程序”加“数据”加“存档”,这个数据应该是结构化数据才能运行起来。
结构化数据的典型代表就是关系数据库。1970年,伟大的科学家埃德加·弗兰克·科德教授提出关系模型,以关系代数为核心运算,用二维表形式表示实体和实体间联系,通过关系运算实现结构化查询。30多年来,各行各业的数据库和数据仓库技术,以及从数据库发现知识的数据挖掘构筑起巨大的信息处理产业。
关系代数是关系数据库的形式化理论和约束。关系数据库有严格的顶层设计。为构造良式关系,必须消除元组中不合适的数据依赖,通过第三范式(BCNF)甚至约束度更高的范式,分解数据表,以解决插入异常、删除异常和数据冗余等问题。对这样的关系进行运算,运算结果仍然是关系,运算符可以是集合运算、算术运算、逻辑运算,或者关系运算。只要数据在关系数据库中,用户总可以通过SQL语言将满足条件的唯一结果挖掘出来,无需关心数据的获取、存储、分析和提取过程,更无需关心数据结构的内部组织形式。
但是,结构化数据仍然面临着一些挑战:挑战一,形式化约束过于苛刻,无法表示原生态数据;挑战二,随着数据量的增大,关系代数运转的性能急剧下降。
在计算时代,人们发现,这种摩尔速度下的存储也有很大的发展。尤其随着存储材料和存储技术的发展,市场上500元就能买到1TB的硬盘,这是我们以前不可想象的。存储技术在交互方面的发展,让我们有了存储的网络和阵地。于是,整个社会进入了半结构化的数据阶段。而半结构化数据的典型特征是超文本、超链接、超媒体,其组成形式是C/S、B/S和云计算。
万维网(World Wide Web)之父Tim Berners-Lee,是把超文本技术引入互联网的第一人。1989年,他开发出世界上第一个Web服务器和Web客户机。1991年,Web实现了通过超文本方式,使网络中不同计算机内的信息实现超链接,通过超文本传输协议HTTP从一台Web服务器转到另一台Web服务器上检索。另外,服务器在软件支持下可以发布包括文本、表格、图片、音频和视频等碎片化的超媒体信息。而E-mail、 Telnet、 FTP、 WAIS 等都可以通过Web服务实现。从此开始了Web纪元,人类进入搜索时代。
我们看到,数据围绕实体,实体围绕链接转。挖掘就是云环境下的探索和个性化服务,没有死板的查询方式,也没有唯一的结果,挖掘结果允许带有不确定性,重视探索的统计性质。现在的挖掘已经延伸到了图片和语音的搜索,这类搜索引擎的出现也带来了互联网上繁荣的内容服务。
移动互联网的大数据挖掘
现在,我们处在网络化和交互的时代。移动互联网时代的大数据挖掘,主要是网络环境下的非结构化数据挖掘。这些数据形态反映的是带毛的、鲜活的、碎片化了的、异构的、有情感的原生态数据,而这些原生态数据的特点常是低价值的、强噪音、并购、冗余的冷数据。
同时,移动互联网大数据挖掘过程中,数据的简约具有各自适应性。长期以来,我们用认知物理学方法来实现数据的自适应简约。我们在国内外第一次提出了数据场的思想。把人脸变成数据场,大家可以看到这张人脸跟其他人的脸是有相似之处的,可以用线性的方法也可以用非线性的方法来表现。
举例来说,如果想突出眼睛、鼻子和嘴巴,我们可以用这种数据场的方法来突出。用物理学中“场”的方法来类比形成数据场,像素之间相互影响越小,特征点个数越多,图像的描述细节越多,反之特征点个数越少。
百度用深度学习的方法实现了数据自适应简约,我们觉得他们跟我们现在做的是非常一致的,例如,百度搜图做的人脸相似性搜索。当前的情况是,数据量急剧增加,组织结构已经围绕数据转了,程序碎片化可以随时重组,挖掘常常是人机交互环境下不同社区的发现。
社区可以给我们提供数据实物。网络化大数据挖掘的方法是社区发现。人们最关心的是社区,并且我们关心社区中的交互。社区交互表现的形式有显性和隐性两种形式。显性形式有评论、心情、收集、购买、评分、顶、踩、分享、加为好友、邀请加入等,而隐性形式有跳转等。我们利用拓扑势方法挖掘社区,并且发现社区成员的重要性及成员角色。现实生活中经过一段时间的反复、交互、汇聚,修正和演化,群体形成趋于相对稳定的共识。
云计算支撑大数据挖掘
云计算是基于互联网大众参与的计算模式,其计算资源、存储能力、交互能力是动态、可伸缩和被虚拟化的。端产品摆脱了传统IT配置带来的系统升级开销,其特点是更加简洁、灵活、多样、个性化。手机、游戏机、数码相机、电视机、上网本、笔记本电脑等功能交叉,差别细微,出现更多iCloud产品。界面人性化、个性化,可随时变换成为各种各样的大数据发生器,或者虚拟遥控器,或者大数据挖掘终端。
大数据挖掘和云计算在支撑着各种各样的大数据应用。于是,软件工程出现了巨大的变化,通过众包细分法,完成云环境下的社会生产。在互联网环境下,利用人的认知和大众之间的交互,融合计算机群组对大数据的价值挖掘,形成群体智能。由此,我们提出了一个新概念“众挖”。用户不再需要关心数据的形态、数据的获取位置、结构模式、存储方式和分析过程,就能够获得足够满意的挖掘结果。
大数据标志着新时代的到来,这个时代的特征不只是追求丰富的物质资源,也不只是互联网带来的便利,它还包含区别于物质的数据资源的价值挖掘和价值转换,以及由大数据给金融行业带来的很多思考,同时还有由大数据挖掘带来的精神和文化方面的崭新现象。
(本文根据李德毅院士发言整理,未经本人确认)
大数据通常来自三个方向:自然大数据、生命大数据和社交大数据。PB时代是对科学的挑战,更是对包括数据挖掘在内的认知科学的挑战,也是对软件工程的挑战。
尤其是社交大数据。在奥巴马就职的现场有这么多面孔,每一个面孔下都有一个故事。人脸是数据安全很重要的识别器。那么,怎么识别呢?人们想到了摄像头,北京市约有80万个摄像头,我们每天都在摄像头的监督下开车、购物等。
“谁?是他吗?”这是社交网络中基本的问题。我们要确定一个人,通常需要从身份认证、年龄识别、情感计算、亲缘发现、性别识别、地区和民族识别等方面进行辨识。
结构化数据面临挑战
我们认为计算在过去的20年里起到了主导作用,它的标志就是摩尔速度。跟这个时代相对应的是结构化数据,“软件”加“程序”加“数据”加“存档”,这个数据应该是结构化数据才能运行起来。
结构化数据的典型代表就是关系数据库。1970年,伟大的科学家埃德加·弗兰克·科德教授提出关系模型,以关系代数为核心运算,用二维表形式表示实体和实体间联系,通过关系运算实现结构化查询。30多年来,各行各业的数据库和数据仓库技术,以及从数据库发现知识的数据挖掘构筑起巨大的信息处理产业。
关系代数是关系数据库的形式化理论和约束。关系数据库有严格的顶层设计。为构造良式关系,必须消除元组中不合适的数据依赖,通过第三范式(BCNF)甚至约束度更高的范式,分解数据表,以解决插入异常、删除异常和数据冗余等问题。对这样的关系进行运算,运算结果仍然是关系,运算符可以是集合运算、算术运算、逻辑运算,或者关系运算。只要数据在关系数据库中,用户总可以通过SQL语言将满足条件的唯一结果挖掘出来,无需关心数据的获取、存储、分析和提取过程,更无需关心数据结构的内部组织形式。
但是,结构化数据仍然面临着一些挑战:挑战一,形式化约束过于苛刻,无法表示原生态数据;挑战二,随着数据量的增大,关系代数运转的性能急剧下降。
在计算时代,人们发现,这种摩尔速度下的存储也有很大的发展。尤其随着存储材料和存储技术的发展,市场上500元就能买到1TB的硬盘,这是我们以前不可想象的。存储技术在交互方面的发展,让我们有了存储的网络和阵地。于是,整个社会进入了半结构化的数据阶段。而半结构化数据的典型特征是超文本、超链接、超媒体,其组成形式是C/S、B/S和云计算。
万维网(World Wide Web)之父Tim Berners-Lee,是把超文本技术引入互联网的第一人。1989年,他开发出世界上第一个Web服务器和Web客户机。1991年,Web实现了通过超文本方式,使网络中不同计算机内的信息实现超链接,通过超文本传输协议HTTP从一台Web服务器转到另一台Web服务器上检索。另外,服务器在软件支持下可以发布包括文本、表格、图片、音频和视频等碎片化的超媒体信息。而E-mail、 Telnet、 FTP、 WAIS 等都可以通过Web服务实现。从此开始了Web纪元,人类进入搜索时代。
我们看到,数据围绕实体,实体围绕链接转。挖掘就是云环境下的探索和个性化服务,没有死板的查询方式,也没有唯一的结果,挖掘结果允许带有不确定性,重视探索的统计性质。现在的挖掘已经延伸到了图片和语音的搜索,这类搜索引擎的出现也带来了互联网上繁荣的内容服务。
移动互联网的大数据挖掘
现在,我们处在网络化和交互的时代。移动互联网时代的大数据挖掘,主要是网络环境下的非结构化数据挖掘。这些数据形态反映的是带毛的、鲜活的、碎片化了的、异构的、有情感的原生态数据,而这些原生态数据的特点常是低价值的、强噪音、并购、冗余的冷数据。
同时,移动互联网大数据挖掘过程中,数据的简约具有各自适应性。长期以来,我们用认知物理学方法来实现数据的自适应简约。我们在国内外第一次提出了数据场的思想。把人脸变成数据场,大家可以看到这张人脸跟其他人的脸是有相似之处的,可以用线性的方法也可以用非线性的方法来表现。
举例来说,如果想突出眼睛、鼻子和嘴巴,我们可以用这种数据场的方法来突出。用物理学中“场”的方法来类比形成数据场,像素之间相互影响越小,特征点个数越多,图像的描述细节越多,反之特征点个数越少。
百度用深度学习的方法实现了数据自适应简约,我们觉得他们跟我们现在做的是非常一致的,例如,百度搜图做的人脸相似性搜索。当前的情况是,数据量急剧增加,组织结构已经围绕数据转了,程序碎片化可以随时重组,挖掘常常是人机交互环境下不同社区的发现。
社区可以给我们提供数据实物。网络化大数据挖掘的方法是社区发现。人们最关心的是社区,并且我们关心社区中的交互。社区交互表现的形式有显性和隐性两种形式。显性形式有评论、心情、收集、购买、评分、顶、踩、分享、加为好友、邀请加入等,而隐性形式有跳转等。我们利用拓扑势方法挖掘社区,并且发现社区成员的重要性及成员角色。现实生活中经过一段时间的反复、交互、汇聚,修正和演化,群体形成趋于相对稳定的共识。
云计算支撑大数据挖掘
云计算是基于互联网大众参与的计算模式,其计算资源、存储能力、交互能力是动态、可伸缩和被虚拟化的。端产品摆脱了传统IT配置带来的系统升级开销,其特点是更加简洁、灵活、多样、个性化。手机、游戏机、数码相机、电视机、上网本、笔记本电脑等功能交叉,差别细微,出现更多iCloud产品。界面人性化、个性化,可随时变换成为各种各样的大数据发生器,或者虚拟遥控器,或者大数据挖掘终端。
大数据挖掘和云计算在支撑着各种各样的大数据应用。于是,软件工程出现了巨大的变化,通过众包细分法,完成云环境下的社会生产。在互联网环境下,利用人的认知和大众之间的交互,融合计算机群组对大数据的价值挖掘,形成群体智能。由此,我们提出了一个新概念“众挖”。用户不再需要关心数据的形态、数据的获取位置、结构模式、存储方式和分析过程,就能够获得足够满意的挖掘结果。
大数据标志着新时代的到来,这个时代的特征不只是追求丰富的物质资源,也不只是互联网带来的便利,它还包含区别于物质的数据资源的价值挖掘和价值转换,以及由大数据给金融行业带来的很多思考,同时还有由大数据挖掘带来的精神和文化方面的崭新现象。
(本文根据李德毅院士发言整理,未经本人确认)