论文部分内容阅读
美国一家电视剧制片公司想打造一部收视率极高的电视剧,但他们不知道应该制作一部带有什么特征的电视剧才能满足高收视率的需要。正当电视剧制作公司一筹莫展之际,一家数据处理公司给他们提供了一个制片方向:请大卫·芬奇来导演,让奥斯卡影帝凯文·史派西做主演,将电视剧拍成BBC剧的风格,根据这三个标准打造电视剧,肯定收视率极高。电视剧制片公司听从了数据处理公司的建议,按以上三个标准制作了《纸牌屋》,果然如先前预料——《纸牌屋》不但在美国红透半边天,而且风靡世界。
大家不禁要问:数据处理公司是依据什么原理给出了高收视率电视剧的三个标准呢?其实原理很简单,这家数据处理公司收集了全部美国电视观众收看电视剧偏好的海量数据,然后分析这些海量数据,从而得出了走红电视剧的三大特征。在这里的海量数据也称为大数据。
用更加通俗的话来说,大数据就是数据量超出我们想象范围的大量数据,数据个数多到不可数的地步。计算机和互联网是当下人们获取大数据并且将之分析整理的主要助手,有了这两个助手,就算是一个外行,也可以通过大数据的整理分析成为某个行业的内行。比如美国人爱奇奥尼在一次搭飞机时,他发现有的旅客买的票比自己便宜,为了让自己也能买到便宜的机票,爱奇奥尼用自己的计算机技术开发了一套名为“faircast”的软件系统,这个系统可以收集所有航班机票的价格数据,截至当下,faircast系统已经从互联网上获取了超过12万亿条价格信息,计算机通过处理这些海量信息,非常准确地推测出机票价格在何时走高,何时走低,乘客按照faircast系统给出的价格涨跌曲线图,很容易在低点买到便宜的飞机票。目前依靠这套大数据处理系统,爱奇奥尼可以帮助旅客平均每张机票节省数十美元的支出。起初,对航空业一无所知的爱奇奥尼,凭借处理大数据技术,就对航空票价格变得了如指掌起来,这令许多航空公司的售票员都感到惊奇。售票员经手过的价格数据虽然很多,但比起faircast系统收集到的万亿级数据只能算是九牛一毛——大数据,非常大,大到你不能想象出它有多少。
存放数据的地方通常称为数据库。数据库经历了实物存储和电子存储两个阶段。实物存储就是把数据用书写的方式存放于各种统计表中,电子存储大家都应该知道,即把数据用电子技术存放在磁带、光盘、硬盘等电子介质中。电子数据库的诞生和发展给计算机信息管理带来了一场巨大的革命。如今,世界各国已经开发建设了成千上万的电子数据库,成为企业、部门乃至个人日常工作、生产和生活的基础设施。目前,全球最大的数据库是全球气象信息中心。
美国沃尔玛连锁超市的一位内部网络管理员在归总所有销售记录数据的时候,发现一个奇怪的现象:尿布的销售量与啤酒的销售量有相关性。经过进一步分析,他发现了这样的背景:妻子通常在家照顾孩子,所以她们经常会嘱咐丈夫在下班回家的路上为孩子买尿布,而丈夫在买尿布的同时又会顺手购买自己爱喝的啤酒。从此超市的尿布就与啤酒摆在一起卖。从海量的销售数据中,发现有价值的销售思路,这就是大数据处理的商业价值。
能准确预测的人被称为先知或是神仙,但他们只生活在传说中——世上并没有真先知和真神仙,准确预测只是神奇的梦想。
大数据是客观存在的,只是在近两年,大数据应用才突然爆发出来,五彩缤纷的大数据应用创意一个个都变成现实。就连最相信客观的科学家也不得不承认:大数据处理技术,有着神一样的准确预测能力。这是因为数据量较小时,是很难从数据的变化中发现客观规则的,但当数据一旦变大时,其数据排列所呈现的规律就十分可靠,这是大数据可做出神一般预测的统计学基础。有了这样的基础,大数据可准确预测人的生死——医生采集某个人的各类健康数据,包括心跳次数、血压变化、器官工作状态、血细胞更新状态、表皮更迭速度等,这些数据可以量化到每个细胞,得到数万亿计的生命大数据,依靠这些大数据的处理结果,医生便可以准确预测一个人会在什么时候得心脏病,会在什么时候呼吸衰竭,会在什么时候癌细胞扩散,什么时候生命会走到终点——用大数据记载一个人的现在,就可以预测他的未来!
数据越大,世界越真实。在信息时代,每个人每天的活动都可以产生海量数据,行踪被手机记下、身影被监控器记录,加上电子邮件、通话记录、网购记录、网上发帖等,而这些数据“海了去了”,现在这些关于每个人的海量数据都会持续不断地积存在各类信息公司的硬盘里,如果把这些数据合并起来,进行行踪处理,每个人数年来的活动都会原原本本地还原出来。大数据,让每个人的一举一动都永远保存下来,让数据处理者可以轻易获得一个人的爱好、品质、性格特点等内容。从某种意义上来说,保存了大数据,每个人就“全裸”了,并且还会获得“永生”——大数据对每个人神一样的窥视是不是有些可怕呢?
我们为什么对宇宙总是感觉迷茫,那是因为我们掌握的宇宙数据依然太少的原因。随着人类宇宙探索活动的持久开展,我们获得的宇宙数据量将越来越多,当来自宇宙的数据足够大的时候,宇宙中一切不可捉摸的现象将一一呈现出我们原本不知的谜底。比如宇宙起源、宇宙演化、外星人等这些困惑人类很久的问题,都将在大数据的支撑下得到具体而明确的答案。因此,大数据也将是我们了解宇宙的手段,甚至是寻找到外星人的技术桥梁。
谷歌公司拥有大量的搜索用户,谷歌公司在为用户提供搜索服务的同时,也会记录下用户的需求数据,而用户需求数据的量非常大,所以谷歌是一个大数据公司。有了大数据,谷歌公司的表现就很神——谷歌通过计算某个区域里人们对阿司匹林、头疼、流鼻涕等词条搜索次数的暴增,能够准确地预测出下一场流感将在什么地方、什么时候暴发,这要比政府公共卫生监测部门的预测快半个月,并且准确很多,还不用花一分钱。这就是大数据有效且有趣的“记录下一切,然后就知道什么事情将要发生”的体现。
科学技术是第一生产力,人类依靠科学技术的发展从蛮荒年代走进信息化时代。人类科学研究方式先后经历了实验科学、理论科学、计算机科学,计算机科学紧接着推动了科学研究的第四种方式的出现,即数据密集型科学,大数据将成为新技术变革的基石。这块基石带来的大数据科学前景在让人兴奋不已的同时,也带来了一丝隐忧——物联网、云计算、移动互联网等新技术的发展,使得手机、平板电脑、PC及遍布地球各个角落的传感器,成为数据来源和承载方式。据估计,互联网上的数据量每两年会翻一番,这些大数据的存在也有风险。
风险一:“数”大招风。在网络空间,大数据是更容易被发现的大目标。大数据包含着更复杂、更敏感的数据,这些数据会吸引更多的潜在攻击者。同时,数据的大量汇集,使得黑客成功攻击一次就能获得更多数据,相当于掘得一个大的数据宝藏,这无形中降低了黑客的进攻成本,增加了收益率,会诱使黑客对网络攻击产生更浓厚的兴趣。
风险二:受损者众。大数据存储了众多的个人隐私,一旦这些数据被泄露,利益受损害的人就不是一人两人数百人的问题,可能是数亿人的隐私利益都会受到损害。如果这些数据被滥用,可能对数亿人的人身安全构成威胁。
风险三:数众相扰。大数据集中存放的后果是数据会相互干扰,比如某些生产数据相互干扰串并,可能导致众多企业生产出大量不合格产品。同时,大数据由于数据量大,造成甄别其正误的难度也会增加,这也有可能酿成生产经营安全事故。
当然,大数据的风险只是美玉之瑕,只要做好防范工作,特别是在对大数据技术发展进行规划的同时,加强大数据信息安全的建设工作,明确大数据中的重点保护对象,加强对敏感和要害数据的监管,这就会让大数据带来的风险得到控制。
数据的保护和盗取是盾与矛。网络上对数据的“盗”是主动的,“护”是被动的,“盗”往往胜于“护”——不断出现的数据失窃事件就说明了这一点。有时候看似铜墙铁壁一样的数据保护技术却经不住看似雕虫小技一样的数据盗取技术的轻轻小攻。美国的斯诺登最近向外界透露,他获取机密数据,使用了一种被称为爬虫技术的小办法,“小盗”得“大利”,这让许多网络技术安全专家都目瞪口呆。说到底,数据保护措施总是会有小漏洞,而从这些小漏洞中获取数据则不需要大技术,这是爬虫之所以得逞的主要原因。
2013年4月,波士顿马拉松赛的爆炸案造成了3人死亡。波士顿警察局仅用3天就将嫌犯萨纳耶夫捉拿归案。破案如此神速,是因为警方使用了大数据破案的手段:保留犯案现场附近所有监控录像以供比对、查找,波士顿警察局的官员当时称“将仔细查看所有录像的每一帧画面”。警察还走访了事发地点附近12个街区的居民,收集可能存在的各种私人录像、照片,无论他们来自摄像机还是私人的手机。结果,警察很快从大数据里找到了爆炸地点的照片和犯罪嫌疑人的照片。
(编辑 孙世奇)
大家不禁要问:数据处理公司是依据什么原理给出了高收视率电视剧的三个标准呢?其实原理很简单,这家数据处理公司收集了全部美国电视观众收看电视剧偏好的海量数据,然后分析这些海量数据,从而得出了走红电视剧的三大特征。在这里的海量数据也称为大数据。
用更加通俗的话来说,大数据就是数据量超出我们想象范围的大量数据,数据个数多到不可数的地步。计算机和互联网是当下人们获取大数据并且将之分析整理的主要助手,有了这两个助手,就算是一个外行,也可以通过大数据的整理分析成为某个行业的内行。比如美国人爱奇奥尼在一次搭飞机时,他发现有的旅客买的票比自己便宜,为了让自己也能买到便宜的机票,爱奇奥尼用自己的计算机技术开发了一套名为“faircast”的软件系统,这个系统可以收集所有航班机票的价格数据,截至当下,faircast系统已经从互联网上获取了超过12万亿条价格信息,计算机通过处理这些海量信息,非常准确地推测出机票价格在何时走高,何时走低,乘客按照faircast系统给出的价格涨跌曲线图,很容易在低点买到便宜的飞机票。目前依靠这套大数据处理系统,爱奇奥尼可以帮助旅客平均每张机票节省数十美元的支出。起初,对航空业一无所知的爱奇奥尼,凭借处理大数据技术,就对航空票价格变得了如指掌起来,这令许多航空公司的售票员都感到惊奇。售票员经手过的价格数据虽然很多,但比起faircast系统收集到的万亿级数据只能算是九牛一毛——大数据,非常大,大到你不能想象出它有多少。
存放数据的地方通常称为数据库。数据库经历了实物存储和电子存储两个阶段。实物存储就是把数据用书写的方式存放于各种统计表中,电子存储大家都应该知道,即把数据用电子技术存放在磁带、光盘、硬盘等电子介质中。电子数据库的诞生和发展给计算机信息管理带来了一场巨大的革命。如今,世界各国已经开发建设了成千上万的电子数据库,成为企业、部门乃至个人日常工作、生产和生活的基础设施。目前,全球最大的数据库是全球气象信息中心。
美国沃尔玛连锁超市的一位内部网络管理员在归总所有销售记录数据的时候,发现一个奇怪的现象:尿布的销售量与啤酒的销售量有相关性。经过进一步分析,他发现了这样的背景:妻子通常在家照顾孩子,所以她们经常会嘱咐丈夫在下班回家的路上为孩子买尿布,而丈夫在买尿布的同时又会顺手购买自己爱喝的啤酒。从此超市的尿布就与啤酒摆在一起卖。从海量的销售数据中,发现有价值的销售思路,这就是大数据处理的商业价值。
能准确预测的人被称为先知或是神仙,但他们只生活在传说中——世上并没有真先知和真神仙,准确预测只是神奇的梦想。
大数据是客观存在的,只是在近两年,大数据应用才突然爆发出来,五彩缤纷的大数据应用创意一个个都变成现实。就连最相信客观的科学家也不得不承认:大数据处理技术,有着神一样的准确预测能力。这是因为数据量较小时,是很难从数据的变化中发现客观规则的,但当数据一旦变大时,其数据排列所呈现的规律就十分可靠,这是大数据可做出神一般预测的统计学基础。有了这样的基础,大数据可准确预测人的生死——医生采集某个人的各类健康数据,包括心跳次数、血压变化、器官工作状态、血细胞更新状态、表皮更迭速度等,这些数据可以量化到每个细胞,得到数万亿计的生命大数据,依靠这些大数据的处理结果,医生便可以准确预测一个人会在什么时候得心脏病,会在什么时候呼吸衰竭,会在什么时候癌细胞扩散,什么时候生命会走到终点——用大数据记载一个人的现在,就可以预测他的未来!
数据越大,世界越真实。在信息时代,每个人每天的活动都可以产生海量数据,行踪被手机记下、身影被监控器记录,加上电子邮件、通话记录、网购记录、网上发帖等,而这些数据“海了去了”,现在这些关于每个人的海量数据都会持续不断地积存在各类信息公司的硬盘里,如果把这些数据合并起来,进行行踪处理,每个人数年来的活动都会原原本本地还原出来。大数据,让每个人的一举一动都永远保存下来,让数据处理者可以轻易获得一个人的爱好、品质、性格特点等内容。从某种意义上来说,保存了大数据,每个人就“全裸”了,并且还会获得“永生”——大数据对每个人神一样的窥视是不是有些可怕呢?
我们为什么对宇宙总是感觉迷茫,那是因为我们掌握的宇宙数据依然太少的原因。随着人类宇宙探索活动的持久开展,我们获得的宇宙数据量将越来越多,当来自宇宙的数据足够大的时候,宇宙中一切不可捉摸的现象将一一呈现出我们原本不知的谜底。比如宇宙起源、宇宙演化、外星人等这些困惑人类很久的问题,都将在大数据的支撑下得到具体而明确的答案。因此,大数据也将是我们了解宇宙的手段,甚至是寻找到外星人的技术桥梁。
谷歌公司拥有大量的搜索用户,谷歌公司在为用户提供搜索服务的同时,也会记录下用户的需求数据,而用户需求数据的量非常大,所以谷歌是一个大数据公司。有了大数据,谷歌公司的表现就很神——谷歌通过计算某个区域里人们对阿司匹林、头疼、流鼻涕等词条搜索次数的暴增,能够准确地预测出下一场流感将在什么地方、什么时候暴发,这要比政府公共卫生监测部门的预测快半个月,并且准确很多,还不用花一分钱。这就是大数据有效且有趣的“记录下一切,然后就知道什么事情将要发生”的体现。
科学技术是第一生产力,人类依靠科学技术的发展从蛮荒年代走进信息化时代。人类科学研究方式先后经历了实验科学、理论科学、计算机科学,计算机科学紧接着推动了科学研究的第四种方式的出现,即数据密集型科学,大数据将成为新技术变革的基石。这块基石带来的大数据科学前景在让人兴奋不已的同时,也带来了一丝隐忧——物联网、云计算、移动互联网等新技术的发展,使得手机、平板电脑、PC及遍布地球各个角落的传感器,成为数据来源和承载方式。据估计,互联网上的数据量每两年会翻一番,这些大数据的存在也有风险。
风险一:“数”大招风。在网络空间,大数据是更容易被发现的大目标。大数据包含着更复杂、更敏感的数据,这些数据会吸引更多的潜在攻击者。同时,数据的大量汇集,使得黑客成功攻击一次就能获得更多数据,相当于掘得一个大的数据宝藏,这无形中降低了黑客的进攻成本,增加了收益率,会诱使黑客对网络攻击产生更浓厚的兴趣。
风险二:受损者众。大数据存储了众多的个人隐私,一旦这些数据被泄露,利益受损害的人就不是一人两人数百人的问题,可能是数亿人的隐私利益都会受到损害。如果这些数据被滥用,可能对数亿人的人身安全构成威胁。
风险三:数众相扰。大数据集中存放的后果是数据会相互干扰,比如某些生产数据相互干扰串并,可能导致众多企业生产出大量不合格产品。同时,大数据由于数据量大,造成甄别其正误的难度也会增加,这也有可能酿成生产经营安全事故。
当然,大数据的风险只是美玉之瑕,只要做好防范工作,特别是在对大数据技术发展进行规划的同时,加强大数据信息安全的建设工作,明确大数据中的重点保护对象,加强对敏感和要害数据的监管,这就会让大数据带来的风险得到控制。
数据的保护和盗取是盾与矛。网络上对数据的“盗”是主动的,“护”是被动的,“盗”往往胜于“护”——不断出现的数据失窃事件就说明了这一点。有时候看似铜墙铁壁一样的数据保护技术却经不住看似雕虫小技一样的数据盗取技术的轻轻小攻。美国的斯诺登最近向外界透露,他获取机密数据,使用了一种被称为爬虫技术的小办法,“小盗”得“大利”,这让许多网络技术安全专家都目瞪口呆。说到底,数据保护措施总是会有小漏洞,而从这些小漏洞中获取数据则不需要大技术,这是爬虫之所以得逞的主要原因。
2013年4月,波士顿马拉松赛的爆炸案造成了3人死亡。波士顿警察局仅用3天就将嫌犯萨纳耶夫捉拿归案。破案如此神速,是因为警方使用了大数据破案的手段:保留犯案现场附近所有监控录像以供比对、查找,波士顿警察局的官员当时称“将仔细查看所有录像的每一帧画面”。警察还走访了事发地点附近12个街区的居民,收集可能存在的各种私人录像、照片,无论他们来自摄像机还是私人的手机。结果,警察很快从大数据里找到了爆炸地点的照片和犯罪嫌疑人的照片。
(编辑 孙世奇)