论文部分内容阅读
[摘要]大数据技术是指从各种各样类型的巨量数据中,快速获得有价值信息的技术。大数据正以难以想象的发展速度带来新一轮信息化革命,它给我们带来新的思维变革、商业变革和管理变革,身处其中的我们必将面临其带来的机遇与挑战。本文在简要阐明大数据时代的相关概念和特点后,浅析了大数据时代的数据处理与挖掘的方法,给读者提供了一个全面的概述。
[关键词]大数据;大数据处理方法;数据挖掘;大数据思维
中图分类号:TP311.13;G250.76 文献标识码:A 文章编号:1009-914X(2015)05-0130-01
大数据(Ⅸg Data)是指无法用现有的软件工具提取、存储、搜索、共享、分析和处理的海量的、复杂的数据集合。它对于我们来说,是一个既具体又抽象的存在。如,海量的表达、数据分析、纸牌屋的产生、国家战略等等。现有大数据发展可分为两种类型,第一种类型大数据,是指企业自身的产品和服务产生了大量的密集型“超大规模”或“海量数据”,通过对这些数据进行深入的挖掘分析,改进自身业务,改进后的业务吸引更多用户或客户,产生更大量的数据,形成正向的循环。第二种类型大数据,是网络大数据,通常是指在互联网上发生的、蕴含有丰富的、可被发掘的具有社会价值、商业价值或科研价值的大数据。
要认识大数据必须要考虑四个维度,这四个维度分别是数据量、多样性、速度和精确性。数据量(Volmne):数量也许是与大数据最相关的特征,指企业为改进企业决策而试图利用的大量数据。数据量正持续以前所未有的速度增加。截至目前,人类生产的所有印刷材料的数据量是200PB,而历史上全人类说过的所有的话的数据量大约是5EB(1EB=210PB)。多样性(Vanety):不同类型的数据和数据源。多样性是指管理多种数据类型的复杂性,包括结构化、半结构化和非结构化数据。相对于以往便于存储的以文本为主的结构化数据,非结构化数据越来越多,包括文本、网络日志、音频、视频、图片、地理位置信息、传感器数据等等,这些多类型的数据对数据的处理能力提出了更高要求。企业需要整合并分析来自复杂的传统和非传统信息源的数据,包括企业内部和外部的数据。速度(Velociy):数据在运动中。这是大数据区分于传统数据挖掘的最显著特征。根据IDC的“数字宇宙”的报告,预计到2020年,全球数据使用量将达到35.2ZB。数据创建、处理和分析的速度在持续加快。加速的原因是数据创建的实时性天性,以及需要将数据结合到业务流程和决策过程中的要求。速度影响数据时延
从数据创建或获取到数据可以访问的时间差。目前,数据以传统系统不可能达到的速度在产生、获取、存储和分析。对于对时间敏感的流程,如实时欺诈监测或多渠道“即时”营销,某些类型的数据必须实时地分析,以对业务产生价值。精确性(Value):与某些数据类型相关的可靠性。价值密度的高低与数据总量的大小成反比。追求高数据质量是一项重要的大数据要求和挑战,如何通过强大的机器算法更迅速地完成数据的价值“提纯”成为目前大数据背景下亟待解决的难题。
传统的数据分析多是提出假设然后获得数据再通过数据分析去验证假设。在小数据时代,追求精确度是合理的。收集的数据少,所以需要越精确越好。但是,当我们的视野局限在我们可以分析和能够确定的数据上时,我们对世界的整体理解就可能产生偏差和错误,不仅失去了去尽力收集一切数据的动力,也失去了从各个不同角度来观察事物的权利。所以,局限于狭隘的小数据中,我们可能会错过事情的全貌。大数定理告诉我们,“有规律的随机事件”在大量重复出现的条件下,往往呈现几乎必然的统计特性。随着计算机的处理能力的日益强大,能获得的数据量越大,能挖掘到的价值就越多。与传统方式不同,大数据的处理方法是直接分析。大数据本质是在相关关系分析法基础上的预测,而不是传统的数据统计带来的简单的因果关系。人的思维就是一个大数据处理体系,如果有的人擅长去寻找不同事件之间发生的因果关系,采用自己主观判断来归因,那么这个叫做因果错觉,但事实上,事情之间的相关关系才是真正的关系。人的思维体系中,相关关系更加重要,相关关系代表调取大脑中的既往相关经验,来处理眼前的事情,更加客观。大数据像是一种思维方式,是一种从数据出发,寻找内部的相关关系,去发现一些直观观察并不容易发现的结论的思路。这种思维方式并不是现在才有的,但是在过去因为硬件、计算能力等限制并不能充分发挥作用。当代的电子商务、移动互联网等每天都会产生大量数据,数据本身不产生价值,如何分析和利用数据最终对业务产生帮助才是关键,而计算机性能的提高以及云计算的出现价值实现成为可能。如今,大数据已经从战略高度对国家安全、政府决策和競争模式产生了决定性影响。从聚焦结构化数据的存储到对于移动化数据的分析,从由串行方式获取信息源到直接获取数据源,从数据应用到情景分析再到通过连续数据发掘未知信息,从查看预定义的报告和仪表盘到敏捷且可视化的自助数据,从分析数据与应用到数据应用平台:大数据技术为数据的角色定位和获取、应用方式带来了巨大变化,并为数据不断发掘新价值。通过在移动数据中将电子邮件、图像、不同来源的内部数据和外部数据相结合,大数据将数据从应用中释放,选取符合成本效益原则的数据用于分析,将不同的数据结合成上下文内容,结合内部数据获得独特价值,最终通过大数据实现创新。
大数据的价值实现离不开数据挖掘。我们处理许多问题的核心思想在于样本选取和结果选取,就是是从海量的数据中发现隐含的知识和规律。大数据首先要把些可以获得的数据收集上来,包括未来可能被利用的信息,包括正确的和不正确的数据都要采用。大数据不关心为什么,只关心是什么:有了海量的数据的依托,通过大数据统计出的结果具有相当程度的普适性。在大数据思维模式中,数据为我们提供最多的可能和最大的价值。数据挖掘是在我们掌握的数据多了以后,把数据交给计算机分析的方法的集合。而大数据则是跳出我们的传统数据分析和处理方法框架的一种新思维,这种思维的实际应用以数据挖掘技术为基础,并可以促进我们开发出更多的数据挖掘技术。一种思维和一类技术比起来,确实是要虚很多,而且思维要付诸实现,必然是要以技术为基础的。大数据收集除了利用现有的数据渠道之外,首先改造了一些产品形态使得数据更好地被量化和可被学习,然后是通过云计算来做数据相关性的分析,最后是用直观和简单的方式反馈给终端预测结果。
麦肯锡曾经说过:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”我们理清了使用大数据的思维,我们就抓住了这个时代的核心。最终,我们都将在大数据时代获益。
[关键词]大数据;大数据处理方法;数据挖掘;大数据思维
中图分类号:TP311.13;G250.76 文献标识码:A 文章编号:1009-914X(2015)05-0130-01
大数据(Ⅸg Data)是指无法用现有的软件工具提取、存储、搜索、共享、分析和处理的海量的、复杂的数据集合。它对于我们来说,是一个既具体又抽象的存在。如,海量的表达、数据分析、纸牌屋的产生、国家战略等等。现有大数据发展可分为两种类型,第一种类型大数据,是指企业自身的产品和服务产生了大量的密集型“超大规模”或“海量数据”,通过对这些数据进行深入的挖掘分析,改进自身业务,改进后的业务吸引更多用户或客户,产生更大量的数据,形成正向的循环。第二种类型大数据,是网络大数据,通常是指在互联网上发生的、蕴含有丰富的、可被发掘的具有社会价值、商业价值或科研价值的大数据。
要认识大数据必须要考虑四个维度,这四个维度分别是数据量、多样性、速度和精确性。数据量(Volmne):数量也许是与大数据最相关的特征,指企业为改进企业决策而试图利用的大量数据。数据量正持续以前所未有的速度增加。截至目前,人类生产的所有印刷材料的数据量是200PB,而历史上全人类说过的所有的话的数据量大约是5EB(1EB=210PB)。多样性(Vanety):不同类型的数据和数据源。多样性是指管理多种数据类型的复杂性,包括结构化、半结构化和非结构化数据。相对于以往便于存储的以文本为主的结构化数据,非结构化数据越来越多,包括文本、网络日志、音频、视频、图片、地理位置信息、传感器数据等等,这些多类型的数据对数据的处理能力提出了更高要求。企业需要整合并分析来自复杂的传统和非传统信息源的数据,包括企业内部和外部的数据。速度(Velociy):数据在运动中。这是大数据区分于传统数据挖掘的最显著特征。根据IDC的“数字宇宙”的报告,预计到2020年,全球数据使用量将达到35.2ZB。数据创建、处理和分析的速度在持续加快。加速的原因是数据创建的实时性天性,以及需要将数据结合到业务流程和决策过程中的要求。速度影响数据时延
从数据创建或获取到数据可以访问的时间差。目前,数据以传统系统不可能达到的速度在产生、获取、存储和分析。对于对时间敏感的流程,如实时欺诈监测或多渠道“即时”营销,某些类型的数据必须实时地分析,以对业务产生价值。精确性(Value):与某些数据类型相关的可靠性。价值密度的高低与数据总量的大小成反比。追求高数据质量是一项重要的大数据要求和挑战,如何通过强大的机器算法更迅速地完成数据的价值“提纯”成为目前大数据背景下亟待解决的难题。
传统的数据分析多是提出假设然后获得数据再通过数据分析去验证假设。在小数据时代,追求精确度是合理的。收集的数据少,所以需要越精确越好。但是,当我们的视野局限在我们可以分析和能够确定的数据上时,我们对世界的整体理解就可能产生偏差和错误,不仅失去了去尽力收集一切数据的动力,也失去了从各个不同角度来观察事物的权利。所以,局限于狭隘的小数据中,我们可能会错过事情的全貌。大数定理告诉我们,“有规律的随机事件”在大量重复出现的条件下,往往呈现几乎必然的统计特性。随着计算机的处理能力的日益强大,能获得的数据量越大,能挖掘到的价值就越多。与传统方式不同,大数据的处理方法是直接分析。大数据本质是在相关关系分析法基础上的预测,而不是传统的数据统计带来的简单的因果关系。人的思维就是一个大数据处理体系,如果有的人擅长去寻找不同事件之间发生的因果关系,采用自己主观判断来归因,那么这个叫做因果错觉,但事实上,事情之间的相关关系才是真正的关系。人的思维体系中,相关关系更加重要,相关关系代表调取大脑中的既往相关经验,来处理眼前的事情,更加客观。大数据像是一种思维方式,是一种从数据出发,寻找内部的相关关系,去发现一些直观观察并不容易发现的结论的思路。这种思维方式并不是现在才有的,但是在过去因为硬件、计算能力等限制并不能充分发挥作用。当代的电子商务、移动互联网等每天都会产生大量数据,数据本身不产生价值,如何分析和利用数据最终对业务产生帮助才是关键,而计算机性能的提高以及云计算的出现价值实现成为可能。如今,大数据已经从战略高度对国家安全、政府决策和競争模式产生了决定性影响。从聚焦结构化数据的存储到对于移动化数据的分析,从由串行方式获取信息源到直接获取数据源,从数据应用到情景分析再到通过连续数据发掘未知信息,从查看预定义的报告和仪表盘到敏捷且可视化的自助数据,从分析数据与应用到数据应用平台:大数据技术为数据的角色定位和获取、应用方式带来了巨大变化,并为数据不断发掘新价值。通过在移动数据中将电子邮件、图像、不同来源的内部数据和外部数据相结合,大数据将数据从应用中释放,选取符合成本效益原则的数据用于分析,将不同的数据结合成上下文内容,结合内部数据获得独特价值,最终通过大数据实现创新。
大数据的价值实现离不开数据挖掘。我们处理许多问题的核心思想在于样本选取和结果选取,就是是从海量的数据中发现隐含的知识和规律。大数据首先要把些可以获得的数据收集上来,包括未来可能被利用的信息,包括正确的和不正确的数据都要采用。大数据不关心为什么,只关心是什么:有了海量的数据的依托,通过大数据统计出的结果具有相当程度的普适性。在大数据思维模式中,数据为我们提供最多的可能和最大的价值。数据挖掘是在我们掌握的数据多了以后,把数据交给计算机分析的方法的集合。而大数据则是跳出我们的传统数据分析和处理方法框架的一种新思维,这种思维的实际应用以数据挖掘技术为基础,并可以促进我们开发出更多的数据挖掘技术。一种思维和一类技术比起来,确实是要虚很多,而且思维要付诸实现,必然是要以技术为基础的。大数据收集除了利用现有的数据渠道之外,首先改造了一些产品形态使得数据更好地被量化和可被学习,然后是通过云计算来做数据相关性的分析,最后是用直观和简单的方式反馈给终端预测结果。
麦肯锡曾经说过:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”我们理清了使用大数据的思维,我们就抓住了这个时代的核心。最终,我们都将在大数据时代获益。