论文部分内容阅读
在大数据时代,人们很容易把一大堆数据定义为“大数据”。比如,大型制造企业和仓库可能存有多年积累下来的存货数据,或许高达几兆兆字节,但这并不能算大数据。同样,1 500个POS机的现金数据、一大份工作表中的数据也不是大数据。
企业需要行之有效的方法去储存、分析、使用数据,如果管理的不是大数据问题,那就没有必要建立数据池、雇佣数据科学家。说到底,辨别所管理的是大数据还是大量数据至关重要。以下是我个人推崇的几种辨别方法:
1. 数据是否来源于多种不同渠道。
如果数据来源单一,即使数据量很大,也不太可能是大数据。
职业数据人会考虑大数据的3V(或4V):数量,多样性,速度(精确性)。本文讨论的就是第二种:多样性。一般来说,大数据往往不是来自于单一源头或系统,而是来自于许多不同的地方,不同的形式,以及不同的变量。
例如,POS数据尽管数量庞大但不是大数据,可是如果把从供应商处取得的数据与其整合以构建供应链,则它们就成了大数据。因此,问题在于是什么形成了大数据,而不是仅仅考虑数量因素。
2. 数据是否需要被实时分析使用。
并不是所有的大数据都一定来源于多种不同渠道,当数据需要被实时分析使用,比如预防欺诈、股票交易时,尽管数据缺乏多样性,但仍可被定义为大数据。在信用服务业,用于预防欺诈的数据来源并不复杂,但需要实时分析技术,这样若真的存在欺诈,也会被马上检测出并予以阻止。
同样的,股票交易员所依赖的高频交易数据也并不是特别复杂的数据,但需要连续处理以做出买入或卖出股票的决定。
3. 你是否需要询问复杂问题。
当你开始针对数据询问更加复杂的问题的时候,比如确定因果关系,则该数据就成了大数据。当然,在这种情况下,最好还是使用多方面来源的数据。
比如,当你想知道女性红色高跟鞋四月份的市场情况的时候,你所要的数据就不仅仅是你自己的采购记录了,你还要整合社交媒体和其他外部市场数据以得到最佳答案。
4. 数据集是否代表了许多不同的变量。
如果数据代表了一系列不同的难以界定模式和关联性的变量,那么即使数据是由单一系统或小型系统搜集而来,也可认定为是大数据。例如,气象数据仅从一些基础的系统取得(气温,气压,风速等),但数据关系却极为复杂,即使是最富经验的气象学家也不一定总能做出准确的气象预测。因此,他们会使用高度专业化的数据分析方法以做出更准确的预测。
5. 数据是未架构的,半架构的,架构的还是以上的综合。
诸如SQL等关系明确的数据库长时间以来成功地处理了组织良好的数据,但如今的多媒体世界为我们呈现了一系列未架构的和半架构的数据,这些数据在SQL中无法得到良好的处理。这些数据包括图像,视频,文本文件,电子邮件交流,社交媒体,音频文件以及其他。
以上五種鉴别方法,正是我们在讨论大数据运用时,常常因为边界模糊,定义不清晰造成的“误判”。
这是一场颠覆性的革命,从信息不对称的服务业出发逐步延伸到政府、制造业甚至第一产业中。许多企业家的坐标系、商业知觉失灵了,许多投资人对趋势的判断失效了。这最早体现在客户结构的变化,上世纪八九十年代人群的消费成主流,带动游戏规则的变化,物理间隔。
大数据时代一定要注意移动互联网。在2012年移动互联网流量已经全面超过PC了,我们如何在移动互联网做产品,同时考虑客户的需求点?未来软件会免费,会成为一个采集数据的入口,行业的边界会被打破,现在更多的行业都在做金融相关服务。数据越来越重要,已经在逐渐成为资产。
这是一个完整的电商过程,一个做得比较优质的电商从客户进店、浏览、下单、付款、期待、收货、评价。有一家大的互联网公司,它的客户分成接近800万类,同时每一类贴上上万个标签,这是非常必要的过程。你会知道什么客户是你的老客户,什么是新客户,什么是忠实客户,什么是粉丝,以及未来在社交网络上新的营销方式,怎么通过粉丝进行大回响的效应等。
关于大数据的定义,准确地说是通过数据很准确、深刻地标识出来人或者事物行为的本质,通过这些数据来产生商业的或某一种动机的目的。
从这个意义上来说,至少有几个特征不属于大数据。第一,你有大量的数据并不能说明你是大数据,因为数据里面有意义的数据还是少数的。第二,数据之间复杂的关系往往是跨行业的,也就是说这些数据越是超越了某个行业,越是能够更复杂地认识人的行为,这种综合性是一个大数据的十分明显的特点。第三,它一定是不断交互和循环的。它会不断地学习,通过越来越深刻的、循环的过程,使这种识别、标识变得更为准确。
所以它也是动态的,因此大数据被应用于识别标识行为的过程中。今天因为有了平台、有了提供者、有了人参与、有了综合和跨越,最终服务于商业根本的目的。
企业需要行之有效的方法去储存、分析、使用数据,如果管理的不是大数据问题,那就没有必要建立数据池、雇佣数据科学家。说到底,辨别所管理的是大数据还是大量数据至关重要。以下是我个人推崇的几种辨别方法:
1. 数据是否来源于多种不同渠道。
如果数据来源单一,即使数据量很大,也不太可能是大数据。
职业数据人会考虑大数据的3V(或4V):数量,多样性,速度(精确性)。本文讨论的就是第二种:多样性。一般来说,大数据往往不是来自于单一源头或系统,而是来自于许多不同的地方,不同的形式,以及不同的变量。
例如,POS数据尽管数量庞大但不是大数据,可是如果把从供应商处取得的数据与其整合以构建供应链,则它们就成了大数据。因此,问题在于是什么形成了大数据,而不是仅仅考虑数量因素。
2. 数据是否需要被实时分析使用。
并不是所有的大数据都一定来源于多种不同渠道,当数据需要被实时分析使用,比如预防欺诈、股票交易时,尽管数据缺乏多样性,但仍可被定义为大数据。在信用服务业,用于预防欺诈的数据来源并不复杂,但需要实时分析技术,这样若真的存在欺诈,也会被马上检测出并予以阻止。
同样的,股票交易员所依赖的高频交易数据也并不是特别复杂的数据,但需要连续处理以做出买入或卖出股票的决定。
3. 你是否需要询问复杂问题。
当你开始针对数据询问更加复杂的问题的时候,比如确定因果关系,则该数据就成了大数据。当然,在这种情况下,最好还是使用多方面来源的数据。
比如,当你想知道女性红色高跟鞋四月份的市场情况的时候,你所要的数据就不仅仅是你自己的采购记录了,你还要整合社交媒体和其他外部市场数据以得到最佳答案。
4. 数据集是否代表了许多不同的变量。
如果数据代表了一系列不同的难以界定模式和关联性的变量,那么即使数据是由单一系统或小型系统搜集而来,也可认定为是大数据。例如,气象数据仅从一些基础的系统取得(气温,气压,风速等),但数据关系却极为复杂,即使是最富经验的气象学家也不一定总能做出准确的气象预测。因此,他们会使用高度专业化的数据分析方法以做出更准确的预测。
5. 数据是未架构的,半架构的,架构的还是以上的综合。
诸如SQL等关系明确的数据库长时间以来成功地处理了组织良好的数据,但如今的多媒体世界为我们呈现了一系列未架构的和半架构的数据,这些数据在SQL中无法得到良好的处理。这些数据包括图像,视频,文本文件,电子邮件交流,社交媒体,音频文件以及其他。
以上五種鉴别方法,正是我们在讨论大数据运用时,常常因为边界模糊,定义不清晰造成的“误判”。
这是一场颠覆性的革命,从信息不对称的服务业出发逐步延伸到政府、制造业甚至第一产业中。许多企业家的坐标系、商业知觉失灵了,许多投资人对趋势的判断失效了。这最早体现在客户结构的变化,上世纪八九十年代人群的消费成主流,带动游戏规则的变化,物理间隔。
大数据时代一定要注意移动互联网。在2012年移动互联网流量已经全面超过PC了,我们如何在移动互联网做产品,同时考虑客户的需求点?未来软件会免费,会成为一个采集数据的入口,行业的边界会被打破,现在更多的行业都在做金融相关服务。数据越来越重要,已经在逐渐成为资产。
这是一个完整的电商过程,一个做得比较优质的电商从客户进店、浏览、下单、付款、期待、收货、评价。有一家大的互联网公司,它的客户分成接近800万类,同时每一类贴上上万个标签,这是非常必要的过程。你会知道什么客户是你的老客户,什么是新客户,什么是忠实客户,什么是粉丝,以及未来在社交网络上新的营销方式,怎么通过粉丝进行大回响的效应等。
关于大数据的定义,准确地说是通过数据很准确、深刻地标识出来人或者事物行为的本质,通过这些数据来产生商业的或某一种动机的目的。
从这个意义上来说,至少有几个特征不属于大数据。第一,你有大量的数据并不能说明你是大数据,因为数据里面有意义的数据还是少数的。第二,数据之间复杂的关系往往是跨行业的,也就是说这些数据越是超越了某个行业,越是能够更复杂地认识人的行为,这种综合性是一个大数据的十分明显的特点。第三,它一定是不断交互和循环的。它会不断地学习,通过越来越深刻的、循环的过程,使这种识别、标识变得更为准确。
所以它也是动态的,因此大数据被应用于识别标识行为的过程中。今天因为有了平台、有了提供者、有了人参与、有了综合和跨越,最终服务于商业根本的目的。