论文部分内容阅读
在《三国演义》中,诸葛亮的智慧集中体现在借东风、草船借箭等事件中。诸葛亮之所以能成功借到东风,与他对当地的地理、气候等环境因素了如指掌,并能根据这些数据进行缜密分析有关。这与人们常说的商业智能(BI)十分相似。传统的BI是根据确定的统计数据对未来将要发生的情况进行预测,而大数据挖掘不仅要根据统计数据进行预测,而且其分析的数据大多是变量。发现数千个变量,进而找出变量之间的关联性以及关联的紧密程度,并在此基础上做出预测,这既是大数据挖掘的难点,也是亮点。
现在,有了大数据挖掘这个抓手,用户都可以像诸葛亮一样做出正确的商业决策。美国勇攀科技(Alpine Data Labs)首席技术官及联合创始人陈怡伶将企业在大数据挖掘过程中面临的挑战归纳为三方面:第一,数据方面的挑战,比如企业要了解自己掌握多少数据,数据的纯净度如何,数据的可信度有多高等;第二,流程方面的挑战,企业做出正确决策的前提是数据挖掘和决策的流程是正确的;第三,人才方面的挑战,企业需要掌握正确的数据挖掘方法的专业人员将数据转化为价值。陈怡伶表示:“勇攀科技可以提供覆盖大数据挖掘整个流程的整体解决方案,比如勇攀科技Alpine Automator可以解决数据纯净度的问题,Alpine Miner可以帮助企业实现决策的流程化,而Alpine Illuminator可以解决人才方面的问题。”
将数据用于决策
勇攀科技首席执行官黄震与首席技术官陈怡伶是一对黄金搭档,两人都曾供职于大数据厂商Greenplum(现已被EMC收购)。2010年,两人又联手创建了专注于商业分析解决方案的勇攀科技。“2008年,Greenplum刚进入中国时倡导的是数据仓库一定要便宜和大众化,因为只有这样才能吸引更多用户将数据存储到数据仓库中,在此基础上,才能顺利启动大数据挖掘的应用。”黄震介绍说,“企业的决策过程是由数据驱动的。在此基础上,企业还要实现决策流程的自动化。因此,勇攀科技要从数据入手,把流程的概念融入到数据挖掘的过程中。”
陈怡伶补充说:“数据是有价值的。现在,许多企业都愿意花钱做数据仓库,但实际上对企业来说最重要的是如何把数据中的价值提炼出来。Greenplum曾经是我们的起点,但绝对不是我们的终点。”
陈怡伶认为:“大数据是一个系统,而不仅仅是一个数据仓库。大数据挖掘可以帮助企业了解其客户的构成和特点。这有可能帮助企业改善其决策流程,进而影响企业的资源调配方式甚至是业务流程。”IDC预测,到2020年,全球数据总量将达到35ZB,相当于2010年数据总量的30倍。在进入云计算时代以前,数据只是各种应用产生的副产品。数据就像是越积越多的库存货,而企业从未想过或没有更好的办法将这些库存的数据转变成价值。
在过去两年中,包括麻省理工学院和哈佛大学等在内的一些机构一直在研究哪类企业比较容易成功,结果发现那些真正能把数据用于决策的企业的成功率不仅比那些不依赖数据进行决策的企业高3倍,而且在企业竞争力、创新能力等方面也高出一筹。陈怡伶表示:“企业将数据用于决策是一个必然的发展趋势。”
数据库诞生至今已经超过30年,但是对于从数据中挖掘价值这一说法,很多人仍然认为这是骗人的。究其原因,许多用户虽然拥有了数据库、数据仓库,也建立了用于分析的数学模型,但是它们只是对数据进行了简单的处理、转换,而没有将重点放在建立数据挖掘的流程上。因此,用户虽然可以从数学模型中找到一些所需的数据,但是没有办法很快地将这些数据分析的结果运用到公司的决策、运营流程中。
陈怡伶表示:“用户认为大数据挖掘是个晃子,那是因为它们不知道如何运用这些数据,也没有建立一个完整的数据挖掘流程。勇攀科技坚持做整套数据挖掘流程解决方案,其目的是帮助用户构建并不断调整数据分析模型,建立从数据的收集、转换、挖掘到应用的数据挖掘全流程,而这些功能是传统的数据挖掘产品中没有的。”
大数据的门槛并不高
陈怡伶表示:“大数据的门槛并不高,只要能够严格保证数据的收集、转换、挖掘和应用都落到实处,那么挖掘出来的数据价值就能为商业决策所用。从勇攀科技的角度来看,大数据挖掘其实就是一个流程的问题。”
2008年~2010年,大多数的中国用户还没有数据挖掘的需求,那时大家关心的是如何存储和管理数据。在那个阶段,许多用户投巨资建设了数据仓库,但数据仓库只是一个交易数据的场所。用户有时调取一个报表可能需要三四天的时间。因此,单独的数据仓库无法承担起大数据挖掘的重任。2011年以后,随着微博、社交软件的普及,人们已不满足于看到过去发生了什么事,而是要预测未来可能发生的事情,甚至是预测客户的购买行为等。陈怡伶说:“未来,大数据挖掘产品将成为帮助企业预测和管理数据的重要工具。”
大数据挖掘产品是不是只适合那些规模庞大且拥有PB级数据量的企业使用?陈怡伶解释说:“其实,大数据不仅仅是一个‘量’的概念,数据的多样性、运行速度和复杂程度等也是大数据挖掘要解决的问题。即使是一个规模很小的企业,只要有商业预测的需求就可以采用大数据挖掘工具。”
虽然80%以上的数据都是非结构化的,但是数据挖掘的目的是为决策提供支撑,而与决策相关的数据主要是结构化的,即使是非结构化的数据也要经过结构化的处理才能用于决策分析。陈怡伶说:“目前在美国,70%以上的大数据挖掘处理的都是结构化的数据。大部分的中国用户采用大数据挖掘工具主要是为解决营销过程中的客户流失问题,而这一数据挖掘过程也与结构化的数据相关联。”为应对非结构化数据的增长,勇攀科技今年准备推出针对非结构化数据的大数据挖掘产品,其与结构化产品的区别将主要体现在Alpine Automator这个产品上。
勇攀科技大数据挖掘解决方案没有行业的限制。目前,在全球范围内,银行、零售、政府、研发机构、媒体等领域的许多用户都是勇攀科技的用户。
黄震表示:“从去年到现在,我们全球的业绩至少增长了3倍。对于中国的大数据市场,我们同样充满信心。”
现在,有了大数据挖掘这个抓手,用户都可以像诸葛亮一样做出正确的商业决策。美国勇攀科技(Alpine Data Labs)首席技术官及联合创始人陈怡伶将企业在大数据挖掘过程中面临的挑战归纳为三方面:第一,数据方面的挑战,比如企业要了解自己掌握多少数据,数据的纯净度如何,数据的可信度有多高等;第二,流程方面的挑战,企业做出正确决策的前提是数据挖掘和决策的流程是正确的;第三,人才方面的挑战,企业需要掌握正确的数据挖掘方法的专业人员将数据转化为价值。陈怡伶表示:“勇攀科技可以提供覆盖大数据挖掘整个流程的整体解决方案,比如勇攀科技Alpine Automator可以解决数据纯净度的问题,Alpine Miner可以帮助企业实现决策的流程化,而Alpine Illuminator可以解决人才方面的问题。”
将数据用于决策
勇攀科技首席执行官黄震与首席技术官陈怡伶是一对黄金搭档,两人都曾供职于大数据厂商Greenplum(现已被EMC收购)。2010年,两人又联手创建了专注于商业分析解决方案的勇攀科技。“2008年,Greenplum刚进入中国时倡导的是数据仓库一定要便宜和大众化,因为只有这样才能吸引更多用户将数据存储到数据仓库中,在此基础上,才能顺利启动大数据挖掘的应用。”黄震介绍说,“企业的决策过程是由数据驱动的。在此基础上,企业还要实现决策流程的自动化。因此,勇攀科技要从数据入手,把流程的概念融入到数据挖掘的过程中。”
陈怡伶补充说:“数据是有价值的。现在,许多企业都愿意花钱做数据仓库,但实际上对企业来说最重要的是如何把数据中的价值提炼出来。Greenplum曾经是我们的起点,但绝对不是我们的终点。”
陈怡伶认为:“大数据是一个系统,而不仅仅是一个数据仓库。大数据挖掘可以帮助企业了解其客户的构成和特点。这有可能帮助企业改善其决策流程,进而影响企业的资源调配方式甚至是业务流程。”IDC预测,到2020年,全球数据总量将达到35ZB,相当于2010年数据总量的30倍。在进入云计算时代以前,数据只是各种应用产生的副产品。数据就像是越积越多的库存货,而企业从未想过或没有更好的办法将这些库存的数据转变成价值。
在过去两年中,包括麻省理工学院和哈佛大学等在内的一些机构一直在研究哪类企业比较容易成功,结果发现那些真正能把数据用于决策的企业的成功率不仅比那些不依赖数据进行决策的企业高3倍,而且在企业竞争力、创新能力等方面也高出一筹。陈怡伶表示:“企业将数据用于决策是一个必然的发展趋势。”
数据库诞生至今已经超过30年,但是对于从数据中挖掘价值这一说法,很多人仍然认为这是骗人的。究其原因,许多用户虽然拥有了数据库、数据仓库,也建立了用于分析的数学模型,但是它们只是对数据进行了简单的处理、转换,而没有将重点放在建立数据挖掘的流程上。因此,用户虽然可以从数学模型中找到一些所需的数据,但是没有办法很快地将这些数据分析的结果运用到公司的决策、运营流程中。
陈怡伶表示:“用户认为大数据挖掘是个晃子,那是因为它们不知道如何运用这些数据,也没有建立一个完整的数据挖掘流程。勇攀科技坚持做整套数据挖掘流程解决方案,其目的是帮助用户构建并不断调整数据分析模型,建立从数据的收集、转换、挖掘到应用的数据挖掘全流程,而这些功能是传统的数据挖掘产品中没有的。”
大数据的门槛并不高
陈怡伶表示:“大数据的门槛并不高,只要能够严格保证数据的收集、转换、挖掘和应用都落到实处,那么挖掘出来的数据价值就能为商业决策所用。从勇攀科技的角度来看,大数据挖掘其实就是一个流程的问题。”
2008年~2010年,大多数的中国用户还没有数据挖掘的需求,那时大家关心的是如何存储和管理数据。在那个阶段,许多用户投巨资建设了数据仓库,但数据仓库只是一个交易数据的场所。用户有时调取一个报表可能需要三四天的时间。因此,单独的数据仓库无法承担起大数据挖掘的重任。2011年以后,随着微博、社交软件的普及,人们已不满足于看到过去发生了什么事,而是要预测未来可能发生的事情,甚至是预测客户的购买行为等。陈怡伶说:“未来,大数据挖掘产品将成为帮助企业预测和管理数据的重要工具。”
大数据挖掘产品是不是只适合那些规模庞大且拥有PB级数据量的企业使用?陈怡伶解释说:“其实,大数据不仅仅是一个‘量’的概念,数据的多样性、运行速度和复杂程度等也是大数据挖掘要解决的问题。即使是一个规模很小的企业,只要有商业预测的需求就可以采用大数据挖掘工具。”
虽然80%以上的数据都是非结构化的,但是数据挖掘的目的是为决策提供支撑,而与决策相关的数据主要是结构化的,即使是非结构化的数据也要经过结构化的处理才能用于决策分析。陈怡伶说:“目前在美国,70%以上的大数据挖掘处理的都是结构化的数据。大部分的中国用户采用大数据挖掘工具主要是为解决营销过程中的客户流失问题,而这一数据挖掘过程也与结构化的数据相关联。”为应对非结构化数据的增长,勇攀科技今年准备推出针对非结构化数据的大数据挖掘产品,其与结构化产品的区别将主要体现在Alpine Automator这个产品上。
勇攀科技大数据挖掘解决方案没有行业的限制。目前,在全球范围内,银行、零售、政府、研发机构、媒体等领域的许多用户都是勇攀科技的用户。
黄震表示:“从去年到现在,我们全球的业绩至少增长了3倍。对于中国的大数据市场,我们同样充满信心。”