论文部分内容阅读
过去,有一些问题一直困扰着我:“现在的企业获取数据如此容易,数据的增长速度如此之快,那么对于企业来说,到底要收集什么样的数据?收集多少数据?收集数据的边界在哪里?”后来,我在美国遇到一位高人,他认为,过去收集数据很难,而现在获取数据资源变得越来越容易,但是如果收集数据的出发点不是为了解决问题,那么收集再多的数据也没有什么意义。
同时,许多企业还有一个疑问:“现在收集数据不难,成本也不高,为什么不先收集了数据再说呢?等以后需要数据来解决问题时,再拿出来用不是也可以吗?”这位高人同样也给出了这个问题的答案,他对此持否定观点,并指出用这样的理念来设计数据应用注定会失败。
数据收集是没有边界的,我为此也痛苦了好一段日子,比如,收集一个人的生日,虽然可以精确到几分几秒,但这么精确的数据又能用在什么领域,又能产生什么价值呢?
事实上,数据是有生命周期的。比如,某网站的母婴频道在主动收集用户的宝宝信息,包含宝宝生日、性别、小名、身高、体重,这里我们就要清楚这几个数据的用途和生命周期,如宝宝的身高和体重。但是,妈妈们填写的是宝宝当前的数据,我们知道宝宝的身高、体重变化非常之快,也就是说这两个数据的生命周期很短,在当时的推荐中可能有用,但过了一段时间后,这两个数据就失效(Data Broken)了;而宝宝生日和性别这两个数据的生命周期就很长,可以从生日的年份中推算出宝宝的年龄,而性别则基本是终生稳定的。
保存数据及其收集时的背景(Context),也是一件不容易的事情。
还是以收集宝宝的年龄作为例子来阐述,我们可以通过用户购买特定的商品集合,如几段奶粉和尿不湿的型号等,知道宝宝所处的大概年龄段,以推算出宝宝当前的年龄。但如果仅仅是保存宝宝几岁这个数据,那么这个数据很快也会失效,因为人的年龄是在动态变化的。同时,你还需要保存宝宝几岁这个数据获得的时间,即在哪年哪月计算得知这个宝宝的年龄,而这个信息就是背景数据。另一种做法更加聪明一些,即通过宝宝现在的年龄反过来推算宝宝是什么时候出生的。
所以说,在收集数据时,我们必须知道这些数据未来可以用来做什么,如果今天都想象不出来的话,日后就更不可能了。
打一个比方,如今很多电商高管会询问数据分析师商品的重复购买率是多少。于是,工作人员收集数据来计算重复购买率,却很少想到高管们需要重复购买率是来做什么决定的,这就好比“刻舟求剑”的故事。事实上,在世事多变的大数据时代,我们不能只是机械地套用方法或指标。
重复购买率有不同的定义,而做不同的决策需要考虑经过不同定义的重复购买率。如果一家投资公司想收购A 公司,那么会从重复购买率来看整个A 公司的运营良好程度或用户质量等;如果从A公司本身运营的角度来看重复购买率,那么它更应该关注的是日、周级别的重复购买率的变化趋势,或者当月新增客户有多少人在三个月后进行了重复购买,从而可以衡量出每个月新增及存量客户的忠诚度和质量,进而找出改善的空间。在知道了以上的背景之后,再去选择使用什么数据不是更有的放矢吗?
数据应用因小而美
“小”不是指数据量,而是指应用的目标很具体。
2011年年底,作为一名数据分析师,我开始思考怎么从“用数据”转变为“养数据”(即从数据化运营转变为运营数据),这段时间我为收集什么样的数据而特别烦恼。而且,我也曾经试图做出一个特别大且适合多数人使用的数据应用,可是后来发现这在数据应用的起步阶段几乎是不可能的—— 一是找到可以解决大部分人需求的数据应用并不容易;二是当时公司的数据非常丰富,需要考虑的因素很多,因素之间的联系又很复杂。
所以,当开发数据应用的时候,数据就等于原材料;当原材料一直处于变化的情况下,做出来的产品就很容易出问题。体会到数据和应用的关系之后,我最后决定从小角度切入,先把小应用做出来,这就是很好的瞄准器。
这里说的“小”指的是应用的目标很具体。请注意,“小”不是指数据量。许多人在没有获取足够的数据,并且缺乏对数据理解的情况下做出决策,其实是在“享受”自己的无知。打个比方来说,对于一款数据应用,如果我的目的是分辨两种决策谁更好以及差异在哪里,这就是一个很具体的问题;但如果我的目标是想知道如何让公司赢利,这就是一个空泛的目标。
经过这样的一番周折后,按照小角度切入的想法设计数据应用,就可以做得具体而快速,而且可以避免因原材料的变化而导致数据缺失的问题。
把数据放进“框”之中
在大数据的背景下,必须考虑数据之间的关联性。一个单独的数据是没有意义的,要把数据放在一个“数据框架”(场景)之中,才能看出存在的问题。
为了把这个问题说得更明白,这里我拿前阵子一家电商公司找我讨论的问题来举例。
A 公司问我,要不要撤去导航网站的广告?因为它怀疑许多老客户是从导航网站访问官网,而不是直接访问官网。把这个问题说得再直白点,就是他们想弄清楚在导航做广告与公司业务之间的关系。那么,接下来就要观察用什么“数据框架”有助于其做出决策。
1. 公司当前的投入产出比
(1) 明确导航网站引进的新老用户占比如何?
(2) 引入的新老用户的投入产出比和转化率如何?
(3)推断撤去导航网站,对流失新老用户的影响如何?
2. 与竞争对手的博弈
有一个问题可能会被忽略,那就是你不做导航网站广告,你的对手就会立马投放此广告。做数据框架的时候,要特别注意框架不是静态的,而是存在博弈的,需要把竞争对手的因素考虑进来。
3. 考虑时间因素
建立框架时要考虑时间因素:
(1)用现在、过去和未来的眼光来审视导航网站,看看导航的质量是不是越来越好; (2)需要注意的是时间有延迟性,引进来的流量会有一些延迟,在两三个月后才能知道新用户的价值。
总之,“数据框架”是商业分析师的灵魂所在,可以让其从框架中找寻问题的关键因素及答案。不同的问题有不同的框架,不能完全在此进行阐述。
如何用框架来做决策
想要解决的问题越复杂,框架也就越复杂。但是,决策最重要的前提是要从小角度切入,从“小”做起。
对此,我总结了4 步走的方法:
1. 首先确定有什么问题,从解决问题的角度出发去收集数据。
2. 把收集到的数据整理好,放入一个“数据框架”内(这个框架是用来帮助决策者做决定的)。让决策者用框架更清楚地看到数据与决策之间的关系,比如A 公司在框架内要知道竞争情况、新老客户的比例情况等因素以及多种因素之间的关系。
3. 看框架与做决策的关系。比如,A 公司与导航网站有三种选择——完全不合作、部分合作和全面合作。数据分析师就可以根据数据框架告知A 公司该怎么决策。如果发现数据框架与决策不能匹配,就必须返回到第2 步。
4. 根据决策行动,然后检查行动是否达到目的。如果行动后发现根本没有达到目的,就要检讨整个链条,寻找问题出在哪里。是数据有问题吗?还是因为框架不对?或者是决策不对?是否还有数据没考虑进去?
所以,想要解决的问题越复杂,框架也就越复杂。对于现在多数还没有开始做数据应用的电商公司来说,框架一开始千万不要过于复杂,一定是要针对某个需要解决的具体问题开始搭建框架,令框架与决策紧密相关。所以,在搭建框架前问问自己:“你的问题是什么?你的决策是什么?反过来你的框架又该怎样搭建?”虽然你的回答可能多种多样,但是,最重要的前提是要从小角度切入,从“小”做起。
养数据,重要的数据战略
“用数据”更多的是一种方法论,而“养数据”则是一种数据战略,是基于深入业务理解的更高层次的商业决策。
“养数据”还有一个重要的含义,就是要决定收集哪些数据。这个决定不容忽视,因为这可能是公司数据战略中非常重要的一个环节。因为,很多公司的做法,是有什么数据就收集什么数据,完全没有主动性,但这样做遇到的一个核心问题就是,公司自主思考的能力开始缺失,对该收集什么样的数据不甚了解。事实上,在我看来,被动收集数据的行为是“收集”,而主动收集数据的行为则是“养数据”。再拿上面讲到的某电商母婴频道的例子来说,如果收集主体是一家医院,那么宝宝的姓名、性别、出生年月和妈妈的姓名等数据的收集,就是收集数据,因为在住院档案和出生证明上,这些都是必不可少的。但是,如果是母婴用品要针对家庭进行营销,那么这些信息显然是不够的,宝宝奶粉的品牌、家庭收入、职业等信息则需要企业自己主动去收集,而这些数据也就是“养”出来的数据。
养数据通常有两类,一类是网站自身没有的数据,需要用户主动提供的;另一类是公司拥有的,但没有进行收集的数据。
若要收集公司没有的数据,在“养数据”时通常需要花费更多的精力和技巧。举例来说,现在国内外有很多个性化的手机购物应用,他们会根据用户的偏好进行商品的推荐,让每个人都有完全不一样的购物体验。具体的运作原理是,当用户第一次使用这些应用时,界面中会弹出一些问题,通过互动的方式来收集用户的信息数据,比如会出几款衣服,让用户挑选哪一款是更喜欢的。这样,在几个问题之后,应用就知道用户的喜好了。这类应用通常还会有另外一个特点,就是会让用户点“赞”,这个点赞的功能,就是让用户明确地告诉应用自己喜欢什么,这样用户就可以在过程中,不断地告诉应用自己的偏好。这样一来,应用就可以“养”出用户的核心数据。
对于公司有数据但没有收集的状况,则更多的是因为内部资源协调的问题和公司决策的问题。很多提供餐饮和团购类信息服务的网站,通常会有一个功能是“把信息通过短信发送到手机”,这样就不需要用户进行特别的记录,不过有些网站会记录用户的手机号,而有些网站则不会。那么,这些手机号需不需要企业存下来呢?这就是一个与业务决定和资源协调相关的问题,如果决定是记录,则必然会需要开发人员在后台进行功能的优化,如果不记录,那就会丢失这部分信息。我的观点当然是记录这些数据,也即是“养”数据,因为这不仅能够校验用户的手机号码是否有效,还能够慢慢地建立起企业与用户的社交关系。
总之,“用数据”更多的是一种方法论,而“养数据”则是一种数据战略,是基于深入业务理解的更高层次的商业决策,数据养的时间越早,积累的数据也就越多。养数据同样也是一种管理和商业艺术,在养之前可能谁也不确定最终会出现什么后果,但一旦养成,则会产生非常大的商业价值。
同时,许多企业还有一个疑问:“现在收集数据不难,成本也不高,为什么不先收集了数据再说呢?等以后需要数据来解决问题时,再拿出来用不是也可以吗?”这位高人同样也给出了这个问题的答案,他对此持否定观点,并指出用这样的理念来设计数据应用注定会失败。
数据收集是没有边界的,我为此也痛苦了好一段日子,比如,收集一个人的生日,虽然可以精确到几分几秒,但这么精确的数据又能用在什么领域,又能产生什么价值呢?
事实上,数据是有生命周期的。比如,某网站的母婴频道在主动收集用户的宝宝信息,包含宝宝生日、性别、小名、身高、体重,这里我们就要清楚这几个数据的用途和生命周期,如宝宝的身高和体重。但是,妈妈们填写的是宝宝当前的数据,我们知道宝宝的身高、体重变化非常之快,也就是说这两个数据的生命周期很短,在当时的推荐中可能有用,但过了一段时间后,这两个数据就失效(Data Broken)了;而宝宝生日和性别这两个数据的生命周期就很长,可以从生日的年份中推算出宝宝的年龄,而性别则基本是终生稳定的。
保存数据及其收集时的背景(Context),也是一件不容易的事情。
还是以收集宝宝的年龄作为例子来阐述,我们可以通过用户购买特定的商品集合,如几段奶粉和尿不湿的型号等,知道宝宝所处的大概年龄段,以推算出宝宝当前的年龄。但如果仅仅是保存宝宝几岁这个数据,那么这个数据很快也会失效,因为人的年龄是在动态变化的。同时,你还需要保存宝宝几岁这个数据获得的时间,即在哪年哪月计算得知这个宝宝的年龄,而这个信息就是背景数据。另一种做法更加聪明一些,即通过宝宝现在的年龄反过来推算宝宝是什么时候出生的。
所以说,在收集数据时,我们必须知道这些数据未来可以用来做什么,如果今天都想象不出来的话,日后就更不可能了。
打一个比方,如今很多电商高管会询问数据分析师商品的重复购买率是多少。于是,工作人员收集数据来计算重复购买率,却很少想到高管们需要重复购买率是来做什么决定的,这就好比“刻舟求剑”的故事。事实上,在世事多变的大数据时代,我们不能只是机械地套用方法或指标。
重复购买率有不同的定义,而做不同的决策需要考虑经过不同定义的重复购买率。如果一家投资公司想收购A 公司,那么会从重复购买率来看整个A 公司的运营良好程度或用户质量等;如果从A公司本身运营的角度来看重复购买率,那么它更应该关注的是日、周级别的重复购买率的变化趋势,或者当月新增客户有多少人在三个月后进行了重复购买,从而可以衡量出每个月新增及存量客户的忠诚度和质量,进而找出改善的空间。在知道了以上的背景之后,再去选择使用什么数据不是更有的放矢吗?
数据应用因小而美
“小”不是指数据量,而是指应用的目标很具体。
2011年年底,作为一名数据分析师,我开始思考怎么从“用数据”转变为“养数据”(即从数据化运营转变为运营数据),这段时间我为收集什么样的数据而特别烦恼。而且,我也曾经试图做出一个特别大且适合多数人使用的数据应用,可是后来发现这在数据应用的起步阶段几乎是不可能的—— 一是找到可以解决大部分人需求的数据应用并不容易;二是当时公司的数据非常丰富,需要考虑的因素很多,因素之间的联系又很复杂。
所以,当开发数据应用的时候,数据就等于原材料;当原材料一直处于变化的情况下,做出来的产品就很容易出问题。体会到数据和应用的关系之后,我最后决定从小角度切入,先把小应用做出来,这就是很好的瞄准器。
这里说的“小”指的是应用的目标很具体。请注意,“小”不是指数据量。许多人在没有获取足够的数据,并且缺乏对数据理解的情况下做出决策,其实是在“享受”自己的无知。打个比方来说,对于一款数据应用,如果我的目的是分辨两种决策谁更好以及差异在哪里,这就是一个很具体的问题;但如果我的目标是想知道如何让公司赢利,这就是一个空泛的目标。
经过这样的一番周折后,按照小角度切入的想法设计数据应用,就可以做得具体而快速,而且可以避免因原材料的变化而导致数据缺失的问题。
把数据放进“框”之中
在大数据的背景下,必须考虑数据之间的关联性。一个单独的数据是没有意义的,要把数据放在一个“数据框架”(场景)之中,才能看出存在的问题。
为了把这个问题说得更明白,这里我拿前阵子一家电商公司找我讨论的问题来举例。
A 公司问我,要不要撤去导航网站的广告?因为它怀疑许多老客户是从导航网站访问官网,而不是直接访问官网。把这个问题说得再直白点,就是他们想弄清楚在导航做广告与公司业务之间的关系。那么,接下来就要观察用什么“数据框架”有助于其做出决策。
1. 公司当前的投入产出比
(1) 明确导航网站引进的新老用户占比如何?
(2) 引入的新老用户的投入产出比和转化率如何?
(3)推断撤去导航网站,对流失新老用户的影响如何?
2. 与竞争对手的博弈
有一个问题可能会被忽略,那就是你不做导航网站广告,你的对手就会立马投放此广告。做数据框架的时候,要特别注意框架不是静态的,而是存在博弈的,需要把竞争对手的因素考虑进来。
3. 考虑时间因素
建立框架时要考虑时间因素:
(1)用现在、过去和未来的眼光来审视导航网站,看看导航的质量是不是越来越好; (2)需要注意的是时间有延迟性,引进来的流量会有一些延迟,在两三个月后才能知道新用户的价值。
总之,“数据框架”是商业分析师的灵魂所在,可以让其从框架中找寻问题的关键因素及答案。不同的问题有不同的框架,不能完全在此进行阐述。
如何用框架来做决策
想要解决的问题越复杂,框架也就越复杂。但是,决策最重要的前提是要从小角度切入,从“小”做起。
对此,我总结了4 步走的方法:
1. 首先确定有什么问题,从解决问题的角度出发去收集数据。
2. 把收集到的数据整理好,放入一个“数据框架”内(这个框架是用来帮助决策者做决定的)。让决策者用框架更清楚地看到数据与决策之间的关系,比如A 公司在框架内要知道竞争情况、新老客户的比例情况等因素以及多种因素之间的关系。
3. 看框架与做决策的关系。比如,A 公司与导航网站有三种选择——完全不合作、部分合作和全面合作。数据分析师就可以根据数据框架告知A 公司该怎么决策。如果发现数据框架与决策不能匹配,就必须返回到第2 步。
4. 根据决策行动,然后检查行动是否达到目的。如果行动后发现根本没有达到目的,就要检讨整个链条,寻找问题出在哪里。是数据有问题吗?还是因为框架不对?或者是决策不对?是否还有数据没考虑进去?
所以,想要解决的问题越复杂,框架也就越复杂。对于现在多数还没有开始做数据应用的电商公司来说,框架一开始千万不要过于复杂,一定是要针对某个需要解决的具体问题开始搭建框架,令框架与决策紧密相关。所以,在搭建框架前问问自己:“你的问题是什么?你的决策是什么?反过来你的框架又该怎样搭建?”虽然你的回答可能多种多样,但是,最重要的前提是要从小角度切入,从“小”做起。
养数据,重要的数据战略
“用数据”更多的是一种方法论,而“养数据”则是一种数据战略,是基于深入业务理解的更高层次的商业决策。
“养数据”还有一个重要的含义,就是要决定收集哪些数据。这个决定不容忽视,因为这可能是公司数据战略中非常重要的一个环节。因为,很多公司的做法,是有什么数据就收集什么数据,完全没有主动性,但这样做遇到的一个核心问题就是,公司自主思考的能力开始缺失,对该收集什么样的数据不甚了解。事实上,在我看来,被动收集数据的行为是“收集”,而主动收集数据的行为则是“养数据”。再拿上面讲到的某电商母婴频道的例子来说,如果收集主体是一家医院,那么宝宝的姓名、性别、出生年月和妈妈的姓名等数据的收集,就是收集数据,因为在住院档案和出生证明上,这些都是必不可少的。但是,如果是母婴用品要针对家庭进行营销,那么这些信息显然是不够的,宝宝奶粉的品牌、家庭收入、职业等信息则需要企业自己主动去收集,而这些数据也就是“养”出来的数据。
养数据通常有两类,一类是网站自身没有的数据,需要用户主动提供的;另一类是公司拥有的,但没有进行收集的数据。
若要收集公司没有的数据,在“养数据”时通常需要花费更多的精力和技巧。举例来说,现在国内外有很多个性化的手机购物应用,他们会根据用户的偏好进行商品的推荐,让每个人都有完全不一样的购物体验。具体的运作原理是,当用户第一次使用这些应用时,界面中会弹出一些问题,通过互动的方式来收集用户的信息数据,比如会出几款衣服,让用户挑选哪一款是更喜欢的。这样,在几个问题之后,应用就知道用户的喜好了。这类应用通常还会有另外一个特点,就是会让用户点“赞”,这个点赞的功能,就是让用户明确地告诉应用自己喜欢什么,这样用户就可以在过程中,不断地告诉应用自己的偏好。这样一来,应用就可以“养”出用户的核心数据。
对于公司有数据但没有收集的状况,则更多的是因为内部资源协调的问题和公司决策的问题。很多提供餐饮和团购类信息服务的网站,通常会有一个功能是“把信息通过短信发送到手机”,这样就不需要用户进行特别的记录,不过有些网站会记录用户的手机号,而有些网站则不会。那么,这些手机号需不需要企业存下来呢?这就是一个与业务决定和资源协调相关的问题,如果决定是记录,则必然会需要开发人员在后台进行功能的优化,如果不记录,那就会丢失这部分信息。我的观点当然是记录这些数据,也即是“养”数据,因为这不仅能够校验用户的手机号码是否有效,还能够慢慢地建立起企业与用户的社交关系。
总之,“用数据”更多的是一种方法论,而“养数据”则是一种数据战略,是基于深入业务理解的更高层次的商业决策,数据养的时间越早,积累的数据也就越多。养数据同样也是一种管理和商业艺术,在养之前可能谁也不确定最终会出现什么后果,但一旦养成,则会产生非常大的商业价值。