论文部分内容阅读
不管是一淘与京东的口水仗,还是Facebook首次公开募股,都与数据有关。进入互联网时代,各种各样的数据报告在企业决策中发挥着越来越重要的作用。数据从何而来?不同指标的权重是否有所区别?面临数据背后的隐私与安全,我们该怎么办?企业在决策时,是依赖于领导人的卓识远见还是用数据说话?
还记得某家互联网巨头公司的糗事吗?当时,在他们某款新产品的发布会上,公司副总裁极力向大家推荐其智能程序,结果这款产品给他推荐了一本色情小说。场面尴尬极了。他急中生智,迅速向大家解释是程序出了问题……
其实程序没有任何问题。当然,这也并非意味着他有不大光彩的爱好,而是其网站基于ANN(artificial neural networks,人工神经网络)程序对海量数据分析的一种自然反应。
说得更直白一点,不管你是浏览京东商城、当当网还是亚马逊等其他网站,当你在上面点击了图书之后,网站就会根据你是否阅读、购买的记录建立一个有关你的独特的“喜好模式”。举例说,如果你经常点击、购买工商管理类的图书,那么当你下次浏览时,它就会向你推荐这方面题材的书籍。如果6000名喜好工商管理图书的读者突然大面积购买了推理小说,那么,不管你是否喜欢,它都会把最新最热门的推理小说推荐给你,并出现类似“浏览推理小说,最终32%购买《月亮宝石》”或者“购买本书的顾客还购买过‘一生一世’牌情人节玫瑰”的字样。
这就是“数据”的力量。在互联网时代,数据起到的作用不仅于此,越来越多的互联网公司以及传统公司在重大决策时都十分倚重数据。与此同时,我们也可以说数据只是占据存储空间的一堆垃圾——如果你不能有效地利用它,或者看不出数据背后的奥秘。数据也仅仅是一个“结果”,在相当程度上,它要求你将更多的精力用在数据之外。
数据从哪里来?
线上调查比较高效,通过对样本的持续监测研究,可以做网民行为的趋势对比;线下调查的周期比较长,投入成本高,但能够主动锁定某些线上缺失的样本。
对任何企业来说,只有对用户行为有了精准的分析后,才可能进行有针对性的运营,有的放矢。那么,数据从哪里来呢?
艾瑞咨询集团首席分析师、艾瑞研究院院长曹军波向网络导报记者介绍,数据的来源一般是通过线上、线下两种渠道,其中线下调查包括电话、街头随机拦访,以及入户调查等几种方式,线上调查包括问卷调查、网民行为监测等等。一般情况下,线下的问卷调查更多的是调查“用户的态度、喜好。如果需要调查精准的行为数据,则不适合”。作为一种线上监测方式,网民行为监测采用固定样本连续监测方式,能够更客观准确地还原网民的互联网行为。“线上调查比较高效,很多环节可以自动实现。通过对固定样本的持续监测研究,也可以用统一口径更好地做网民行为趋势对比。”
不过,线下调查的周期比较长,投入成本高,同时被试(受访者)的主观性比较强,“但能够主动锁定某些线上缺失的样本,是对线上调查的一个补充”。
北京红袖添香科技发展有限公司运营副主编范晓霞表示,问卷调查是一种“预设性”的调查方法,问题是有针对性、且提前预设好的。“问卷调查,关键在于编制问卷,选择被试和结果分析。”
她介绍红袖添香的经验,一般不会超过12道选择题,答题时间尽量保证在5分钟左右,其中自助问答不会超过2个,以减少答题的难度。
她同时谈到:“网络上的问卷调查一般回复率比较高,但是回答的质量则不稳定。有时候我们会采用‘有奖问卷调查’,奖励会吸引更多的用户来参与,但也会干扰到调查的真实性、有效性。”
为了避免主观性太强带来的误差,一般都会在问卷设置上高度谨慎,问题会比较集中,同时设置很多甄别题。曹军波说:“比如这个问题你选择A,另一个问题选择B,但A与B是相互矛盾的,这样就可以进行甄别。”
范晓霞则表示,他们会进行两方面的矫正,一是进一步的电话调查,二是在分析问卷结果时,“多和产品运营数据等客观数据结合,这样得到的结论才能够更接近于用户的真实情况。”
同时,鉴于在实际操作中样本的随机性很难做到,为了提高样本的代表性,抽样调查时一般还会采用更为精准的分层抽样方式,只有在这个前提下,“问卷回收率才有价值。否则,就算百分之百回收了,也是无益的。”
不同的数据从不同的角度反映客观事实
不同的数据就是从不同的角度反映客观事实。同样,并非某个指标更能说明问题,关键看你的关注点是综合指标还是局部指标。
那么,在实际调查之中,一般会采用哪种方式呢?样本的规模要多大呢?曹军波向记者介绍,要根据调查对象的要求以及调查深度来做判断,调查要求越精准,抽样指标就越多、样本规模就越大,“是同比提升的”。
对此,范晓霞甚为认可,“尽管用户调查和数据库分析是常用的手段,但两者还是会有调查用户规模和数据规模的区别。”不过,这种分析和挖掘也会有缺陷,“因为许多意外的因素有可能会造成数据的变形。比如问卷的题目放置顺序、位置、甚至图片的大小都有可能影响调查结果。”
在有效地规避了“垃圾数据”的干扰之后,范晓霞说:“对于红袖添香来说,普通的问卷调查需要的IP数至少在1万以上;而对于重点产品的上线,参与调查的IP数有时候则需要数万甚至10万以上。”
另一方面,我们也注意到,针对同一个市场的调查,不同咨询机构的报告会得出不同的结论。如何看待这种分歧呢?不同的调研指标是否具有同等意义呢?
曹军波说:“事实就是事实,但事实有不同的侧面,关键是你从哪个角度来解读。比如某个网站的访问人数总量排在第一,但是,他的人均访问PV(页面浏览量或点击量)不见得是第一。可能排名第三的网站的人均PV超过第一名。同样是事实,但不同的数据是从不同的角度反映客观事实。”
同样,并非某个指标更能说明问题,关键是看你的关注点。“每个指标都有它的特点。比如看某个网站的PV 总量,有两个指标,访问人数和浏览页面。但是,还有一个指标,就是平均访问有效浏览时长。有的网站人均时长非常短。关键看你是需要综合指标还是局部指标。”曹军波表示,“在网站运营的不同阶段,不同的指标也会有所侧重。”
数据背后的隐私与安全忧患
用户数据是把双刃剑。信息时代的最大挑战恰恰就是我们如何正确处理这些信息。作为第三方机构,在数据分析时不会对应具体的人名与真实身份。
今年2月1日,Facebook于周三盘后向美国证券交易委员会正式递交了首次公开募股(IPO)申请,计划融资50亿美元,此次IPO对该公司的估值介于750亿美元到1000亿美元之间。
个人数据价值成为Facebook IPO的推动引擎。据悉,其全球用户现在已经突破了8亿,而根据数字营销公司iCrossing的预测,Facebook的用户数将在今年8月超过10亿。随着越来越多的用户使用手机登录,相关的在线交易行为能够为Facebook提供海量的用户个人数据。
分析人士指出,隐私问题将成为Facebook的最大绊脚石。此前,Facebook曾多次因为隐私问题导致与用户关系恶化。产品业务副总裁克里斯·考克斯说:“对于我们来说,此类用户数据是把双刃剑。信息时代的最大挑战恰恰就是我们如何正确处理这些信息。”
不仅如此,去年年末爆发的“CSDN泄密事件”,也让网民担心自己的个人隐私被泄密,数据安全没有保障。
对拥有海量用户数据的公司来说是如此,那么,不同的投资者在投资时,又该如何看待这些数据公司背后的数据呢?事实上,早有分析人士指出,投资者高估了Facebook用户总数本身的价值——尽管它是一台高速运转的数据收集引擎。
还记得某家互联网巨头公司的糗事吗?当时,在他们某款新产品的发布会上,公司副总裁极力向大家推荐其智能程序,结果这款产品给他推荐了一本色情小说。场面尴尬极了。他急中生智,迅速向大家解释是程序出了问题……
其实程序没有任何问题。当然,这也并非意味着他有不大光彩的爱好,而是其网站基于ANN(artificial neural networks,人工神经网络)程序对海量数据分析的一种自然反应。
说得更直白一点,不管你是浏览京东商城、当当网还是亚马逊等其他网站,当你在上面点击了图书之后,网站就会根据你是否阅读、购买的记录建立一个有关你的独特的“喜好模式”。举例说,如果你经常点击、购买工商管理类的图书,那么当你下次浏览时,它就会向你推荐这方面题材的书籍。如果6000名喜好工商管理图书的读者突然大面积购买了推理小说,那么,不管你是否喜欢,它都会把最新最热门的推理小说推荐给你,并出现类似“浏览推理小说,最终32%购买《月亮宝石》”或者“购买本书的顾客还购买过‘一生一世’牌情人节玫瑰”的字样。
这就是“数据”的力量。在互联网时代,数据起到的作用不仅于此,越来越多的互联网公司以及传统公司在重大决策时都十分倚重数据。与此同时,我们也可以说数据只是占据存储空间的一堆垃圾——如果你不能有效地利用它,或者看不出数据背后的奥秘。数据也仅仅是一个“结果”,在相当程度上,它要求你将更多的精力用在数据之外。
数据从哪里来?
线上调查比较高效,通过对样本的持续监测研究,可以做网民行为的趋势对比;线下调查的周期比较长,投入成本高,但能够主动锁定某些线上缺失的样本。
对任何企业来说,只有对用户行为有了精准的分析后,才可能进行有针对性的运营,有的放矢。那么,数据从哪里来呢?
艾瑞咨询集团首席分析师、艾瑞研究院院长曹军波向网络导报记者介绍,数据的来源一般是通过线上、线下两种渠道,其中线下调查包括电话、街头随机拦访,以及入户调查等几种方式,线上调查包括问卷调查、网民行为监测等等。一般情况下,线下的问卷调查更多的是调查“用户的态度、喜好。如果需要调查精准的行为数据,则不适合”。作为一种线上监测方式,网民行为监测采用固定样本连续监测方式,能够更客观准确地还原网民的互联网行为。“线上调查比较高效,很多环节可以自动实现。通过对固定样本的持续监测研究,也可以用统一口径更好地做网民行为趋势对比。”
不过,线下调查的周期比较长,投入成本高,同时被试(受访者)的主观性比较强,“但能够主动锁定某些线上缺失的样本,是对线上调查的一个补充”。
北京红袖添香科技发展有限公司运营副主编范晓霞表示,问卷调查是一种“预设性”的调查方法,问题是有针对性、且提前预设好的。“问卷调查,关键在于编制问卷,选择被试和结果分析。”
她介绍红袖添香的经验,一般不会超过12道选择题,答题时间尽量保证在5分钟左右,其中自助问答不会超过2个,以减少答题的难度。
她同时谈到:“网络上的问卷调查一般回复率比较高,但是回答的质量则不稳定。有时候我们会采用‘有奖问卷调查’,奖励会吸引更多的用户来参与,但也会干扰到调查的真实性、有效性。”
为了避免主观性太强带来的误差,一般都会在问卷设置上高度谨慎,问题会比较集中,同时设置很多甄别题。曹军波说:“比如这个问题你选择A,另一个问题选择B,但A与B是相互矛盾的,这样就可以进行甄别。”
范晓霞则表示,他们会进行两方面的矫正,一是进一步的电话调查,二是在分析问卷结果时,“多和产品运营数据等客观数据结合,这样得到的结论才能够更接近于用户的真实情况。”
同时,鉴于在实际操作中样本的随机性很难做到,为了提高样本的代表性,抽样调查时一般还会采用更为精准的分层抽样方式,只有在这个前提下,“问卷回收率才有价值。否则,就算百分之百回收了,也是无益的。”
不同的数据从不同的角度反映客观事实
不同的数据就是从不同的角度反映客观事实。同样,并非某个指标更能说明问题,关键看你的关注点是综合指标还是局部指标。
那么,在实际调查之中,一般会采用哪种方式呢?样本的规模要多大呢?曹军波向记者介绍,要根据调查对象的要求以及调查深度来做判断,调查要求越精准,抽样指标就越多、样本规模就越大,“是同比提升的”。
对此,范晓霞甚为认可,“尽管用户调查和数据库分析是常用的手段,但两者还是会有调查用户规模和数据规模的区别。”不过,这种分析和挖掘也会有缺陷,“因为许多意外的因素有可能会造成数据的变形。比如问卷的题目放置顺序、位置、甚至图片的大小都有可能影响调查结果。”
在有效地规避了“垃圾数据”的干扰之后,范晓霞说:“对于红袖添香来说,普通的问卷调查需要的IP数至少在1万以上;而对于重点产品的上线,参与调查的IP数有时候则需要数万甚至10万以上。”
另一方面,我们也注意到,针对同一个市场的调查,不同咨询机构的报告会得出不同的结论。如何看待这种分歧呢?不同的调研指标是否具有同等意义呢?
曹军波说:“事实就是事实,但事实有不同的侧面,关键是你从哪个角度来解读。比如某个网站的访问人数总量排在第一,但是,他的人均访问PV(页面浏览量或点击量)不见得是第一。可能排名第三的网站的人均PV超过第一名。同样是事实,但不同的数据是从不同的角度反映客观事实。”
同样,并非某个指标更能说明问题,关键是看你的关注点。“每个指标都有它的特点。比如看某个网站的PV 总量,有两个指标,访问人数和浏览页面。但是,还有一个指标,就是平均访问有效浏览时长。有的网站人均时长非常短。关键看你是需要综合指标还是局部指标。”曹军波表示,“在网站运营的不同阶段,不同的指标也会有所侧重。”
数据背后的隐私与安全忧患
用户数据是把双刃剑。信息时代的最大挑战恰恰就是我们如何正确处理这些信息。作为第三方机构,在数据分析时不会对应具体的人名与真实身份。
今年2月1日,Facebook于周三盘后向美国证券交易委员会正式递交了首次公开募股(IPO)申请,计划融资50亿美元,此次IPO对该公司的估值介于750亿美元到1000亿美元之间。
个人数据价值成为Facebook IPO的推动引擎。据悉,其全球用户现在已经突破了8亿,而根据数字营销公司iCrossing的预测,Facebook的用户数将在今年8月超过10亿。随着越来越多的用户使用手机登录,相关的在线交易行为能够为Facebook提供海量的用户个人数据。
分析人士指出,隐私问题将成为Facebook的最大绊脚石。此前,Facebook曾多次因为隐私问题导致与用户关系恶化。产品业务副总裁克里斯·考克斯说:“对于我们来说,此类用户数据是把双刃剑。信息时代的最大挑战恰恰就是我们如何正确处理这些信息。”
不仅如此,去年年末爆发的“CSDN泄密事件”,也让网民担心自己的个人隐私被泄密,数据安全没有保障。
对拥有海量用户数据的公司来说是如此,那么,不同的投资者在投资时,又该如何看待这些数据公司背后的数据呢?事实上,早有分析人士指出,投资者高估了Facebook用户总数本身的价值——尽管它是一台高速运转的数据收集引擎。