数据定义的挑战

来源 :管理学家 | 被引量 : 0次 | 上传用户:adzqx2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  1999年9月23日, 美国国家航空航天局耗资近3.28亿美元研制发射的火星气候探测者号在进入火星轨道的过程中与地面失去联络,最终任务失败。耗费如此巨资项目的失败无疑让人痛心,然而更令人扼腕的是失败的原因竟然是计量单位搞错了。原来地面人员输入的数据指令用了英制单位,而飞行系统软件使用公制单位。这一错误导致探测器进入大气层的高度有误,最终解体坠毁。
  从数据科学的角度看,这次航天仼务的失利是数据定义没有做好,正所谓“失之毫厘,谬以千里”。数据定义是数据收集和分析的基础,看似简单,想要在实践中做好却并不容易。尤其是在大数据系统中(如宇航工程),维护数据定义的正确性和一致性就更具挑战性了。
  数据定义有两个要素,一个是关于定义的概念,另一个是关于定义的测度。前者可被称为概念定义,而后者可被称为操作定义。好的数据定义应该同时具有清晰的概念定义和操作定义。火星气候探测者号的悲剧就是操作定义没有在系统中做到一致性而导致的。
  而在另一些应用场合,概念定义可能成为问题的症结所在。一家国内著名电商的大数据负责人曾经告诉我,一个让他们非常头疼的问题就是应该如何定义什么是一笔“订单”。从IT人的角度,“订单”的概念似乎应是很简单的,那就是顾客一次付款购买的全部商品。然而实际却远比这个复杂。比如说,有时候下单之后,后台发现某个产品断货,然后征得顾客同意取消了原订单中的这一项产品。这样就有了两种订单的定义,初始订单和真正执行的订单。接着在仓库配送时,一张订单可能会被拆成两次或多次送货。这样一个订单在运营记录中变成了几张单子,在财务那边也造成了多张发票。最后,顾客可能发现自己不喜欢购买的一些产品而要求退货。结果一张订单的实收款往往有别于下单时的金额和配送时的金额。这样以来一笔订单到底该如何定义,一张订单的金额和包含的产品数到底该如何计算,就成了个棘手问题。
  重要的是,这一数据定义不仅是个技术问题,而且还有战略层面的意义。从营销和客户关系管理的角度看,订单的定义需要能反映顾客购买次数和(考虑退货后的)实际消费金额。但是从运营管理的角度,订单的定义最好能反映实际配送成本和配送质量(如递送速度,准确率等);因此拆分后的实际配送订单对运营决策更具意义。而在公司高层决策者看来,以上各种的订单概念都有其重要性和对应的管理作用,因此都希望保留。所以对数据部门来说,挑战一下就大了起来。因为不仅要在系统中维护不同的订单定义,而且还要注意及时提醒使用数据的决策者当前看到的数据和分析结果是基于何种订单概念。因为不同部门有自己对数据定义的偏好,在提供数据图表时还要尽量给出个性化的定制。
  更多的时候,清晰的概念定义和操作定义都不容易给出。笔者曾经给一家著名的跨国石油公司做过零售方面的咨询,是关于其在全球各个自有加油站的定价优化。要给某个加油站做定价优化,知道其竞争对手是谁应是必不可少的。可是竞争对手到底该怎么定义呢?竞争的概念似乎是不言而喻的,但是不言而喻恰恰正是隐患所在。强调数据科学,就是要消除这些隐患,把概念清晰地表达出来。
  从经济学角度,对于竞争对手的严格定义应该是:如果至少有一部分消费者在购买时会考虑在A和B中做出选择,那么B是A的竞争者。但是这一定义却缺乏可操作性。该公司收集了自己加油站每天每时段的销售情况,但只能追踪同城其它加油站的每天定价和广告变化。另外,对于持品牌积分卡的顾客,他们在该公司的消费情况能被完整地追踪,但是他们是否也加过其它品牌的油就不得而知了。
  经过一番仔细思考,我们决定采用如下的定义:B加油站是A加油站的竞争者,如果B的营销活动(如价格降低、广告等)对A的销量有负面影响。这一定义符合我们对竞争的一般理解,而且还考虑到了数据收集的可行性,所需的数据都是已经有了的。可是即便有了这个定义,操作起来还是充满了挑战。首先,澘在竞争者的范围该如何定?离A一公里? 五公里?还有更远的可能性因为消费者可能会比较居住地附近的加油站和上班地附近的加油站。大数据在这一点上能帮助我们。比如说我们可以把网撒得很大,扩大到一百公里的半径,把潜在的竞争者都查一遍。
  可是下一个问题又来了:我们怎么判断B的营销活动(如价格变化,广告等等)对A的销量有影响呢?和有些流行大数据读物所宣称的不同,我们发现单纯看相关性并不可行。 举个例子,由于原油价格上升,B提了价,而消费者也总体减少了开车的里程。这样从数据上我们看到的是B的价格提升往往伴随着A的销量减少,这似乎意味着B不是A的竞争者,而事实则可能正好相反。
  最后我们的解决方案是放弃了寻找A的具体竞争对手的想法,而是把所有A以外的加油站的营销活动汇总起来做成一个A的市场环境指数,再基于这一指数做出A的定价优化。其中的细节十分复杂,篇幅所限,就不赘述了。
  以上的这些例子让我们看到数据定义的问题看似简单,也因此往往被忽视,但是这其中的挑战不可不察。所谓“千里之行,始于足下”,“好的开端是成功的一半”, 这些用来描述数据定义的重要性决不为过。要用好大数据,我们必须对数据定义慎而慎之。
其他文献
记者手记:北京的深秋,叶落成堆,极美。未名湖畔,朗润园内,更是想象一下都足以令人心醉。采访那天风很大,温度也很低,姚洋院长就在这风硬叶颓之际,与我们娓娓谈起如火如荼的工商管理教育……  低调和严谨挡不住名师“诱惑”  国内的工商管理教育林林总总,为什么要选择北京大学国家发展研究院?坊间不是流传着这样的说法吗——“对不求最好但求最贵的人来说,应该选长江;对追求高官人脉的人来说,应该选清华;对简单追求
期刊
信用在一个社会中是十分重要的。孔子曾经有过“民无信不立”的断言,而商鞅“徙木立信”就是一个“立信”的经典例子。  《史记·商君列传》中记载的这个故事很简单:商鞅在制定了变法新令后,恐民众“打酱油”,于是采用了这样一个特殊手段。“令既具,未布,恐民之不信,已乃立三丈之木于国都市南门,募民有能徙置北门者予十金。民怪之,莫敢徙。复曰:能徙者予五十金。有一人徙之,辄予五十金,以明不欺。卒下令。”  这里的
期刊
《论衡》在人力资源思想上有一个特殊贡献,就是对儒吏关系的辨析。在中国古代,这一辨析开了人才群体问题研究的先河。在《程材》《量知》《谢短》《效力》《别通》《超奇》《状留》诸篇中,王充对如何考察、衡量、使用儒生与文吏两类人员,进行了独到的分析。  吏是最早进入官场的群体。它从“史”发展而来,吏、史、事,三字本为一源。所谓史,就是官府中的下层办事人员。商周有大量的史,他们最主要的活动是处理文书,执行事务
期刊
在亲密关系研究中,相互依赖是指两人之间可以持久地彼此影响,全身心地关注对方,并尽可能多地共同活动。它被当作为关系亲近程度的一个行为指标。人们总想以最小的成本获得最大的回报,总想得到最好的人际交往,但相互依赖理论指出,结果是得是失并不重要,重要的是我们评判结果的两个标准,第一个标准是我们的期望,第二个是如果没有现在的伴侣,我们会过得怎样。如果给伴侣提供好的结果能够使想要的关系继续下去,即使需要努力和
期刊
编者按:本文是根据林左鸣同志2007年,即出任中国航空工业第一集团公司(中国一航)党组书记、总经理一年后,在国务院国资委央企负责人会议上和一航大学的演讲录音整理而成,略有删节后发表,以飨读者。  进入21世纪以来,经济全球化进程加快,企业的外部环境和内部运行方式都在发生急剧变化,经营和发展的战略问题备受关注,企业已步入了战略管理时代。  一 思想管理是与“熵”作斗争、实现战略控制力的关键  如果把
期刊
绩效评价的过程需要做出一系列的决策,而我们的决策判断却充满了偏见。以下是一些容易出现的偏见,以及减少这些偏见的建议。  过度自信偏差(Overconfidence Bias)当我们被要求回答一个问题,并判断我们所给出答案的正确性时,对于自己的判断,我们往往于过分乐观。研究发现当人们相信自己有65%-70%的概率是正确时,事实上他们仅有50%的可能性是正确的,而当他们100%肯定自己的答案正确时,往
期刊
在战争年代,社会与经济发展严重受损、停滞,甚至倒退,然而总有很多企业不仅能顽强生存下来,并且通过改变经营策略创造了几乎不可能的繁荣。以永安公司为代表的永安、先施、新新、大新上海四大百货公司就是一个典型的例子。  更换注册国求保护  1937年8月13日,侵华日军对上海发起全面进攻,“八一三”事变爆发。“八一三”事变后上海的百货业成为遭受日本轰炸损失较为严重的行业之一,很多企业纷纷将职员全部遣返回乡
期刊
古代用人最重要的是区分贤佞。几乎所有人都知道应该选贤与能,但问题出在对什么是贤什么是佞的判断上。以春秋时期的齐桓公为例,易牙烹子、竖刁自宫、开方弃亲;管仲认为这三人的行径背离了人的正常情感,属于大奸大憝,而齐桓公认为这三人效忠于己,才能难得。最后,齐桓公死在这三人手里,后来历代都把这三人作为佞臣的典范。宋代苏洵在《辨奸论》中总结道:“凡事之不近人情者,鲜不为大奸慝,竖刁、易牙、开方是也。”然而,人
期刊
姚熹院士曾用钓鱼戏说博士生论文选题:有两个池塘,一个有很多人围在那儿垂钓,另一个空空如也,你选择去哪个池塘钓鱼?人多的池塘可能有鱼,钓不到鱼的风险小;没人的池塘钓不到鱼的风险大,但有可能钓到大鱼。凑热闹容易取得小贡献,冒大险也可能收获大创造。  随着电子通讯和网络技术的神速发展,人们又遇到了类似的选择问题,工作和投资时,是搭互联网的快车,还是走传统行业的老路?  互联网似乎将所有人一网打尽。人们如
期刊
企业慈善行为的社会价值,诸如减轻政府公共支出压力、调节贫富差距以及缓和社会矛盾等,已经得到了人们的广泛认可。20世纪90年代中期,迈克尔·波特教授将竞争优势理论运用于企业慈善行为分析,此后,越来越多的学者对企业慈善价值的认知由社会价值转向了其对企业自身的战略价值,慈善已成为获取道德、声誉、形象和文化资本等无形资源的关键途径。  虽然企业慈善行为通常被人们误解为对外捐赠,但实际上它可以分为外部慈善行
期刊