凭借大数据分析和数学模型准确预测美国大选希尔沃:数据书呆子的“屌丝逆袭”

来源 :科技生活 | 被引量 : 0次 | 上传用户:Orange_zz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  就其属性来说,政治分析不过是平平无奇的数据分析,希尔沃不过是综合已有的民调结果。然而,希尔沃建模分析的关键却在于如何衡量某一数据的重要性。
  他在2008年美国大选中曾准确预测了49个州的选举结果,而2012年的美国大选,他则准确预测了全部50个州的选举结果。34岁的内特·希尔沃凭着自己的数学模型打败了所有时政记者、政党媒体顾问和政治评论员。美国公众沸腾了,媒体称他为超级极客、“算法之神”,并认为其成功让所有书呆子扬眉吐气。
  准确预测美大选结果
  ??内特·希尔沃可以说是超级政治明星,他知道自己在说什么。在美国人看来,权威专家一直是拥有合适的发型、洁白的牙齿或者符合保守派观点的人。希尔沃完全不符合这些条件,他有的只是数据,许许多多的数据,而美国总统大选之夜证实了这些数据的准确性。
  ??投票前,许多评论家都认为无法预计哪方会获胜。他们预计本次选举,两名候选人的得票率将不相上下。但事实并非如此。结果证明罗姆尼和奥巴马完全不是旗鼓相当,正如希尔沃几个月来的预测。在大选日当天,他预测奥巴马将有90.9%的可能获得大半选举人投票,如果按州计算,他准确预测了所有州的选举结果。
  ??“你们知道谁是今晚(选举开票夜)的赢家吗?”美国微软全国广播公司节目新闻主播自问自答,“是内特·希尔沃。”
  “算法之神”受到狂热追捧
  推特瞬间沸腾了,各大博客网站也为希尔沃沸腾了。希尔沃的处女作——《信号和噪音:预测学的艺术与科学》销量一夜间增长800%,排到了畅销榜第二位。媒体一致认为本次大选预测的成功并不只是希尔沃个人的胜利,它还使所有书呆子都扬眉吐气。希尔沃凭他的数学模型打败了所有时政记者、政党媒体顾问和政治评论员。
  希尔沃谦逊而不招摇,当他低着头拖着步子走进屋里,他似乎对自己被采访而感到尴尬。“整个事情变得有点疯狂,”他说。但他并不认为这种狂热与他有关,“我仿佛具有这种象征性力量,然而人们对我所做事情的推崇远超了我所应得的。我必须首先说明大家应该知道兼听则明,而不是把某个人的意见当成神谕。”
  然而,这忠告似乎来得有点晚了。大选后的第二天当他出现在《每日秀》脱口秀节目时,节目主持人乔恩·斯图尔特称他为“算法之神”,但他的成功故事同时也是个“屌丝逆袭”的故事。
  选举前的数周,他的批评者们(大多数是不满他预测奥巴马将获胜的保守派们)不仅攻击了他的预测方法,还对他进行了人身攻击。UnSkewedPolls.com的迪安·钱伯斯召集人们抵制希尔沃的“巫术数据”,宣称他神志不清并嘲讽他是个矮小瘦弱的娘娘腔。
  不过从某些角度来说,人们的奉承似乎更难以应付。“奉承的话让我感到紧张,因为我确定我们将会出错。”这里的“我们”指的是他在2007年设立的提供以数据为主的时政分析的博客“FiveThirtyEight”(因538张选举人票总数得名)。
  用数学模型分析棒球
  希尔沃一直是数据的爱好者。“我一直都被人称作书呆子。”他出生于在密歇根州,家乡的棒球队底特律猛虎在他6岁的时候赢得了美国职业棒球全国锦标赛的冠军,而他也是在那个时候接触了各种统计数据并爱上了数据。
  从芝加哥大学获得经济学学位后,他在专门提供审计、税务和咨询等服务的毕马威公司当了4年顾问,接着,他开始迷上了网络扑克。那时候许多玩网络扑克的人对扑克并没有很多了解,而他却能从他们手中赢钱,这些钱足够让他辞掉工作靠玩扑克养活自己。
  扑克就像希尔沃生命中的天然磁石,不仅教会了他抓住机遇,还使他明白机遇在人生中扮演怎样的角色。“玩扑克对我而言是最好的训练,我从中学会了怎样衡量新信息的作用,怎样辨别信息的重要性。我们的直觉在分析信息方面并不是十分在行,我们总是倾向于高估新信息的重要性。”
  希尔沃说:“技巧和运气间存在着微妙而又模糊的关联。赢钱的时候是因为牌技好还是运气好?你永远也不知道。”希尔沃估算他自己当时从网络赌博中赢了有大概40万美元,这些钱足够他去追求他另一项爱好——棒球。棒球这项体育运动正在不断地改变中,而希尔沃是最早发现这项运动有数据导向潜在可能性的少数人之一。他后来建立了Pecota网站,该网站建模分析预测美国职业棒球大联盟运动员的职业前景,后来他又把该网站卖给了《棒球简介》。
  棒球预测就像一场保守的情报员与善于分析数据的新成员之间的斗争,这场斗争后来被迈克尔·路易斯在畅销书《点球成金》中记录了下来,后来布拉德·皮特主演了同名电影。2007年,希尔沃开始寻找新的契机。
  信息多不意味更好地预测
  “我当时在寻找像棒球分析那样的、有庞大的数据库而且鲜有竞争者的新领域,就在那个时候我找到了政治这个领域。”起初,他使用笔名“Poblano”。几个月后,他开始使用真名。
  希尔沃觉得自己当时将已有的数据套用贝叶斯理论,如此一来他将“小有优势”。美国政治领域原本就充斥着许多数据,而他所使用的贝叶斯理论也不是什么尖端科技。英国神父贝叶斯于18世纪初发现了计算有条件的事件发生可能性的贝叶斯理论。
  希尔沃后来表示同意批评者的观点。他甚至不是唯一一个使用贝叶斯理论分析选情的人,其他分析师也同样有不错的准确度。就其属性来说,政治分析不过是平平无奇的数据分析,希尔沃不过是综合已有的民调结果。然而,希尔沃建模分析的关键却在于如何衡量某一数据的重要性。这些数据在历史上有何作用,又有怎样的偏向性,还有什么别的信息可以借鉴?
  “如果你表现良好,偶尔会得到独家消息,但这不过是许多既得利益间的游戏。我尽量回避和两边的竞选团队打交道,因为他们所给的信息大都是干扰性的噪音。”
  希尔沃正在寻找下一个目标——一个拥有许多数据却没有太多竞争对手的领域。他认为经济新闻是一个不错的选择,而地方政府选举则是“难以预测”。   希尔沃在成功预测了2008年美国大选结果后签下了一份价值70万美元的出版合约。但当时没有人能料到他会有多大的成就。不过,当时就连希尔沃自己也不知道这本书会有什么样的反响。
  “我当时以为这本书会像是介绍婚介网站那样运作之类的书籍。这本书的确也提到了这些内容,但是更多的是介绍这当中的哲学原理。这本书是关于客观性和现实的主观性的交集。面对一堆数据时,我们经常处理得很糟糕。拥有更多信息并不意味着我们能更好地预测。”
  文/摘自《南方都市报》
  拿数据模型预测未来有多准?
  大卫·罗斯切尔德(David Rothschild)
  微软研究院计算机专家
  不只是大选这样的政治领域,数学模型预测的范围十分宽广。应该说,只要是有因果关系、有规律的行业都可以进行预测。比如股票,如今已经有通过数学模型预测某只股票涨跌,来进行推荐。当然彩票不行,因为它是随机的。
  在今年第85届奥斯卡奖揭晓之前,我开发了一款名为“奥斯卡预测器”的数学模型,它是Excel形式的,通过对奥斯卡入围影片相关数据的分析,预测最终奖项属谁。与预测总统选举结果相比,有人认为预测奥斯卡奖比大选容易得多,因为后者涉及上亿张选票,而奥斯卡评委人员仅几千。其实预测奥斯卡奖的方法和预测其他事情是完全一致的。技术是相同的,而数据预测所需要的有效信息却各有各的不同。
  在我的预测中,最佳影片是《逃离德黑兰》,它的获奖概率是93.6%,而最佳导演是史蒂芬·斯皮尔伯格,最佳男演员是丹尼尔·刘易斯,最佳女演员是詹妮弗·劳伦斯。
  德鲁·林策(Drew Linzer)
  埃默里(Emory)大学政治科学系助理教授
  不仅希尔沃,在美国大选之前很多统计学者和分析师都加入了预测的队伍,我也是如此。我开了一个名叫Votamatic的网站,在总统选举阶段我都在网站上发布预测信息。从去年六月开始,我建立的数学模型就一直以95%的确定性显示奥巴马获胜。
  我的模型与希尔沃的很不一样。事实上,由于人们思维方式的差异,虽然使用的算法可能都是神经网络或贝叶斯等,但是算法组合形成的模型会很不同,有时结果也相距甚远。我的模型主要使用了三个因素:一个是去年前几个月的GDP增长率,这些信息来自经济分析局,是公开的,政府每年都会更新。二是现任总统的支持率,来自民意调查,也是公开的。最后一个是总统党派的执政届数,这个数据主要体现选民对执政党的厌倦程度,每个人都能算出来。把这三项公开有效的数据结合起来,就能得到选举结果的预测。结果证明,我的预测很准确。
  刘国清
  北京集奥聚合公司首席技术官
  在数学模型预测中,除了科学家建立模型的质量至关重要之外,获取数据的质量和数量也对预测结果有决定性影响。美国大选预测中,有两个数据源:线上和线下。前者以脸书等社交网络为主。而后者则需要很大的数据采集团队,既要做民调,又要让民主党、共和党在各前期社区的代表进行前期本地民意预测。据悉,仅在俄亥俄一州,就有近3万人进行了民调。无疑,这在一般行业、一般性预测中是很难实现的。
  一直以来,制约数据模型预测的最大因素就是数据源的获取,如何得到大样本的有效数据是个大问题。随着互联网的发展,大数据时代已经到来,数据获取问题得到了很好的解决。不过,互联网发展已经有很多年了,为什么前些年数据模型预测困难呢?很大程度上,前些年的互联网应用更关注信息传递,而现在,如此大规模的信息,使得分析人士开始思考哪些信息能提炼出对本行业有用的预测,数学模型预测开始兴起。
  史宁中
  东北师范大学数学与统计学院教授
  数学模型预测的重要技术是概率统计学。对于统计学而言,重要的不是画统计图、求平均数等技能的学习,而是发展数据分析观念。应该说,统计学是数据分析的科学和艺术。在这个大数据时代,数据的概念也在不断扩充。事实上,现在的数据不仅仅是数字,图是数据、语句也是数据。比如,人们在网上经常用百度、谷歌来进行检索,百度、谷歌是用统计的方法来进行语句检索,此时统计处理的是语句,我们把这些都叫做数据。
  在去年美国总统大选中,数学模型预测的实质就是通过社会舆论,获得对民主党、共和党候选人的评价,它与以往最大的不同点就是用数字形式来衡量民意。然而,民意是通过语言表达的,并非数字形式,这就需要将语意量化为数字,再将这个数字通过概率统计、代数模型、离散数学等方法来衡量民意,以此来支持决策,对未来投入有所预期。
其他文献
对于孩子们“不靠谱”的行径,“催”成了父母最常用的武器,而孩子们为了维护自己的面子会采取防御性态度,回避直面问题,父母的催促会很快激发他们的负面情绪。  每到春节亲朋好友相聚时,80后、90后的话题焦点总是离不开“催”。不结婚、不生孩子……对于孩子们这些“不靠谱”的行径,“催”便成了父母最常用的武器。可这却会让孩子产生逆反心理。于是乎,“悲催”的80后无奈调侃自己成为“被催一族”,彼此相遇还会问上
期刊
严厉打击私自回收、政府补贴和监管不到位以及养殖数量趋于饱和,这些都是导致当地死猪乱扔的主要原因。  嘉兴市平湖镇,一个骑着摩托车的妇女在骑经路边一堆废墟时,随手扔出一头死猪,好像不过是随手丢出一个可乐罐。  最近距离这里100多公里的上海黄浦江漂流上千头死猪,让上游的嘉兴等地卷入舆论漩涡。《科技生活》周刊记者走访嘉兴的养殖户发现,虽然最近当地未发生口蹄疫、蓝耳病等常见生猪传染病,但是由于缺少统一规
期刊
“电影特效不仅是技术,还是一种思维模式,一种工作方法,是与电影情节融合在一起的表现手段。”  周星驰总是跟《西游记》过不去。18年前,他制作和主演的《大话西游》曾是人们茶余饭后的话题,而今年2月10日,他制作的《西游降魔篇》公映,并以三天票房突破2.2亿元的成绩,再次刷新华语片票房纪录。  其实,《西游降魔篇》的剧情一句话就说清楚了:驱魔人陈玄奘在赏金驱魔人段小姐帮助下先后制伏了鱼妖、猪妖和猴妖,
期刊
有人把它比作当代珍妮纺纱机,有人认为它会带来第三次工业革命,对生活的影响甚至会超越互联网。它打印出了房屋、模型,未来也许是器官、食品……但目前看,它或许只是工业设计的利器和个人用户的玩物。  “3D打印”这一词语在今年刚出现的时候,它只被很多人当做奇闻异事而已。但随着打印楼房、汽车甚至肾脏的新闻出现,它开始被各路媒体连篇累牍地报道。有关它的各路消息也越来越多,不知是3D打印在这一年确实发展神速,还
期刊
(美)斯蒂芬妮·玛隆 著  于娟娟 译  华夏出版社  [作者简介]  斯蒂芬妮·玛隆,精神能量治疗师,至今已出版多部自然疗法、精神能量治疗方面的作品。她从小即表现出与动物沟通的惊人天赋。  [桥段]  夏洛特去世那一夜之后,我就没有看到过奇迹待在谷仓的畜舍里,也没有看到过他卧下。他看起来越来越虚弱,所以我一直跟在他附近。我想,也许今天就是他要离开的日子,因为他的目光不再那么清醒警觉了……我看得出
期刊
去年的2月25日凌晨,陪伴我两年的小仓鼠独自走完了生命旅程。我不敢盯着它僵冷的身体,瞪大的黑眼睛空洞洞的,呼吸间隔越来越长,我无法胜任陪它走过最后一程。一夜全是心痛难过,我知道它躺在小窝里正在离开这世间。  这本《动物教我的爱和疗愈的事》令我再一次心碎。如果时光倒流,我定不会把小鼠蜷紧的小身体放在手心里抚摸伸展开,也不会把它身下有它涂抹了最后气味的木屑换掉,这些全都是错的,是我的一厢情愿,以为照料
期刊
“4月21日、4月26日、5月1日、5月3日,父母、弟弟、妹夫在10年前的那场非典中,都离开了。”北京市望京医院住院部骨关节三科的一间病房里,坐在病床上的56岁非典后遗症患者李桂菊的眼泪在眼眶里打了个圈儿,陷入了痛苦的回忆中。  北京望京医院是非公感染非典的病人治疗后遗症的定点医院之一,10年来,被北京市有关部门确定的152位非公后遗症患者一直在这里接受治疗,其中,需长期接受治疗的患者达五六十人,
期刊
经济学家说,人是绝对理性的,人既不会感情用事, 也不会盲从,而是精于判断和计算。管理学家说,人是有限理性的,正是因为人们容易感情用事,所以才需要那些如“凡事三思而后行”等处事名言的提醒。  到底人是绝对理性还是有限理性呢,那么,就跟着北京工商大学心理教研室副教授陈红敏,走近心理账户,一探究竟。什么是心理账户?陈红敏给了两个测试让被试者选择。测试1,今天晚上您打算去听一场音乐会,票价是200元。在您
期刊
今年2月,美国网络安全公司曼迪昂特发布了一份“中国军方黑客报告”。在这份文件里,曼迪昂特宣称“中国军方参与了黑客攻击”,并宣称上海某地是“中国军方黑客的大本营”。但在研究网络信息安全的专业人士看来,这份报告可谓漏洞百出。比如,报告仅凭网络攻击者的IP地址,就得出了“攻击源头来自中国”这个不成熟的结论。然而,专业黑客不会直接用自己的电脑发起攻击,而通常是通过制造“跳板”的方式,也就是首先入侵、控制第
期刊
进行封闭式地下核试验,由于核裂变而泄漏的环境辐射污染较小,即使设备等发生故障有少量放射性物质逸出,大致估算,也仅为地上核试验的十万分之一。  2月12日,朝鲜对外宣布成功进行了第三次地下核试验,这次爆炸的核弹头造成的地震级数达到5.1级。韩国国防部随后确认,其爆炸估计为6000吨至7000吨梯恩梯炸药当量。一时之间,举世皆惊。  地下核试验不能完全替代地上核试验  谈到核试验,我们首先想到的是爆炸
期刊