大数据:越大越有价值吗

来源 :读者 | 被引量 : 0次 | 上传用户:wupengzhi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
   大数据这两年一直是热词。发展中的大数据确实带来了很多有用信息,但是所谓大数据,并非越大越有价值。
  比如,在美国做一个1000人的抽样调查,这个调查若是在中国做,要达到同样的精度,需要抽取多少人?美国的人口是3.2亿人,中国的人口是美国的4倍多一点。每次我在大学做讲座问到这个问题时,只有10%的人能说出正确答案:仍需抽样1000人。绝大多数人认为,抽样数必须大于4000。
  为什么呢?最简单的比喻是:喝汤时,要确定汤的咸淡,大多数人只需要尝几口,并不需要把汤全部喝完。这个判断的准确性取决于这碗汤的均匀度。喝汤前把整碗汤搅拌一下,然后品尝几口,这就是我们所说的随机取样。无论是一小碗汤还是一大桶汤,只要搅拌均匀,尝几小口就够了。同样,去医院验血时,每个人不论是胖是瘦,小孩还是大人,医生都只会抽一点血就可以做出判断。这意味着抽样调查需要有一定的样本,但是一旦超过临界点后,和母体大小的关系是完全可以忽略的。也就是说,大数据再大,只要科学抽样,哪怕只有百分之零点零零几的均匀抽样,效果也可以比95%不均匀的数据好。
  所谓大数据,也不能光看绝对量,并非数据越多结果越可靠。以现在最热的个性化治疗为例。如果一种药对95%的人有效,但对我没有用,那这95%的数字对我而言便毫无意义。
  一个真实的例子是,在20世纪80年代,英国有一本杂志登了两种治疗肾结石的方法。文章摘要宣称方法A治疗肾结石,成功率是78%;用方案B的话,成功率是83%。在没有其他信息的情况下,任何人都会认为B方案的治療效果更好。但是仔细阅读那篇文章,你会发现当研究人员把病人分成大结石和小结石两组时,方案A比方案B在每组里的成功率都要高。
  (孙丽摘自《新一代》2015年第12期,全景视觉供图)
其他文献
本文针对传统温室系统中涉及到的偏远地区无法使用光纤、自建后台服务器成本高等问题作出讨论。文中基于云平台、单片机以及web软件设计了一种简洁、稳定、高效的水稻育苗智
现代中医文献学科的奠基人马继兴教授在其长期的中医古籍文献整理研究过程中,总结出了一套独特的治学方法。这些方法精当实用,足兹借鉴。故总结归纳其中的广集甄用、溯本求源
课堂上,设置巧妙的问题是师生进行信息和情感交流的重要途径,是激发孩子学习的兴趣、促进思维的有效手段。从改善教师的提问技术和提高幼儿的提问能力出发,我们在幼儿园语言
被称为"翻手为苍凉,覆手为繁华"的严歌苓是新移民文学的代表性作家,其小说以刚柔并济、极具美感的凝练语言、犀利多变的写作视角和叙事的艺术性为内在依托,具有极高的艺术审
一个世界级的企业,如果不学会以世界对抗世界,以全世界人才为我所用,必定会被淘汰,没有可能生存。不管你是在中国,还是在国外,竞争都是全球化的。这是民族企业的机遇和挑战。
辛亥革命时期,资产阶级革命派掀起了以实现男女平等,争取妇子参政为主要目标的女权运动,这是中国妇女解放史上的第一次高潮.孙中山则是中国妇女解放运动史上的一面光辉旗帜.
"大学精神"是大学在自身存在和发展过程中所形成的具有独特气质的精神文明成果,其实现的课程方式是通过通识教育。同样在现代教育理念中"中国化的实践过程"也是通过通识教育
近代中国,妇女缺乏教育往往被视为造成政治危机的根源,因此晚清文人志士多抨击儒学笼罩下的中国传统女性,认为使妇女接受教育是实现中华民族救亡图存的真谛。在这种情况下,梁
采用实证研究的方法,对泉州市现有的不动产测绘调查数据整合进行研究.结果表明,由于各不动产管理部门所采用的测绘调查标准不一致,以及不同历史时期的测绘调查方法和技术手段
宜居乡村规划是辽宁省根据2014年国务院发布的农村人居环境指导文件推出的省内乡村规划,与以往的新农村规划存在较大不同。研究两者的差异对开展今后的乡村规划具有重要意义