数据科学家应具备四项能力

来源 :中国计算机报 | 被引量 : 0次 | 上传用户:liongliong577
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  在业务场景中,经验 感觉的方式正逐渐被数字 事实的决策所取代。这对于企业雇主和从业者都是一个机遇。数据科学家需要以一个严谨、客观的心态去对待数据,探索数据,同时在工作中不断完善自己的能力和提高对数据的感觉。
  人人游戏高级数据科学家陈弢根据自己多年来在大数据领域的工作经验总结出数据科学家的主要工作内容:数据处理平台,包括公司的基础数据平台以及各个具体业务线的指标数据和日志数据平台的搭建;历史数据的分析挖掘,包括与各种产品线相关的业务分析、用户画像、用户行为分析、用户留存分析等,目的是让业务决策者对于现状有清晰、系统、完整的认识,从而辅助其做出下一步的决策;数据驱动的预测性分析,比如建立推荐模型,并利用模型对未来的情况进行预测。这部分工作是大数据挖掘工作中最有意义的部分,也是与产品线联系最紧密的部分。
  从统计思维到数据思维的突破
  数据科学家到底应该具备哪些基本的素质和能力呢?
  陈弢认为,数据科学家首先要具备科学家的基本素质,即客观、诚实和严谨。其次,数据科学家需要有数据库系统及数据管理的知识,以应对大量数据的导入和存储,同时必须掌握机器学习中的算法和模型处理预测性的需求。再次,相对于知识而言,理念上的突破对于数据科学家显得更为重要。很多数据科学家都具有深厚的统计学背景,而统计学的目标是从各种类型的数据中提取有价值的信息,但不强调对事物的洞察力(Insight),不强调深度的知识。所以,如何实现从固有的统计思维到数据思维的突破是一大挑战。最后,交流合作的能力也是数据科学家自身普遍需要解决的问题。这里说的交流不仅仅指数据科学家内部的知识分享、技能学习,更重要的是向业务人员、负责运营的同事、领域内的专家虚心请教和学习。分析人员不能仅醉心于技术,更要走进业务去“采风”,一方面普及数据挖掘的知识和它的作用,另一方面收集需求。
  对数据深度挖掘
  自2002年从北京大学数学院毕业之后,陈弢师从香港科技大学计算机系的张连文教授,研究机器学习的模型和算法。在与数据打交道的十年中,陈弢利用机器学习的各种模型,包括决策树、随机森林、贝叶斯网络、SVM等,处理过分类、聚类、相关性分析等数据挖掘问题。这些问题分别来源于中医、市场营销、计算广告学、社会学等不同领域。在工作过程中,陈弢逐渐熟悉了一些大数据收集、存储和管理的系统,成了名副其实的数据科学家。
  在人人游戏,陈弢主要从事的是数据的深度挖掘工作。一方面, Ader广告平台以每天500GB的速度收集了在上亿台移动设备上的各种类型广告的曝光、点击甚至转化数据。基于这些数据,陈弢利用预测性分析的算法,优化了广告投放,帮助整个平台提高点击和转化效率,同时通过多维度的定向投放来帮助广告主优化其投放效果。另一方面,人人游戏的玩家们在玩游戏的过程中会产生各种各样的行为。基于这些行为数据,陈弢所在的团队又尝试对用户按其行为分群,研究不同群体玩家的特性,从而为游戏玩法改进、虚拟物品定价等提供建议。
  数据科学家不是一个噱头
  数据科学家具备从大数据里掘金的能力,能对各行业的数据,包括医疗数据、移动设备数据、社交媒体流数据等进行预测,并给企业带来巨大的商业价值。陈弢认为,未来5年,数据科学家将出现供不应求的局面。
  数据科学家不是一个噱头。企业已经从大数据中开始赚钱了。比如Google通过提供免费的搜索服务来搜集网民的信息,然后根据意图推送广告。诸如此类的一系列商业模式的背后都蕴藏着数据科学家所擅长的预测、推荐等技术。在中国,互联网的巨头们是富数据企业,它们掌握了网民的意图数据、购物偏好数据和社交关系数据。众多数据科学家帮助这些数据成功落地,创造了巨大的价值。然而,数据科学家很难在其他数据匮乏的企业找到用武之地。
其他文献
“数据将成为一种战略性原料,每一个企业、科研团队和政府,都有责任有目的地搜集、处理、分析、索引数据。”电子科技大学互联网中心主任周涛号召企业投身大数据,对大数据怦然心动的企业也确实很多。但基于对全球95个国家、26个行业的1144名业务人员和IT专业人士的广泛调研,IBM发现,大多数企业都已经认识到‘大数据’改善决策流程和业务成效的潜能,但他们却不知道该如何入手。  的确,在主动或被动迎接大数据时
“从20世纪90代开始,凯斯就坚定地认为他在美国在线所创造的东西绝对不是在电脑上所做的事情譬如文字处理那么简单,而是一项伟大的事业,一项某一天能够和电话或电视一样普及的庞大的系统,”和曾任美国在线CEO的史蒂夫·凯斯一起工作过十多年的巴里·斯图勒说,“他内心深处的那个信念就像放射镭一样永远存在,一直推动他前进。”  “安上加速器,永不回头”  “在我们成长的过程中,我们哥俩既是亲密伙伴又是竞争对手
2013年第一季度,我国信息化发展总体形势良好。光纤宽带基础设施加速普及提升,智慧城市建设开展试点,“两化”融合区域性差距明显,电子政务进一步加强平台集中和顶层设计,移动互联网普及率大幅提高,信息技术应用创新热点频现,信息消费内需带动作用显著。  中国电子信息产业发展研究院副总工程师樊会文认为表示,当前我国信息化仍然面临一些突出问题,制约发展。第一,网络提速赶不上应用需求。第二,网络运营与增值服务
软件定义的数据中心(Software-Defined Data Center,SDDC)其实脱胎于软件定义的网络(SDN)这一概念。软件定义的数据中心,简单说就是虚拟化、软件化数据中心的一切资源,包括服务器、存储、网络、安全等。  数据中心的所有资源都应该变成一种IT服务提供给客户,而只有通过自动化的流程与软件方式才能提供这种IT服务。数据中心的发展将经历三个阶段:从物理环境到虚拟环境,再到云计算
刚刚过去的2012年是中国的“大数据元年”,是大数据概念为人所知、引人瞩目的一年,部分IT企业已经在此领域战略布局,发布各种形式的大数据产品。在互联网、零售、交通等行业,大数据应用也小试牛刀,展现出惊人的魅力。  大数据已经成为一种社会现象:它既是对既往信息技术发展至今的高度抽象和概括,同时抓住了信息技术服务于人、数据蕴藏价值的本质。大数据之“大”,不仅仅在于其容量之大——虽然数据容量的爆炸的确给
4月2日,2013英特尔存储媒体沟通会在北京召开,英特尔通信和存储基础设施事业部、存储事业部总经理Bev Crair和英特尔通信和存储基础设施事业部、平台应用工程存储部门存储技术专家Mike McGrath与到场媒体进行了交流,Bev Crair对目前热门的ARM问题和媒体交换看法,同时分享了英特尔存储在当前数据中心、云计算、大数据和移动信息化方面的应用。  处理数据方式改变  大数据被越来越多的
在视频行业里,内容独特性壁垒已被打破。这就像是不同的餐馆里,原材料的获取机会大家都有,顾客愿意去一家餐馆的原因是菜品味道和服务。而在视频行业,用户选择的决定性因素恰恰是播放体验。  用户数迅猛增长是酷6坚持UGC(用户创建内容)战略的初步回报。在完成内容聚合后,酷6开始思索如何用技术完善负载均衡、内容分发、资源管理和移动拓展,以提供更好的用户体验——这也是酷6将盛大创新院的技术型人才引进为最高管理
农产品电商、智能物流和互联网金融日益广泛地参与农业现代化建设,推动着基于互联网和农产品流通的复杂自组织系统运营,重构着融合时代的社会诚信体系。  —— 本报记者 张建设  这是同行起的标题,我拿来用用。  顾名思义,“褚橙”就是褚时健在哀牢山种的橙子,“柳桃”就是联想“务农”生产的桃子,而“潘苹果”则是指潘石屹代言甘肃苹果一事。除此之外,网易的丁磊养猪,京东的刘强东种水稻,还有东软与汇源合资经营有
人才管理软件及解决方案提供商北京北森测评技术有限公司(简称北森)近日获得来自经纬创投和红杉资本的1000万美元 B 轮融资,这是它继2010年获得A轮上千万元注资后的第二次融资。这在并不是投资热点的中国SaaS市场,并不多见。而从对北森首席执行官纪伟国的采访中,本报记者了解到,这次融资确是水到渠成。  获投资的两大原因  云计算发展风起云涌,已经迎来其黄金时期。纪伟国告诉记者,IDG、红杉资本等投
林建是个讲究管理方式方法的领导。团队不大,不到十个员工,林建对每位员工都比较了解。他觉得人都是愿意听表扬和赞美的,所以事事都是以表扬为先。这个方法也很奏效,团队氛围不错,大家工作也比较认真和努力。  赵辉是团队里的骨干,技术好。林建和他谈话的时候,赵辉对于表扬和赞美也不拒绝,只是最后总会问:有哪些地方做得不足?林建认为这是一种谦虚的表现,不以为意。但是,几次一对一谈话之后,林建突然意识到,这是赵辉