盲目冒进:机器学习的5个失败案例

来源 :计算机世界 | 被引量 : 0次 | 上传用户:ahfnhui
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  机器学习也可能会出现严重错误,让你后悔当初的冲动。
  机器学习是如此热门的一类技术,以至于太多的业务和技术主管们急于知道自己的部门怎样才能投身其中。如果做得好,机器学习能够帮助你创建更高效的销售和营销活动,改进财务模型,更容易发现欺诈行为,更好地对设备进行预测性维护,等等。
  但是机器学习也可能会出现严重错误,让你后悔当初的冲动。本文借鉴真实企业在机器学习上的实际经验,介绍机器学习可能出错的5种方式。他们公开了自己的经验教训,希望能帮助你不再重蹈覆辙。
  第1个教训:错误的假设会让机器学习出现偏差
  Projector PSA是一家设计和构建专业服务自动化软件的美国公司,帮助咨询公司经营其业务,该公司在试图使用机器学习来预测人员配置计划中的差异时,苦涩地吸取了这一教训。
  咨询公司的员工都是训练有素的专业顾问,希望能高效地发挥其人才优势,所以公司经常雇佣项目经理来评估并预测其项目的人员需求。
  然后,他们跟踪顾问在每个项目上花费的时间,按照时间为客户计费。如果公司采用专业服务自动化工具等单一系统来管理所有活动,则有一些明显的优点,例如能够将预测的时间与实际时间进行比较,从而知道不同的项目经理在规划的准确性方面做得怎么样。
  首席运营官Steve Chong介绍说,Projector PSA已经开始和一家客户开展了一项研究,该客户聘用了数百名项目经理。他们建立了模型,在规划期(方差)不断增加的情况下,比较了平均实际工作时间与预测工作时间之间的差异。还研究了在这几个月的过程中,项目经理们预测的一致性(差异性)。
  也就是说,如果在一周内预测值太高而下一周预测值太低(高差异性),那么Projector PSA想知道这些因素是否相互抵消,使得平均差异很小,或者方差很低。
  Chong说:“开始时认为低方差和低差异好,而高方差和高差异不好。”基于这一前提,Projector PSA让一种机器学习算法根据这些数据,使用公司项目经理的样本作为训练集,把项目经理分成不同的组,例如“囤积者”和“乐观者”。
  然后,公司让机器学习算法根据所学到的知识对其他的项目经理进行分类。结果发现,机器学习将一些经验最丰富、训练最有素的项目經理归类为最糟糕的违规者——因为他们具有很高的方差和差异性。
  Chong说:“事实上,这些项目经理是被公司指派参加那些已经处于困境的项目,希望他们能够控制好这些项目。”
  类似地,最初的机器学习算法对一个项目经理的评价很高,因为她几乎是零方差和零差异性。而实际上是,她向其部门发送了预测的工作时间,暗示他们会将这些时间报告为其实际的工作时间。Chong指出,这导致了她从来没有出现超出或者低于预算的情况,而这样做却实际上鼓励了她的团队以不利于大局的方式去开展工作。
  Chong解释说:“这些错误不是由机器学习算法本身造成的,而是由我们最初训练时所采用的假设造成的。还有一个原因是最初仅依赖于数据,而没有充分理解数据所代表的现实。”
  后来,该公司训练了其机器学习算法来识别这些新的配置文件,感觉它能更好地反映现实了。
  第2个教训:无监督式机器学习会出现意想不到的偏差
  虽然很多任务可以由机器学习来执行,但是在项目开始时没有考虑到某些情况,导致机器学习结果出错。巴西金融服务公司Mejor Trato就是这种情况,该公司的人力资源部门的数字化转型项目采用了机器学习技术。
  在该项目中,使用该公司内部开发的机器学习聊天机器人,让未来的新员工通过实时聊天和电话回答一系列问题。
  在初次使用聊天机器人时,出现了两个关键问题。一是发错了给求职者的个人资料/职业表格。另一个问题是,面试时间与人力资源部门会议时间相冲突,这意味着人力资源部门无法根据需要监督聊天机器人。
  首席技术官Cristian Rennella介绍说,在开始的几个星期里,人力资源部门必须派人监督每次谈话,以便在必要时纠正聊天机器人。她说:“我们犯了一个错误,以为一切都解决了,而没有去监督聊天机器人。教训是,一定至少要有几个月的时间全时监督聊天机器人。”
  由于没有对聊天机器人进行精确的调整,该公司判定所收集的数据中有大约10%是不正确的。
  Rennella介绍说:“机器学习在开始的时候能用于90%的答案,但是剩下的10%应该有人类进行监督以纠正算法。”随着时间的推移,90%这一比例会增长到高达99%,她说:“但我们不能停止关注可能出现的偏差,以及新出现的情况——当我们开始这个项目时,这些都是出乎意料的。”
  第3个教训:糟糕的数据标签会损害机器学习结果
  俄罗斯的两家联营公司Ashmanov Neural Networks和SOVA (Smart Open Virtual Assistant)为其商业客户开发了基于机器学习的产品。这包括视频分析、自然语言处理、信号处理和神经网络。
  同时担任两家公司首席执行官的Stanislav Ashmanov介绍说,两家公司在机器学习上遇到的最大问题之一是难以标注的糟糕的数据。Ashmanov说:“几乎不可能提供高质量的数据标签。通常,从事数据标记工作的人很草率,因为他们工作起来总是很匆忙。更重要的是,真的是很难让每个人都以同样的方式去理解怎样接替这些任务。”
  结果,数据包含了多个标记样本,例如图片中错误识别的轮廓,这严重影响了被训练的神经网络的表现。
  在短时间内收集大量数据也是很有挑战性的。Ashmanov说,数据收集可能需要几个月的时间。而且,从公开可用来源收集的数据,例如在互联网上找到的数据,并不能总是准确地反映现实。例如,在演播室或者实验室拍摄的图像与真实街景或者工厂生产车间得到的快照截然不同。结果,神经网络的性能会降低。   作为客户项目的一部分,当公司训练神经网络来识别网络上发布的自拍照中的眼镜时,便出现了这种出错的例子。他们从社交媒体上收集了一些照片,并对其进行标记。Ashmanov说,神经网络的表现很差,因为它把有黑眼圈的人误认为戴着眼镜。
  另一位客户提交了一个城市的两张卫星图像。任务是找出图像中的汽车,教会神经网络去识别它们,并计算它们的近似程度。这个例子的问题是,神经网络把建筑物屋顶的窗台识别为汽车,因为它们在外观上相似——小、矩形,并且大部分颜色是黑的。
  Ashmanov说:“这一切都归结于对边缘的仔细划分,创建启发式方法,以及改进初步数据处理和后处理证据检查等。”
  第4个教训:有细微差别的分类问题会让机器学习产生混淆
  Casepoint是为法律部门和其他市场提供电子发现技术的一家美国公司,体验到了机器学习的不完善之处。该公司采用机器学习进行文档分类和预测分析。通过使用该技术,法律部门能够显著减少对文档进行审查和分类所花费的时间。
  公司首席战略官David Carns说,使用机器学习对文档进行分类是有效的,但并非完美无缺。该公司发现的一个缺点是过分依赖于机器学习来解决有细微差别的微妙的分类问题。
  例如,在法律领域,机器学习文档分类器经常用于识别能够符合“生成文档请求”的文档。甲方要求提供有关某一主题或者内容的文档,乙方则使用机器学习文档分类器幫助筛选文档库,找到对应的文档。
  Carns说,这种方法效果非常好,律师们已经开始经常使用这种文件技术辅助审查(TAR)方法。他说,“如此的成功导致了盲目地使用机器学习文档分类器进行更精细和更细微的分类,例如找到受律师客户特权保护的文档。”
  尽管很容易使用机器学习来训练文档分类器以找到特权文档的内容,但是文档是否具有法律特权在很大程度上取决于文档的受众、机密性、接收时间以及与法律建议或者诉讼的关系。Carns说,大多数机器学习文档分类器不能对这些附加的情景线索进行详细的分类。
  Carns说,“这并不意味着机器学习文档分类器不能帮助对潜在的特权文档进行下拉选择和分类。但法律专业人士不应该仅仅依靠机器学习来确定特权。”他说,目前人类律师需要手动审查可能享有特权的文档,以便就法律特权是否适用作出最终裁决。
  第5个教训:测试/训练污染会让机器学习感到困惑
  美国自动化公司Indico多年来为客户提供企业人工智能和深度学习服务,一直困扰该公司最大的一个问题是机器学习测试和训练数据的污染。
  首席技术官Slater Victoroff介绍说,一名客户创建了模型来确定一条新闻是否会影响其股价。由于很难准确地确定影响时间,因此公司创建了一个模型来预测第二天的影响。
  Victoroff说:“他们没有意识到,自己忽略了确保清洁的测试/训练分类的数据科学基础。因此,他们在预测次日影响的任务上表现出接近100%的准确性,而实际上,该模型并不比随机预测好多少。”
  另一个例子来自关注其内部自然语言处理(NLP)系统的客户。该客户的某个部门多年来一直在为机器学习模型创建和更新特性,并且基于相同的搜索集来不断地测试它们。该部门也体验到了测试/训练污染的影响。Victoroff说:“只要你看到出现测试错误并改变算法以纠正测试错误时,你的数据就不再准确了。”
  在这个特殊案例中,人们没能很好地理解问题。在内部,该模型对于某一任务的准确率达到近100%的程度。Victoroff说:“但在实际中,这个系统几乎不起作用,因为它们无意中污染了自己的结果。任何企业在机器学习领域都会犯的最严重的错误就是测试/训练污染问题。”
其他文献
摘 要 市制是一种符合社会发展方向的高级区划制度,经历了复杂的发展过程。近代中国两次城乡划分以及市政府的成立标志着市制的确立,明确的界线是市辖区制度进一步完善的标志,市制确立以及完善并不是一帆风顺的,其中省市县勘界是最重要环节。  关键词 民国政府,市制,城乡划分,勘界  中图分类号 K25 文献标识码 A 文章编号 0457-6241(2019)12-0057-05  市制有广义和狭义之分:“广
[摘要]与全盛时期相比,中国传统的宗教——佛教和道教在明代虽然进入衰落时期,但是却呈现出另一种特征,就是宗教的世俗化倾向。从这个角度说,明代的宗教对民间世俗生活的影响比以往任何时候都更加全面、细致和深刻。这一影响充分地反映在明代民间日常生活中流露的宗教情结上,体现在明代宗教仪式、宗教场所职能的世俗化和宗教语言的生活化等方面。  [关键词]明代宗教,世俗生活,影响  [中图分类号]K24 B934
中国历史源远流长,流传下来了无数动人的历史故事与人物传说。特别是经过历代史家的历史书写、民间百姓的口头传说以及后世文人依据一定历史记忆所形成的历史想象,使得这些历史故事与人物传说变得更加具体,更加形象、深刻。三国时代刘备之孙夫人形象的历史流变即为此例。其最初是以一种没有被正史立传的模糊形象出现的,魏晋以后关于其成为蟂矶娘娘的历史传说逐渐流传并日渐放大。年深日久,由于史书的散佚、文人雅士的艺术创造等
美国非常注意培养中学生解决实际问题的能力,利用历史上的典型案例,通过历史教学来培养学生的决策能力。本文以美国的初中历史教科书《世界》和高中历史教科书《世界历史:与现在的关联》等为例,对此做些介绍,与大家共享。  《世界》在讲到冷战的内容时,利用肯尼迪总统应对古巴导弹危机这一案例,来培养学生解决复杂问题的决策能力。  1962年10月,美国的间谍飞机发现苏联正在古巴修建导弹基地。其距美国佛罗里达南部
【摘要】前资本主义时代游牧世界对农耕世界的三次大冲击的学说,是吴于廑先生“世界史发展纵横”理论的重要组成部分,这个理论不仅否定了长期以来影响巨大的“欧洲中心论”,而且以世界历史发展全局的观点,客观合理地说明了前资本主义时代世界历史的发展过程,弥补了马克思关于前资本主义时代人类历史横向联系的内容,是具有中国特色的世界史宏观理论。  【关键词】吴于廑,中国特色,世界史,理论  【中图分类号】K1 【文
关键词《森林帝国》,森林史学,森林文化  中图分类号 K24 文献标识码 B 文章编号 0457-6241(2018)18-0003-06  阎崇年教授论述清朝历史,冠以“森林”定语,名曰《森林帝国》(北京:三联书店,2018年),别开生面,成为一部具有创造性的学术著作。他的立意不限于阐明清代兴亡史,更在呼吁创建森林文化史学——要從森林文化视角解析中国历史,并且给出东北森林文化广被地区从先秦肃慎到
[摘 要]二战结束后初期,中国国内并没有即刻实现和平。在对华问题上,英国先是准备积极返华,企图恢复在华利益并重建战前英国在华优势地位。但是,由于遭受二战重创后英国实力的相对衰落,美国的刻意排斥,以及国民政府执行排英亲美政策等诸多的原因,最终使英国在返华的实践中遭受重挫。出于利益因素考虑,英国适时地调整其对华策略,主动接受在华屈居美国之后的配角地位,在对华政策上逐渐倾向于执行“不干涉”政策。马歇尔调
2007年高考文综全国卷I第13题为:  史学家陈寅恪在评述“武周之代李唐”的历史意义时说,此“不仅为政治之变迁,实亦社会之革命”。此处“社会之革命”是指  A.重用酷吏,实行法治  B.女皇当政,任用女官  C.扶植庶族,抑制士族  D.移风易俗,推崇佛教  客观地讲,对全国高考而言,这是一道设计非常新颖的材料选择题。陈寅恪是公认的史学大家,又以唐史研究成果最为丰硕,全国高考文综试题考查对他唐史
[关键词]“宋江投降谜案”,探究,研究方法  [中图分类号]G63 [文献标识码]B [文章编号]0457-6241(2008)09-0031-03    在学习人民版高中必修3“中国古典文学的时代特色”后,我设计了一堂材料讨论式探究课——“宋江投降谜案”,前后大约25分钟。  首先出示了第一组材料和问题:  材料一 《宋史·张叔夜传》:“宋江起河朔,转略十郡,官军莫敢撄其锋。声言将至,叔夜使间
摘 要:教学技能是师范生未来成为优秀教师的重要基础。“技—能—艺”,“教学设计、教学实施、教学评价、教学研究”构成“三层四位一体”的教学技能。而提高师范生“三层四位一体”的教学技能,扎实的专业知识是前提,教学实践是保障,其最终目标是促进教师的专业化发展。  关键词:师范生,教学技能,要素  中图分类号:G64 文献标识码:A 文章编号:0457-6241(2013)22-0067-06  2007