论文部分内容阅读
机器学习也可能会出现严重错误,让你后悔当初的冲动。
机器学习是如此热门的一类技术,以至于太多的业务和技术主管们急于知道自己的部门怎样才能投身其中。如果做得好,机器学习能够帮助你创建更高效的销售和营销活动,改进财务模型,更容易发现欺诈行为,更好地对设备进行预测性维护,等等。
但是机器学习也可能会出现严重错误,让你后悔当初的冲动。本文借鉴真实企业在机器学习上的实际经验,介绍机器学习可能出错的5种方式。他们公开了自己的经验教训,希望能帮助你不再重蹈覆辙。
第1个教训:错误的假设会让机器学习出现偏差
Projector PSA是一家设计和构建专业服务自动化软件的美国公司,帮助咨询公司经营其业务,该公司在试图使用机器学习来预测人员配置计划中的差异时,苦涩地吸取了这一教训。
咨询公司的员工都是训练有素的专业顾问,希望能高效地发挥其人才优势,所以公司经常雇佣项目经理来评估并预测其项目的人员需求。
然后,他们跟踪顾问在每个项目上花费的时间,按照时间为客户计费。如果公司采用专业服务自动化工具等单一系统来管理所有活动,则有一些明显的优点,例如能够将预测的时间与实际时间进行比较,从而知道不同的项目经理在规划的准确性方面做得怎么样。
首席运营官Steve Chong介绍说,Projector PSA已经开始和一家客户开展了一项研究,该客户聘用了数百名项目经理。他们建立了模型,在规划期(方差)不断增加的情况下,比较了平均实际工作时间与预测工作时间之间的差异。还研究了在这几个月的过程中,项目经理们预测的一致性(差异性)。
也就是说,如果在一周内预测值太高而下一周预测值太低(高差异性),那么Projector PSA想知道这些因素是否相互抵消,使得平均差异很小,或者方差很低。
Chong说:“开始时认为低方差和低差异好,而高方差和高差异不好。”基于这一前提,Projector PSA让一种机器学习算法根据这些数据,使用公司项目经理的样本作为训练集,把项目经理分成不同的组,例如“囤积者”和“乐观者”。
然后,公司让机器学习算法根据所学到的知识对其他的项目经理进行分类。结果发现,机器学习将一些经验最丰富、训练最有素的项目經理归类为最糟糕的违规者——因为他们具有很高的方差和差异性。
Chong说:“事实上,这些项目经理是被公司指派参加那些已经处于困境的项目,希望他们能够控制好这些项目。”
类似地,最初的机器学习算法对一个项目经理的评价很高,因为她几乎是零方差和零差异性。而实际上是,她向其部门发送了预测的工作时间,暗示他们会将这些时间报告为其实际的工作时间。Chong指出,这导致了她从来没有出现超出或者低于预算的情况,而这样做却实际上鼓励了她的团队以不利于大局的方式去开展工作。
Chong解释说:“这些错误不是由机器学习算法本身造成的,而是由我们最初训练时所采用的假设造成的。还有一个原因是最初仅依赖于数据,而没有充分理解数据所代表的现实。”
后来,该公司训练了其机器学习算法来识别这些新的配置文件,感觉它能更好地反映现实了。
第2个教训:无监督式机器学习会出现意想不到的偏差
虽然很多任务可以由机器学习来执行,但是在项目开始时没有考虑到某些情况,导致机器学习结果出错。巴西金融服务公司Mejor Trato就是这种情况,该公司的人力资源部门的数字化转型项目采用了机器学习技术。
在该项目中,使用该公司内部开发的机器学习聊天机器人,让未来的新员工通过实时聊天和电话回答一系列问题。
在初次使用聊天机器人时,出现了两个关键问题。一是发错了给求职者的个人资料/职业表格。另一个问题是,面试时间与人力资源部门会议时间相冲突,这意味着人力资源部门无法根据需要监督聊天机器人。
首席技术官Cristian Rennella介绍说,在开始的几个星期里,人力资源部门必须派人监督每次谈话,以便在必要时纠正聊天机器人。她说:“我们犯了一个错误,以为一切都解决了,而没有去监督聊天机器人。教训是,一定至少要有几个月的时间全时监督聊天机器人。”
由于没有对聊天机器人进行精确的调整,该公司判定所收集的数据中有大约10%是不正确的。
Rennella介绍说:“机器学习在开始的时候能用于90%的答案,但是剩下的10%应该有人类进行监督以纠正算法。”随着时间的推移,90%这一比例会增长到高达99%,她说:“但我们不能停止关注可能出现的偏差,以及新出现的情况——当我们开始这个项目时,这些都是出乎意料的。”
第3个教训:糟糕的数据标签会损害机器学习结果
俄罗斯的两家联营公司Ashmanov Neural Networks和SOVA (Smart Open Virtual Assistant)为其商业客户开发了基于机器学习的产品。这包括视频分析、自然语言处理、信号处理和神经网络。
同时担任两家公司首席执行官的Stanislav Ashmanov介绍说,两家公司在机器学习上遇到的最大问题之一是难以标注的糟糕的数据。Ashmanov说:“几乎不可能提供高质量的数据标签。通常,从事数据标记工作的人很草率,因为他们工作起来总是很匆忙。更重要的是,真的是很难让每个人都以同样的方式去理解怎样接替这些任务。”
结果,数据包含了多个标记样本,例如图片中错误识别的轮廓,这严重影响了被训练的神经网络的表现。
在短时间内收集大量数据也是很有挑战性的。Ashmanov说,数据收集可能需要几个月的时间。而且,从公开可用来源收集的数据,例如在互联网上找到的数据,并不能总是准确地反映现实。例如,在演播室或者实验室拍摄的图像与真实街景或者工厂生产车间得到的快照截然不同。结果,神经网络的性能会降低。 作为客户项目的一部分,当公司训练神经网络来识别网络上发布的自拍照中的眼镜时,便出现了这种出错的例子。他们从社交媒体上收集了一些照片,并对其进行标记。Ashmanov说,神经网络的表现很差,因为它把有黑眼圈的人误认为戴着眼镜。
另一位客户提交了一个城市的两张卫星图像。任务是找出图像中的汽车,教会神经网络去识别它们,并计算它们的近似程度。这个例子的问题是,神经网络把建筑物屋顶的窗台识别为汽车,因为它们在外观上相似——小、矩形,并且大部分颜色是黑的。
Ashmanov说:“这一切都归结于对边缘的仔细划分,创建启发式方法,以及改进初步数据处理和后处理证据检查等。”
第4个教训:有细微差别的分类问题会让机器学习产生混淆
Casepoint是为法律部门和其他市场提供电子发现技术的一家美国公司,体验到了机器学习的不完善之处。该公司采用机器学习进行文档分类和预测分析。通过使用该技术,法律部门能够显著减少对文档进行审查和分类所花费的时间。
公司首席战略官David Carns说,使用机器学习对文档进行分类是有效的,但并非完美无缺。该公司发现的一个缺点是过分依赖于机器学习来解决有细微差别的微妙的分类问题。
例如,在法律领域,机器学习文档分类器经常用于识别能够符合“生成文档请求”的文档。甲方要求提供有关某一主题或者内容的文档,乙方则使用机器学习文档分类器幫助筛选文档库,找到对应的文档。
Carns说,这种方法效果非常好,律师们已经开始经常使用这种文件技术辅助审查(TAR)方法。他说,“如此的成功导致了盲目地使用机器学习文档分类器进行更精细和更细微的分类,例如找到受律师客户特权保护的文档。”
尽管很容易使用机器学习来训练文档分类器以找到特权文档的内容,但是文档是否具有法律特权在很大程度上取决于文档的受众、机密性、接收时间以及与法律建议或者诉讼的关系。Carns说,大多数机器学习文档分类器不能对这些附加的情景线索进行详细的分类。
Carns说,“这并不意味着机器学习文档分类器不能帮助对潜在的特权文档进行下拉选择和分类。但法律专业人士不应该仅仅依靠机器学习来确定特权。”他说,目前人类律师需要手动审查可能享有特权的文档,以便就法律特权是否适用作出最终裁决。
第5个教训:测试/训练污染会让机器学习感到困惑
美国自动化公司Indico多年来为客户提供企业人工智能和深度学习服务,一直困扰该公司最大的一个问题是机器学习测试和训练数据的污染。
首席技术官Slater Victoroff介绍说,一名客户创建了模型来确定一条新闻是否会影响其股价。由于很难准确地确定影响时间,因此公司创建了一个模型来预测第二天的影响。
Victoroff说:“他们没有意识到,自己忽略了确保清洁的测试/训练分类的数据科学基础。因此,他们在预测次日影响的任务上表现出接近100%的准确性,而实际上,该模型并不比随机预测好多少。”
另一个例子来自关注其内部自然语言处理(NLP)系统的客户。该客户的某个部门多年来一直在为机器学习模型创建和更新特性,并且基于相同的搜索集来不断地测试它们。该部门也体验到了测试/训练污染的影响。Victoroff说:“只要你看到出现测试错误并改变算法以纠正测试错误时,你的数据就不再准确了。”
在这个特殊案例中,人们没能很好地理解问题。在内部,该模型对于某一任务的准确率达到近100%的程度。Victoroff说:“但在实际中,这个系统几乎不起作用,因为它们无意中污染了自己的结果。任何企业在机器学习领域都会犯的最严重的错误就是测试/训练污染问题。”
机器学习是如此热门的一类技术,以至于太多的业务和技术主管们急于知道自己的部门怎样才能投身其中。如果做得好,机器学习能够帮助你创建更高效的销售和营销活动,改进财务模型,更容易发现欺诈行为,更好地对设备进行预测性维护,等等。
但是机器学习也可能会出现严重错误,让你后悔当初的冲动。本文借鉴真实企业在机器学习上的实际经验,介绍机器学习可能出错的5种方式。他们公开了自己的经验教训,希望能帮助你不再重蹈覆辙。
第1个教训:错误的假设会让机器学习出现偏差
Projector PSA是一家设计和构建专业服务自动化软件的美国公司,帮助咨询公司经营其业务,该公司在试图使用机器学习来预测人员配置计划中的差异时,苦涩地吸取了这一教训。
咨询公司的员工都是训练有素的专业顾问,希望能高效地发挥其人才优势,所以公司经常雇佣项目经理来评估并预测其项目的人员需求。
然后,他们跟踪顾问在每个项目上花费的时间,按照时间为客户计费。如果公司采用专业服务自动化工具等单一系统来管理所有活动,则有一些明显的优点,例如能够将预测的时间与实际时间进行比较,从而知道不同的项目经理在规划的准确性方面做得怎么样。
首席运营官Steve Chong介绍说,Projector PSA已经开始和一家客户开展了一项研究,该客户聘用了数百名项目经理。他们建立了模型,在规划期(方差)不断增加的情况下,比较了平均实际工作时间与预测工作时间之间的差异。还研究了在这几个月的过程中,项目经理们预测的一致性(差异性)。
也就是说,如果在一周内预测值太高而下一周预测值太低(高差异性),那么Projector PSA想知道这些因素是否相互抵消,使得平均差异很小,或者方差很低。
Chong说:“开始时认为低方差和低差异好,而高方差和高差异不好。”基于这一前提,Projector PSA让一种机器学习算法根据这些数据,使用公司项目经理的样本作为训练集,把项目经理分成不同的组,例如“囤积者”和“乐观者”。
然后,公司让机器学习算法根据所学到的知识对其他的项目经理进行分类。结果发现,机器学习将一些经验最丰富、训练最有素的项目經理归类为最糟糕的违规者——因为他们具有很高的方差和差异性。
Chong说:“事实上,这些项目经理是被公司指派参加那些已经处于困境的项目,希望他们能够控制好这些项目。”
类似地,最初的机器学习算法对一个项目经理的评价很高,因为她几乎是零方差和零差异性。而实际上是,她向其部门发送了预测的工作时间,暗示他们会将这些时间报告为其实际的工作时间。Chong指出,这导致了她从来没有出现超出或者低于预算的情况,而这样做却实际上鼓励了她的团队以不利于大局的方式去开展工作。
Chong解释说:“这些错误不是由机器学习算法本身造成的,而是由我们最初训练时所采用的假设造成的。还有一个原因是最初仅依赖于数据,而没有充分理解数据所代表的现实。”
后来,该公司训练了其机器学习算法来识别这些新的配置文件,感觉它能更好地反映现实了。
第2个教训:无监督式机器学习会出现意想不到的偏差
虽然很多任务可以由机器学习来执行,但是在项目开始时没有考虑到某些情况,导致机器学习结果出错。巴西金融服务公司Mejor Trato就是这种情况,该公司的人力资源部门的数字化转型项目采用了机器学习技术。
在该项目中,使用该公司内部开发的机器学习聊天机器人,让未来的新员工通过实时聊天和电话回答一系列问题。
在初次使用聊天机器人时,出现了两个关键问题。一是发错了给求职者的个人资料/职业表格。另一个问题是,面试时间与人力资源部门会议时间相冲突,这意味着人力资源部门无法根据需要监督聊天机器人。
首席技术官Cristian Rennella介绍说,在开始的几个星期里,人力资源部门必须派人监督每次谈话,以便在必要时纠正聊天机器人。她说:“我们犯了一个错误,以为一切都解决了,而没有去监督聊天机器人。教训是,一定至少要有几个月的时间全时监督聊天机器人。”
由于没有对聊天机器人进行精确的调整,该公司判定所收集的数据中有大约10%是不正确的。
Rennella介绍说:“机器学习在开始的时候能用于90%的答案,但是剩下的10%应该有人类进行监督以纠正算法。”随着时间的推移,90%这一比例会增长到高达99%,她说:“但我们不能停止关注可能出现的偏差,以及新出现的情况——当我们开始这个项目时,这些都是出乎意料的。”
第3个教训:糟糕的数据标签会损害机器学习结果
俄罗斯的两家联营公司Ashmanov Neural Networks和SOVA (Smart Open Virtual Assistant)为其商业客户开发了基于机器学习的产品。这包括视频分析、自然语言处理、信号处理和神经网络。
同时担任两家公司首席执行官的Stanislav Ashmanov介绍说,两家公司在机器学习上遇到的最大问题之一是难以标注的糟糕的数据。Ashmanov说:“几乎不可能提供高质量的数据标签。通常,从事数据标记工作的人很草率,因为他们工作起来总是很匆忙。更重要的是,真的是很难让每个人都以同样的方式去理解怎样接替这些任务。”
结果,数据包含了多个标记样本,例如图片中错误识别的轮廓,这严重影响了被训练的神经网络的表现。
在短时间内收集大量数据也是很有挑战性的。Ashmanov说,数据收集可能需要几个月的时间。而且,从公开可用来源收集的数据,例如在互联网上找到的数据,并不能总是准确地反映现实。例如,在演播室或者实验室拍摄的图像与真实街景或者工厂生产车间得到的快照截然不同。结果,神经网络的性能会降低。 作为客户项目的一部分,当公司训练神经网络来识别网络上发布的自拍照中的眼镜时,便出现了这种出错的例子。他们从社交媒体上收集了一些照片,并对其进行标记。Ashmanov说,神经网络的表现很差,因为它把有黑眼圈的人误认为戴着眼镜。
另一位客户提交了一个城市的两张卫星图像。任务是找出图像中的汽车,教会神经网络去识别它们,并计算它们的近似程度。这个例子的问题是,神经网络把建筑物屋顶的窗台识别为汽车,因为它们在外观上相似——小、矩形,并且大部分颜色是黑的。
Ashmanov说:“这一切都归结于对边缘的仔细划分,创建启发式方法,以及改进初步数据处理和后处理证据检查等。”
第4个教训:有细微差别的分类问题会让机器学习产生混淆
Casepoint是为法律部门和其他市场提供电子发现技术的一家美国公司,体验到了机器学习的不完善之处。该公司采用机器学习进行文档分类和预测分析。通过使用该技术,法律部门能够显著减少对文档进行审查和分类所花费的时间。
公司首席战略官David Carns说,使用机器学习对文档进行分类是有效的,但并非完美无缺。该公司发现的一个缺点是过分依赖于机器学习来解决有细微差别的微妙的分类问题。
例如,在法律领域,机器学习文档分类器经常用于识别能够符合“生成文档请求”的文档。甲方要求提供有关某一主题或者内容的文档,乙方则使用机器学习文档分类器幫助筛选文档库,找到对应的文档。
Carns说,这种方法效果非常好,律师们已经开始经常使用这种文件技术辅助审查(TAR)方法。他说,“如此的成功导致了盲目地使用机器学习文档分类器进行更精细和更细微的分类,例如找到受律师客户特权保护的文档。”
尽管很容易使用机器学习来训练文档分类器以找到特权文档的内容,但是文档是否具有法律特权在很大程度上取决于文档的受众、机密性、接收时间以及与法律建议或者诉讼的关系。Carns说,大多数机器学习文档分类器不能对这些附加的情景线索进行详细的分类。
Carns说,“这并不意味着机器学习文档分类器不能帮助对潜在的特权文档进行下拉选择和分类。但法律专业人士不应该仅仅依靠机器学习来确定特权。”他说,目前人类律师需要手动审查可能享有特权的文档,以便就法律特权是否适用作出最终裁决。
第5个教训:测试/训练污染会让机器学习感到困惑
美国自动化公司Indico多年来为客户提供企业人工智能和深度学习服务,一直困扰该公司最大的一个问题是机器学习测试和训练数据的污染。
首席技术官Slater Victoroff介绍说,一名客户创建了模型来确定一条新闻是否会影响其股价。由于很难准确地确定影响时间,因此公司创建了一个模型来预测第二天的影响。
Victoroff说:“他们没有意识到,自己忽略了确保清洁的测试/训练分类的数据科学基础。因此,他们在预测次日影响的任务上表现出接近100%的准确性,而实际上,该模型并不比随机预测好多少。”
另一个例子来自关注其内部自然语言处理(NLP)系统的客户。该客户的某个部门多年来一直在为机器学习模型创建和更新特性,并且基于相同的搜索集来不断地测试它们。该部门也体验到了测试/训练污染的影响。Victoroff说:“只要你看到出现测试错误并改变算法以纠正测试错误时,你的数据就不再准确了。”
在这个特殊案例中,人们没能很好地理解问题。在内部,该模型对于某一任务的准确率达到近100%的程度。Victoroff说:“但在实际中,这个系统几乎不起作用,因为它们无意中污染了自己的结果。任何企业在机器学习领域都会犯的最严重的错误就是测试/训练污染问题。”