如何提高AI和机器学习项目的安全性

来源 :计算机世界 | 被引量 : 0次 | 上传用户：zhang504752895

【摘要】

：

企业在部署新技术时往往会忽视安全性。在企业眼里，如何尽快以尽可能低的成本为客户和内部用户提供新产品和服务更为重要，而出色的安全性可能意味着速度慢且费用高。　　和所有的早期技术优势一样，人工智能（AI）和机器学习（ML）也为漏洞和错误配置提供了机会。此外，人工智能和机器学习也有着自己独特的风险，而这些风险可能会随着企业实施由人工智能驱动的重大数字化转型而变得更加危险。对此，Booz Allen Ha

【作者】

：

Maria Korolov 陈琳华

【出处】

：

计算机世界

【发表日期】

：

2020年35期

【关键词】

：

人工智能数据机器企业系统客户

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

　　企业在部署新技术时往往会忽视安全性。在企业眼里，如何尽快以尽可能低的成本为客户和内部用户提供新产品和服务更为重要，而出色的安全性可能意味着速度慢且费用高。
　　和所有的早期技术优势一样，人工智能（AI）和机器学习（ML）也为漏洞和错误配置提供了机会。此外，人工智能和机器学习也有着自己独特的风险，而这些风险可能会随着企业实施由人工智能驱动的重大数字化转型而变得更加危险。对此，Booz Allen Hamilton的首席科学家Edward Raff说：“目前人工智能和机器学习领域并不是一个值得马上进入的领域。”

　　与其他技术相比，人工智能和机器学习需要更多和更复杂的数据。目前由数学家和数据科学家开发的算法早已经不再是研究性项目了，但是Raff指出：“直到最近，科学界才开始意识到人工智能存在安全问题。”
　　数据量和处理要求意味着可能只有云平臺才能够处理这些工作负载，这导致复杂性和漏洞会进一步增加。因此，部署了人工智能的企业最为但心的是网络安全问题就不足为奇了。德勤最新发布的调查报告称，尽管有62%的部署企业将网络安全风险视为主要或极为重要的问题，但是只有39%的部署企业表示他们正准备着手解决这些风险。
　　由于网络安全是人工智能应用的一个主要功能，因此这导致问题被进一步复杂化。负责德勤旗下的技术、媒体与电信中心的执行董事Jeff Loucks指出，企业对人工智能的使用经验越丰富，他们对网络安全风险的关注程度就越高。
　　此外，即便是经验丰富的企业也不会遵循基本的安全实践，例如保留所有人工智能和机器学习项目的完整清单、进行审核和测试等等。Loucks一针见血地指出：“许多公司目前在这些方面做得并不好。”

人工智能和机器学习的数据需求会带来风险

　　人工智能和机器学习系统需要以下三种数据集：
　　·用于建立预测模型的训练数据。
　　·用于评估模型效果的测试数据。
　　·模型上线后的实时交易或运营数据。
　　尽管实时交易或运营数据属于企业的重要资产，但是包含敏感信息的训练与测试数据池很容易被忽略。
　　匿名化、令牌化和加密等许多用于保护其他系统的策略对于人工智能和机器学习项目同样适用。第一步是询问是否需要数据。尽可能地收集数据，然后看看能用这些数据做什么，对于处于人工智能和机器学习项目准备阶段的企业来说非常具有吸引力。
　　将重心放在业务成果上可限制企业对数据的收集范围。为教育机构分析学生数据的Othot公司的首席技术官John Abbatico说：“虽然我们的数据科学团队非常需要数据，但是在处理学生数据时，我们明确向其告知，我们不需要高度敏感的个人身份信息，并且这些信息也不应包含在向我们提供的数据中。”
　　发生错误肯定是无法避免的。例如，客户有时会提供例如社会保险号这样的敏感个人信息。这些信息无益于提高模型的性能，反而会带来额外的风险。Abbatico说，他的团队为此设置了一个能够识别个人身份信息的程序，可以从所有系统中清除个人身份信息，并将错误告知客户。“虽然我们不认为这是安全事件，但是我们仍然会以处理安全事件的方式处理它们。”
　　人工智能系统还希望获取相互关联的数据，但是这样会加大企业面临的风险。如果保险公司想更好地了解客户的驾驶习惯，他们可能会收集客户的购物、驾乘、位置等其他数据集。这些数据集可以很容易地与客户的账户进行关联和匹配。对于黑客来说，这种新的指数级的丰富数据集极具吸引力。一旦被泄露出去，公司的声誉将会受到毁灭性打击。

通过设计提高人工智能的安全性

　　在线文件共享平台Box有大量需要保护的数据。为此，Box开始尝试利用人工智能提取元数据，以改善搜索和分类等功能。Box的首席信息安全官Lakshmi Hanspal说：“尽管我们可以从合同中提取条款、续订和价格等信息，但是我们的大多数客户都非常的传统，他们要么是通过用户定义的分类方式对内容进行分类，要么就完全忽视分类工作。这些客户可以说是坐在了数字化转型极为需要的数据金山上，但是前提是这些内容要能够自动进行分类，具有自我意识。”
　　保护数据是Box的关键业务，包括训练数据在内的人工智能系统也会得到相同的保护，同时数据保护标准不会因此而下降。Hanspal说：“我们Box公司会建立、销售和维护这种信任。我们认为，我们的产品要与合作伙伴和客户的产品深度融合在一起，而不是简单的关联。”
　　这意味着，新的基于人工智能的项目等所有系统都要围绕核心数据安全原则构建，包括加密、日志记录、监视、身份验证和访问控制。Hanspal 说：“数字信任是我们平台的天然优势，我们可以对其进行运维。”
　　Box的安全开发流程既适用于传统代码，也适用于基于人工智能和机器学习的新系统。Hanspal 说：“我们开发的安全产品符合ISO行业标准，除了内置安全性外，在适当的地方还设置了渗透测试和红队等检测与平衡机制。这是一个标准流程，人工智能和机器学习项目也不例外。”
　　数学家和数据科学家在编写人工智能和机器学习算法代码时通常不会考虑到潜在的漏洞。因此，企业构建人工智能系统时，他们往往会选择开源算法、商用“黑盒” 人工智能系统或者是从零开始构建自己的人工智能系统。
　　如果使用开源代码，那么攻击者有可能偷偷放置恶意代码，或者该代码本身就存在漏洞或易受攻击的依赖项。尽管商业系统也会使用开源代码，但是为了解决这一个问题，开发者会在这些开源代码中加入企业客户无法查阅的新代码。

逆向攻击已成为重大威胁

　　人工智能和机器学习系统中通常都包含了开源库和由非安全工程人员编写的全新代码。编写安全人工智能算法现在尚不存在标准的最佳实践。当前人才市场上缺乏安全专家和数据科学家，既精通安全又精通数据科学的人员更为短缺。
　　人工智能和机器学习算法有可能会将训练数据泄露给攻击者，这可能是人工智能和机器学习算法的最大潜在风险和长期威胁。Booz Allen Hamilton的Raff称说：“通过逆向攻击，黑客可以窃取人工智能模型，进而分析出人工智能模型信息以及其受到过哪些训练。如果人工智能模型使用了个人身份信息数据进行训练，那么人工智能模型将会泄漏这些信息，从而导致个人身份信息出现泄漏。”

　　这是一个非常热门的研究领域，并且有可能成为一个巨大痛点。目前市场上已经出现了可以保护训练数据免受逆向攻击的工具，但是它们的价格不菲。Raff说：“虽然我们知道如何防止这种情况的发生，但是如果真正做起来，那么训练模型的成本将会暴增100倍。这并不夸张。一旦训练模型的成本增长100倍，那么所有人都会选择放弃。”

无法理解的内容的安全自然无法得到保证

　　另一个热门的研究领域是可解释性。包括网络安全供应商提供的人工智能和机器学习支持的工具在内，许多人工智能和机器学习系统都是“黑盒”系统。YL Ventures的首席信息安全官Sounil Yu说：“在安全领域，发生的事情能够被解释的通是最基本的要求，但是供应商根本没有提供这种可解释性。如果无法解释为什么会发生，那么解决它们又从何谈起呢？”
　　在出现了问题时，对于自己创建人工智能或机器学习系统的公司，他们可以返回训练数据或者是算法来解决问题。但是如果人工智能或机器学习系统是从别的地方购买的，用户可能甚至都无法知道哪些是训练数据。

并不是只有算法需要保护

　　人工智能系统不只是自然语言处理引擎，也不仅仅是分类算法或神经网络。系统需要与用户和后端平台进行交互，即便其自身是完全安全的，使用当中仍然存在着安全风险。
　　系统是否使用了强身份验证和最小特权原则？与后端数据库的连接是否安全？与第三方数据源的连接是否安全？用户界面可以抵抗注入攻击吗？
　　人工智能和机器学习项目特有的不安全因素是数据科学家。Othot的Abbatico说：“优秀的数据科学家会利用数据进行实验，从而得出具有洞察力的模型。但是在数据安全领域，这可能会导致危险的行为。在用完数据后，他们可能会想将数据转移到不安全的位置或删除样本数据集。”为此，Othot选择尽早获得SOC II认证，这些控制措施可为整个公司提供强有力的数据保护，包括在移动或删除数据时。
　　事实上，人工智能模型的最大风险并不在人工智能方面，而在人员方面。Urvin人工智能的产品经理兼非营利组织ISECOM的联合创始人Peter Herzog说：“问题出在人身上。人决定了如何训练人工智能模型，决定了要包含哪些数据，决定了要预测的内容，以及决定了要公开多少信息。这导致没有哪个人工智能模型是绝对安全的。”
　　人工智能和机器学习系统另一个特有的安全风险是数据中毒，即攻击者向系统反馈恶意信息，迫使其做出不准确的预测。例如，攻击者可以将合法软件的反馈信息篡改为与恶意软件相似，从而诱使系统认为恶意软件也是安全的。
　　安全性是大多数组织机构都高度关注的问题。Raff说：“尽管目前还没有听说有人工智能系统在实际生活当中受到了攻击，但是这的的确确是一个威胁。只是攻击者用来规避防病毒软件的经典工具仍然有效，他们目前还不需要变得更狡猾。”

防止偏见和模型漂移

　　当被应用在用户行为分析、监视网络流量或检查数据泄露等企业安全领域时，人工智能和机器学习系统的偏差和模型漂移会产生潜在的风险。如果训练数据集无法充分代表特定的攻击或是过时的，那么企业将变得很容易受到攻擊。 Raff说：“用户需要不断更新模型，并且让更新成为了一项长期性工作。”
　　训练在一些情况下可以实现自动化。例如，通过适应不断变化的天气模式或供应链交付时间表，随着时间的推移，模型将变得更加可靠。如果信息源有恶意行为者，那么用户则需要管理训练数据集，以防止系统中毒和被操纵。
　　如果面部识别或招聘平台歧视妇女或少数民族，那么算法可能会带来一些道德问题。歧视与偏见逐渐蔓延到算法中还会造成合规性问题。如果蔓延到自动驾驶汽车和医疗应用中，那么就可以可能导致人员死亡。
　　算法可以将偏见带入预测结果，同样它们也可以用于控制偏见。Othot的Abbatico说：“模型的创建如果没有适当约束，那么就很容易产生偏见。解决偏见需要花精力。加入与多样性相关的数据可帮助模型更好地理解目标，防止出现偏见。如果不将多样性作为约束条件，那么模型很容易出现偏见。”

人工智能的前途并不明朗

　　人工智能和机器学习系统需要大量数据、复杂的算法以及功能强大的处理器。主要的云服务供应商都在致力于开发出功能齐全且使用便捷的数据科学平台，以方便数据科学家随时使用服务器。
　　德勤的人工智能调查报告显示，93%的企业都在使用基于云计算的人工智能。这些项目未来有可能会变身为操作系统，但是随着规模的扩大，配置问题将会成倍增加。集中式自动化配置和安全管理仪表板在最新的服务中可能无法使用，公司为此可能需要自己编写代码或是求助于服务供应商，以解决这些问题。
　　如果使用系统的数据科学家或理论研究人员没有专业的安全知识，只是普通的爱好者，那么安全性将会成为一个严重的问题。此外，供应商首先注重的是新功能，其次才是安全性。当系统被快速、仓促部署并被迅速扩展时，安全问题将成为一个突出的问题。目前IoT设备、云存储和容器已经出现这些问题。
　　人工智能平台供应商目前已经意识到这些问题，并开始反思经验教训。“安全至上”的理念由来以久，各种项目中都应积极主动地考虑安全性。得益于机器学习社区的关注，安全性滞后的情况可能会大幅改观。

人工智能项目的安全清单

　　德勤《企业人工智能状态》（第三版）中所列清单可帮助确保人工智能项目的安全：
　　保留所有人工智能部署的详细目录。
　　让人工智能风险管理与其他的风险管理工作保持一致。
　　指定一名高管负责与人工智能有关的风险。
　　开展内部审计与测试。
　　由外部供应商进行独立的审核和测试。
　　就如何识别和解决有关人工智能的道德问题对人员展开培训。
　　在健康良好的人工智能道德实践方面与外部各方展开合作。
　　确保人工智能供应商提供的系统不存在偏见。
　　针对人工智能道德问题制定专门的政策或成立专门的指导小组。
　　本文作者Maria Korolov在过去20年里一直关注新兴技术和新兴市场。
　　原文网址
　　https：//www.csoonline.com/article/3434610/how-secure-are-your-ai-and-machine-learning-projects.html？nsdr=true

其他文献

制造业的未来是数字化

高瞻远瞩的制造商们已经不满足于开发高品质的产品，而是深入开展数字化转型，目的是提供新服务，为客户带来更好的体验。　　第四次工业革命如火如荼，领先的制造商们不仅在他们的工厂车间和后台办公部门部署新的技术，而且在整个价值链中都应用了新的技术。结果呢？制造商在生产和销售上，以及业务经营和盈利方式上都出现了重大变化。广泛采用技术也改变了企业本身。　　以通力公司（KONE Corp）为例。　　通力公司一个

期刊

技术制造商通用电气制造业客户产品

新的区块链账本：将个人数据真正变成数字资产

IBM和一家初创公司已经推出了一款基于区块链的应用程序，它允许患者最终将匿名数据卖给制药公司、研究人员和其他人，同时能够很好地控制好隐私问题。　　大多数人都不知道，有一个价值数十亿美元的行业——收集医疗保健信息，除去基本的个人身份信息（例如，姓名、地址和社保号等），然后将其卖给研究人员、药物开发商、市场营销人员或者其他人。　　Iqvia（IMS Health）、Optum和Symphony Hea

期刊

数据账本信息身份医疗保健公司

唐代妇女与科举述论

[摘要]科举深刻影响唐代社会，当时一些妇女的婚姻、家庭生活、经济活动乃至对子女的教育都与科举产生密切的关系。这种现象的出现，根源于唐代浓厚的科举风气、相对开放文明的时代精神、妇女奋发向上及其较好的文化素养。　　[关键词]唐朝，妇女，科举　　[中图分类]K25 [文献标识码]A [文章编号]0457—6241(2007)09—0029—05　　　　自隋唐科举制形成后，科举入仕不仅成为天下有志男子

期刊

科举功名进士太平广记婚姻唐代

迈向种族融合的艰难一步

[摘要]美国1968年《公平住房法》是60年代联邦政府住房种族融合政策的核心法案。它的出台有着方方面面的促成因素，除了传统的种族隔离法令——吉姆·克劳0法在60年代民权运动的震撼下面临终结以外，现实社会中居住隔离的复杂化、地方公平住房法的制定、60年代自人黑人心理上的微妙变化以及南方种族主义者的妥协，都对联邦政府制定这一法案起了重要作用。《公平住房法》的制定标志着联邦政府在促进种族融合的道路上前进

期刊

种族黑人住房民权联邦政府种族歧视

朱培德与抗战准备（１９３１－１９３７）

朱培德作为国民党军的高级将领、蒋介石的幕僚长，从九·一八事变到一·二八淞沪抗战，对日态度经历了由避战到迎战的转变，促成转变的原因一方面是日本侵略野心的彰显，另一方面则是他有着基本的民族主义思想。朱培德积极参与了多项国防规划与建设，筹划军队整理与加强训练，他的努力成为抗战准备的一部分。朱培德在全面抗战爆发前的思想变化与行为相当典型，可为部分国民党军高级将领的代表。　　(摘自《抗日战争研究》2007年

期刊

国民党抗日战争高级将领思想则是民族主义

2017年必须关注的10大云趋势

随着机器学习、无服务器计算和容器技术的发展，企业越来越依赖于云计算　　随着企业对云计算的重视程度的日趋加深，市场上云计算的运营商更是风起云涌，服务种类更是丰富繁多。跟踪IaaS（基础设施）云计算市场的分析师们普遍认为，亚马逊网络服务、微软Azure和谷歌云平台，这三家平台在2016年呈现出三足鼎立的局面，也为多数公司提供了更多的服务——可以在全球各地托管其数据，更多的虚拟机实例配置以优化其工作负载

期刊

容器微软企业基础设施市场服务器

从阶级统治到阶层共治

本文从治理的视角对新中国成立以来的国家治理模式进行了考察。在辨析相关概念的基础上，论文以社会经济制度变迁而引发的阶级关系新变化为主线，以党和国家重要文献对不同阶段各阶级与阶层政治地位的定位为依据，将新中国国家治理模式的变迁过程划分为三个不同阶段，即阶级统治模式阶段、过渡阶段和阶层共治模式阶段，并从治理主体、组织载体、实现机制等方面对这三个阶段的国家治理主导模式的基本特征进行分析和总结。　　　　(摘

期刊

阶段模式阶级国家新中国阶层

云的7种风险缓解策略

云服务及其相关的风险随着时间的推移只会变得越来越重要。本文介绍怎样掌控这些风险同时又不失云带来的好处。　　云服务的主流地位已不可动摇，并且每年都在接管更多的企业职能。以前云服务仅限于简单的存储或者联系人管理，而现在像ERP这样的核心功能已经迁移到云中。随着越来越多的基本服务不断迁移到云中，IT领导们必须关注当今云环境中固有的风险，并采取预防措施来缓解这些风险。　　本文介绍企业应该怎样评估并缓解云计

期刊

风险企业提供商数据业务这是

近代留学生与学校心理学科学共同体建设的历史考察

[摘要]20世纪30年代，中国心理学界处于低谷之时，以留学生为主体的心理学者，以各自所在院系为依托，纷纷创建校级心理学科学共同体。其中大夏大学心理学会，在留美心理学家章颐年的带领下，开展了形式多样、内容丰富的各种学术活动，赢得了学界的认可，也为局部地区心理学事业的发展作出了贡献。　　[关键词]近代留学生，心理学，科学共同体，大夏大学　　[中图分类号]K26 G64 [文献标识码]D [文章编号

期刊

心理学共同体心理大夏心理学系大学

我国台湾５０多年来的孙中山研究鸟瞰

[关键词]50多年，我国台湾，孙中山研究，鸟瞰　　[中图分类号]K27　[文献标识码]D　[文章编号]0457-6241(2007)04-0073-06　　　　孙中山(1866-1925年)是中国国民党的创始人，长期担任该党总理，成为地位和威望元人可及的唯一领袖。他于1925年逝世之后，国民党政府统治大陆期间修建“中山陵”，“尊崇孙中山为中华民国国父”。在缅怀其丰功伟业的同时，还大张旗鼓地开展了对

期刊

国父党史史料年谱国民党全集