论文部分内容阅读
企业在部署新技术时往往会忽视安全性。在企业眼里,如何尽快以尽可能低的成本为客户和内部用户提供新产品和服务更为重要,而出色的安全性可能意味着速度慢且费用高。
和所有的早期技术优势一样,人工智能(AI)和机器学习(ML)也为漏洞和错误配置提供了机会。此外,人工智能和机器学习也有着自己独特的风险,而这些风险可能会随着企业实施由人工智能驱动的重大数字化转型而变得更加危险。对此,Booz Allen Hamilton的首席科学家Edward Raff说:“目前人工智能和机器学习领域并不是一个值得马上进入的领域。”
与其他技术相比,人工智能和机器学习需要更多和更复杂的数据。目前由数学家和数据科学家开发的算法早已经不再是研究性项目了,但是Raff指出:“直到最近,科学界才开始意识到人工智能存在安全问题。”
数据量和处理要求意味着可能只有云平臺才能够处理这些工作负载,这导致复杂性和漏洞会进一步增加。因此,部署了人工智能的企业最为但心的是网络安全问题就不足为奇了。德勤最新发布的调查报告称,尽管有62%的部署企业将网络安全风险视为主要或极为重要的问题,但是只有39%的部署企业表示他们正准备着手解决这些风险。
由于网络安全是人工智能应用的一个主要功能,因此这导致问题被进一步复杂化。负责德勤旗下的技术、媒体与电信中心的执行董事Jeff Loucks指出,企业对人工智能的使用经验越丰富,他们对网络安全风险的关注程度就越高。
此外,即便是经验丰富的企业也不会遵循基本的安全实践,例如保留所有人工智能和机器学习项目的完整清单、进行审核和测试等等。Loucks一针见血地指出:“许多公司目前在这些方面做得并不好。”
人工智能和机器学习系统需要以下三种数据集:
·用于建立预测模型的训练数据。
·用于评估模型效果的测试数据。
·模型上线后的实时交易或运营数据。
尽管实时交易或运营数据属于企业的重要资产,但是包含敏感信息的训练与测试数据池很容易被忽略。
匿名化、令牌化和加密等许多用于保护其他系统的策略对于人工智能和机器学习项目同样适用。第一步是询问是否需要数据。尽可能地收集数据,然后看看能用这些数据做什么,对于处于人工智能和机器学习项目准备阶段的企业来说非常具有吸引力。
将重心放在业务成果上可限制企业对数据的收集范围。为教育机构分析学生数据的Othot公司的首席技术官John Abbatico说:“虽然我们的数据科学团队非常需要数据,但是在处理学生数据时,我们明确向其告知,我们不需要高度敏感的个人身份信息,并且这些信息也不应包含在向我们提供的数据中。”
发生错误肯定是无法避免的。例如,客户有时会提供例如社会保险号这样的敏感个人信息。这些信息无益于提高模型的性能,反而会带来额外的风险。Abbatico说,他的团队为此设置了一个能够识别个人身份信息的程序,可以从所有系统中清除个人身份信息,并将错误告知客户。“虽然我们不认为这是安全事件,但是我们仍然会以处理安全事件的方式处理它们。”
人工智能系统还希望获取相互关联的数据,但是这样会加大企业面临的风险。如果保险公司想更好地了解客户的驾驶习惯,他们可能会收集客户的购物、驾乘、位置等其他数据集。这些数据集可以很容易地与客户的账户进行关联和匹配。对于黑客来说,这种新的指数级的丰富数据集极具吸引力。一旦被泄露出去,公司的声誉将会受到毁灭性打击。
在线文件共享平台Box有大量需要保护的数据。为此,Box开始尝试利用人工智能提取元数据,以改善搜索和分类等功能。Box的首席信息安全官Lakshmi Hanspal说:“尽管我们可以从合同中提取条款、续订和价格等信息,但是我们的大多数客户都非常的传统,他们要么是通过用户定义的分类方式对内容进行分类,要么就完全忽视分类工作。这些客户可以说是坐在了数字化转型极为需要的数据金山上,但是前提是这些内容要能够自动进行分类,具有自我意识。”
保护数据是Box的关键业务,包括训练数据在内的人工智能系统也会得到相同的保护,同时数据保护标准不会因此而下降。Hanspal说:“我们Box公司会建立、销售和维护这种信任。我们认为,我们的产品要与合作伙伴和客户的产品深度融合在一起,而不是简单的关联。”
这意味着,新的基于人工智能的项目等所有系统都要围绕核心数据安全原则构建,包括加密、日志记录、监视、身份验证和访问控制。Hanspal 说:“数字信任是我们平台的天然优势,我们可以对其进行运维。”
Box的安全开发流程既适用于传统代码,也适用于基于人工智能和机器学习的新系统。Hanspal 说:“我们开发的安全产品符合ISO行业标准,除了内置安全性外,在适当的地方还设置了渗透测试和红队等检测与平衡机制。这是一个标准流程,人工智能和机器学习项目也不例外。”
数学家和数据科学家在编写人工智能和机器学习算法代码时通常不会考虑到潜在的漏洞。因此,企业构建人工智能系统时,他们往往会选择开源算法、商用“黑盒” 人工智能系统或者是从零开始构建自己的人工智能系统。
如果使用开源代码,那么攻击者有可能偷偷放置恶意代码,或者该代码本身就存在漏洞或易受攻击的依赖项。尽管商业系统也会使用开源代码,但是为了解决这一个问题,开发者会在这些开源代码中加入企业客户无法查阅的新代码。
人工智能和机器学习系统中通常都包含了开源库和由非安全工程人员编写的全新代码。编写安全人工智能算法现在尚不存在标准的最佳实践。当前人才市场上缺乏安全专家和数据科学家,既精通安全又精通数据科学的人员更为短缺。
人工智能和机器学习算法有可能会将训练数据泄露给攻击者,这可能是人工智能和机器学习算法的最大潜在风险和长期威胁。Booz Allen Hamilton的Raff称说:“通过逆向攻击,黑客可以窃取人工智能模型,进而分析出人工智能模型信息以及其受到过哪些训练。如果人工智能模型使用了个人身份信息数据进行训练,那么人工智能模型将会泄漏这些信息,从而导致个人身份信息出现泄漏。”
这是一个非常热门的研究领域,并且有可能成为一个巨大痛点。目前市场上已经出现了可以保护训练数据免受逆向攻击的工具,但是它们的价格不菲。Raff说:“虽然我们知道如何防止这种情况的发生,但是如果真正做起来,那么训练模型的成本将会暴增100倍。这并不夸张。一旦训练模型的成本增长100倍,那么所有人都会选择放弃。”
另一个热门的研究领域是可解释性。包括网络安全供应商提供的人工智能和机器学习支持的工具在内,许多人工智能和机器学习系统都是“黑盒”系统。YL Ventures的首席信息安全官Sounil Yu说:“在安全领域,发生的事情能够被解释的通是最基本的要求,但是供应商根本没有提供这种可解释性。如果无法解释为什么会发生,那么解决它们又从何谈起呢?”
在出现了问题时,对于自己创建人工智能或机器学习系统的公司,他们可以返回训练数据或者是算法来解决问题。但是如果人工智能或机器学习系统是从别的地方购买的,用户可能甚至都无法知道哪些是训练数据。
人工智能系统不只是自然语言处理引擎,也不仅仅是分类算法或神经网络。系统需要与用户和后端平台进行交互,即便其自身是完全安全的,使用当中仍然存在着安全风险。
系统是否使用了强身份验证和最小特权原则?与后端数据库的连接是否安全?与第三方数据源的连接是否安全?用户界面可以抵抗注入攻击吗?
人工智能和机器学习项目特有的不安全因素是数据科学家。Othot的Abbatico说:“优秀的数据科学家会利用数据进行实验,从而得出具有洞察力的模型。但是在数据安全领域,这可能会导致危险的行为。在用完数据后,他们可能会想将数据转移到不安全的位置或删除样本数据集。”为此,Othot选择尽早获得SOC II认证,这些控制措施可为整个公司提供强有力的数据保护,包括在移动或删除数据时。
事实上,人工智能模型的最大风险并不在人工智能方面,而在人员方面。Urvin人工智能的产品经理兼非营利组织ISECOM的联合创始人Peter Herzog说:“问题出在人身上。人决定了如何训练人工智能模型,决定了要包含哪些数据,决定了要预测的内容,以及决定了要公开多少信息。这导致没有哪个人工智能模型是绝对安全的。”
人工智能和机器学习系统另一个特有的安全风险是数据中毒,即攻击者向系统反馈恶意信息,迫使其做出不准确的预测。例如,攻击者可以将合法软件的反馈信息篡改为与恶意软件相似,从而诱使系统认为恶意软件也是安全的。
安全性是大多数组织机构都高度关注的问题。Raff说:“尽管目前还没有听说有人工智能系统在实际生活当中受到了攻击,但是这的的确确是一个威胁。只是攻击者用来规避防病毒软件的经典工具仍然有效,他们目前还不需要变得更狡猾。”
当被应用在用户行为分析、监视网络流量或检查数据泄露等企业安全领域时,人工智能和机器学习系统的偏差和模型漂移会产生潜在的风险。如果训练数据集无法充分代表特定的攻击或是过时的,那么企业将变得很容易受到攻擊。 Raff说:“用户需要不断更新模型,并且让更新成为了一项长期性工作。”
训练在一些情况下可以实现自动化。例如,通过适应不断变化的天气模式或供应链交付时间表,随着时间的推移,模型将变得更加可靠。如果信息源有恶意行为者,那么用户则需要管理训练数据集,以防止系统中毒和被操纵。
如果面部识别或招聘平台歧视妇女或少数民族,那么算法可能会带来一些道德问题。歧视与偏见逐渐蔓延到算法中还会造成合规性问题。如果蔓延到自动驾驶汽车和医疗应用中,那么就可以可能导致人员死亡。
算法可以将偏见带入预测结果,同样它们也可以用于控制偏见。Othot的Abbatico说:“模型的创建如果没有适当约束,那么就很容易产生偏见。解决偏见需要花精力。加入与多样性相关的数据可帮助模型更好地理解目标,防止出现偏见。如果不将多样性作为约束条件,那么模型很容易出现偏见。”
人工智能和机器学习系统需要大量数据、复杂的算法以及功能强大的处理器。主要的云服务供应商都在致力于开发出功能齐全且使用便捷的数据科学平台,以方便数据科学家随时使用服务器。
德勤的人工智能调查报告显示,93%的企业都在使用基于云计算的人工智能。这些项目未来有可能会变身为操作系统,但是随着规模的扩大,配置问题将会成倍增加。集中式自动化配置和安全管理仪表板在最新的服务中可能无法使用,公司为此可能需要自己编写代码或是求助于服务供应商,以解决这些问题。
如果使用系统的数据科学家或理论研究人员没有专业的安全知识,只是普通的爱好者,那么安全性将会成为一个严重的问题。此外,供应商首先注重的是新功能,其次才是安全性。当系统被快速、仓促部署并被迅速扩展时,安全问题将成为一个突出的问题。目前IoT设备、云存储和容器已经出现这些问题。
人工智能平台供应商目前已经意识到这些问题,并开始反思经验教训。“安全至上”的理念由来以久,各种项目中都应积极主动地考虑安全性。得益于机器学习社区的关注,安全性滞后的情况可能会大幅改观。
德勤《企业人工智能状态》(第三版)中所列清单可帮助确保人工智能项目的安全:
保留所有人工智能部署的详细目录。
让人工智能风险管理与其他的风险管理工作保持一致。
指定一名高管负责与人工智能有关的风险。
开展内部审计与测试。
由外部供应商进行独立的审核和测试。
就如何识别和解决有关人工智能的道德问题对人员展开培训。
在健康良好的人工智能道德实践方面与外部各方展开合作。
确保人工智能供应商提供的系统不存在偏见。
针对人工智能道德问题制定专门的政策或成立专门的指导小组。
本文作者Maria Korolov在过去20年里一直关注新兴技术和新兴市场。
原文网址
https://www.csoonline.com/article/3434610/how-secure-are-your-ai-and-machine-learning-projects.html?nsdr=true
和所有的早期技术优势一样,人工智能(AI)和机器学习(ML)也为漏洞和错误配置提供了机会。此外,人工智能和机器学习也有着自己独特的风险,而这些风险可能会随着企业实施由人工智能驱动的重大数字化转型而变得更加危险。对此,Booz Allen Hamilton的首席科学家Edward Raff说:“目前人工智能和机器学习领域并不是一个值得马上进入的领域。”
与其他技术相比,人工智能和机器学习需要更多和更复杂的数据。目前由数学家和数据科学家开发的算法早已经不再是研究性项目了,但是Raff指出:“直到最近,科学界才开始意识到人工智能存在安全问题。”
数据量和处理要求意味着可能只有云平臺才能够处理这些工作负载,这导致复杂性和漏洞会进一步增加。因此,部署了人工智能的企业最为但心的是网络安全问题就不足为奇了。德勤最新发布的调查报告称,尽管有62%的部署企业将网络安全风险视为主要或极为重要的问题,但是只有39%的部署企业表示他们正准备着手解决这些风险。
由于网络安全是人工智能应用的一个主要功能,因此这导致问题被进一步复杂化。负责德勤旗下的技术、媒体与电信中心的执行董事Jeff Loucks指出,企业对人工智能的使用经验越丰富,他们对网络安全风险的关注程度就越高。
此外,即便是经验丰富的企业也不会遵循基本的安全实践,例如保留所有人工智能和机器学习项目的完整清单、进行审核和测试等等。Loucks一针见血地指出:“许多公司目前在这些方面做得并不好。”
人工智能和机器学习的数据需求会带来风险
人工智能和机器学习系统需要以下三种数据集:
·用于建立预测模型的训练数据。
·用于评估模型效果的测试数据。
·模型上线后的实时交易或运营数据。
尽管实时交易或运营数据属于企业的重要资产,但是包含敏感信息的训练与测试数据池很容易被忽略。
匿名化、令牌化和加密等许多用于保护其他系统的策略对于人工智能和机器学习项目同样适用。第一步是询问是否需要数据。尽可能地收集数据,然后看看能用这些数据做什么,对于处于人工智能和机器学习项目准备阶段的企业来说非常具有吸引力。
将重心放在业务成果上可限制企业对数据的收集范围。为教育机构分析学生数据的Othot公司的首席技术官John Abbatico说:“虽然我们的数据科学团队非常需要数据,但是在处理学生数据时,我们明确向其告知,我们不需要高度敏感的个人身份信息,并且这些信息也不应包含在向我们提供的数据中。”
发生错误肯定是无法避免的。例如,客户有时会提供例如社会保险号这样的敏感个人信息。这些信息无益于提高模型的性能,反而会带来额外的风险。Abbatico说,他的团队为此设置了一个能够识别个人身份信息的程序,可以从所有系统中清除个人身份信息,并将错误告知客户。“虽然我们不认为这是安全事件,但是我们仍然会以处理安全事件的方式处理它们。”
人工智能系统还希望获取相互关联的数据,但是这样会加大企业面临的风险。如果保险公司想更好地了解客户的驾驶习惯,他们可能会收集客户的购物、驾乘、位置等其他数据集。这些数据集可以很容易地与客户的账户进行关联和匹配。对于黑客来说,这种新的指数级的丰富数据集极具吸引力。一旦被泄露出去,公司的声誉将会受到毁灭性打击。
通过设计提高人工智能的安全性
在线文件共享平台Box有大量需要保护的数据。为此,Box开始尝试利用人工智能提取元数据,以改善搜索和分类等功能。Box的首席信息安全官Lakshmi Hanspal说:“尽管我们可以从合同中提取条款、续订和价格等信息,但是我们的大多数客户都非常的传统,他们要么是通过用户定义的分类方式对内容进行分类,要么就完全忽视分类工作。这些客户可以说是坐在了数字化转型极为需要的数据金山上,但是前提是这些内容要能够自动进行分类,具有自我意识。”
保护数据是Box的关键业务,包括训练数据在内的人工智能系统也会得到相同的保护,同时数据保护标准不会因此而下降。Hanspal说:“我们Box公司会建立、销售和维护这种信任。我们认为,我们的产品要与合作伙伴和客户的产品深度融合在一起,而不是简单的关联。”
这意味着,新的基于人工智能的项目等所有系统都要围绕核心数据安全原则构建,包括加密、日志记录、监视、身份验证和访问控制。Hanspal 说:“数字信任是我们平台的天然优势,我们可以对其进行运维。”
Box的安全开发流程既适用于传统代码,也适用于基于人工智能和机器学习的新系统。Hanspal 说:“我们开发的安全产品符合ISO行业标准,除了内置安全性外,在适当的地方还设置了渗透测试和红队等检测与平衡机制。这是一个标准流程,人工智能和机器学习项目也不例外。”
数学家和数据科学家在编写人工智能和机器学习算法代码时通常不会考虑到潜在的漏洞。因此,企业构建人工智能系统时,他们往往会选择开源算法、商用“黑盒” 人工智能系统或者是从零开始构建自己的人工智能系统。
如果使用开源代码,那么攻击者有可能偷偷放置恶意代码,或者该代码本身就存在漏洞或易受攻击的依赖项。尽管商业系统也会使用开源代码,但是为了解决这一个问题,开发者会在这些开源代码中加入企业客户无法查阅的新代码。
逆向攻击已成为重大威胁
人工智能和机器学习系统中通常都包含了开源库和由非安全工程人员编写的全新代码。编写安全人工智能算法现在尚不存在标准的最佳实践。当前人才市场上缺乏安全专家和数据科学家,既精通安全又精通数据科学的人员更为短缺。
人工智能和机器学习算法有可能会将训练数据泄露给攻击者,这可能是人工智能和机器学习算法的最大潜在风险和长期威胁。Booz Allen Hamilton的Raff称说:“通过逆向攻击,黑客可以窃取人工智能模型,进而分析出人工智能模型信息以及其受到过哪些训练。如果人工智能模型使用了个人身份信息数据进行训练,那么人工智能模型将会泄漏这些信息,从而导致个人身份信息出现泄漏。”
这是一个非常热门的研究领域,并且有可能成为一个巨大痛点。目前市场上已经出现了可以保护训练数据免受逆向攻击的工具,但是它们的价格不菲。Raff说:“虽然我们知道如何防止这种情况的发生,但是如果真正做起来,那么训练模型的成本将会暴增100倍。这并不夸张。一旦训练模型的成本增长100倍,那么所有人都会选择放弃。”
无法理解的内容的安全自然无法得到保证
另一个热门的研究领域是可解释性。包括网络安全供应商提供的人工智能和机器学习支持的工具在内,许多人工智能和机器学习系统都是“黑盒”系统。YL Ventures的首席信息安全官Sounil Yu说:“在安全领域,发生的事情能够被解释的通是最基本的要求,但是供应商根本没有提供这种可解释性。如果无法解释为什么会发生,那么解决它们又从何谈起呢?”
在出现了问题时,对于自己创建人工智能或机器学习系统的公司,他们可以返回训练数据或者是算法来解决问题。但是如果人工智能或机器学习系统是从别的地方购买的,用户可能甚至都无法知道哪些是训练数据。
并不是只有算法需要保护
人工智能系统不只是自然语言处理引擎,也不仅仅是分类算法或神经网络。系统需要与用户和后端平台进行交互,即便其自身是完全安全的,使用当中仍然存在着安全风险。
系统是否使用了强身份验证和最小特权原则?与后端数据库的连接是否安全?与第三方数据源的连接是否安全?用户界面可以抵抗注入攻击吗?
人工智能和机器学习项目特有的不安全因素是数据科学家。Othot的Abbatico说:“优秀的数据科学家会利用数据进行实验,从而得出具有洞察力的模型。但是在数据安全领域,这可能会导致危险的行为。在用完数据后,他们可能会想将数据转移到不安全的位置或删除样本数据集。”为此,Othot选择尽早获得SOC II认证,这些控制措施可为整个公司提供强有力的数据保护,包括在移动或删除数据时。
事实上,人工智能模型的最大风险并不在人工智能方面,而在人员方面。Urvin人工智能的产品经理兼非营利组织ISECOM的联合创始人Peter Herzog说:“问题出在人身上。人决定了如何训练人工智能模型,决定了要包含哪些数据,决定了要预测的内容,以及决定了要公开多少信息。这导致没有哪个人工智能模型是绝对安全的。”
人工智能和机器学习系统另一个特有的安全风险是数据中毒,即攻击者向系统反馈恶意信息,迫使其做出不准确的预测。例如,攻击者可以将合法软件的反馈信息篡改为与恶意软件相似,从而诱使系统认为恶意软件也是安全的。
安全性是大多数组织机构都高度关注的问题。Raff说:“尽管目前还没有听说有人工智能系统在实际生活当中受到了攻击,但是这的的确确是一个威胁。只是攻击者用来规避防病毒软件的经典工具仍然有效,他们目前还不需要变得更狡猾。”
防止偏见和模型漂移
当被应用在用户行为分析、监视网络流量或检查数据泄露等企业安全领域时,人工智能和机器学习系统的偏差和模型漂移会产生潜在的风险。如果训练数据集无法充分代表特定的攻击或是过时的,那么企业将变得很容易受到攻擊。 Raff说:“用户需要不断更新模型,并且让更新成为了一项长期性工作。”
训练在一些情况下可以实现自动化。例如,通过适应不断变化的天气模式或供应链交付时间表,随着时间的推移,模型将变得更加可靠。如果信息源有恶意行为者,那么用户则需要管理训练数据集,以防止系统中毒和被操纵。
如果面部识别或招聘平台歧视妇女或少数民族,那么算法可能会带来一些道德问题。歧视与偏见逐渐蔓延到算法中还会造成合规性问题。如果蔓延到自动驾驶汽车和医疗应用中,那么就可以可能导致人员死亡。
算法可以将偏见带入预测结果,同样它们也可以用于控制偏见。Othot的Abbatico说:“模型的创建如果没有适当约束,那么就很容易产生偏见。解决偏见需要花精力。加入与多样性相关的数据可帮助模型更好地理解目标,防止出现偏见。如果不将多样性作为约束条件,那么模型很容易出现偏见。”
人工智能的前途并不明朗
人工智能和机器学习系统需要大量数据、复杂的算法以及功能强大的处理器。主要的云服务供应商都在致力于开发出功能齐全且使用便捷的数据科学平台,以方便数据科学家随时使用服务器。
德勤的人工智能调查报告显示,93%的企业都在使用基于云计算的人工智能。这些项目未来有可能会变身为操作系统,但是随着规模的扩大,配置问题将会成倍增加。集中式自动化配置和安全管理仪表板在最新的服务中可能无法使用,公司为此可能需要自己编写代码或是求助于服务供应商,以解决这些问题。
如果使用系统的数据科学家或理论研究人员没有专业的安全知识,只是普通的爱好者,那么安全性将会成为一个严重的问题。此外,供应商首先注重的是新功能,其次才是安全性。当系统被快速、仓促部署并被迅速扩展时,安全问题将成为一个突出的问题。目前IoT设备、云存储和容器已经出现这些问题。
人工智能平台供应商目前已经意识到这些问题,并开始反思经验教训。“安全至上”的理念由来以久,各种项目中都应积极主动地考虑安全性。得益于机器学习社区的关注,安全性滞后的情况可能会大幅改观。
人工智能项目的安全清单
德勤《企业人工智能状态》(第三版)中所列清单可帮助确保人工智能项目的安全:
保留所有人工智能部署的详细目录。
让人工智能风险管理与其他的风险管理工作保持一致。
指定一名高管负责与人工智能有关的风险。
开展内部审计与测试。
由外部供应商进行独立的审核和测试。
就如何识别和解决有关人工智能的道德问题对人员展开培训。
在健康良好的人工智能道德实践方面与外部各方展开合作。
确保人工智能供应商提供的系统不存在偏见。
针对人工智能道德问题制定专门的政策或成立专门的指导小组。
本文作者Maria Korolov在过去20年里一直关注新兴技术和新兴市场。
原文网址
https://www.csoonline.com/article/3434610/how-secure-are-your-ai-and-machine-learning-projects.html?nsdr=true