NIST研究揭示人工智能漏洞:中毒数据、恶意操纵等等

NIST揭示人工智能漏洞和潜在威胁的见解。美国国家标准与技术研究院(NIST)暴露了关键的人工智能漏洞,威胁行为者可以利用这些漏洞来创造潜在的途径来危害人工智能系统。

在一项综合研究中,美国国家标准与技术研究所(NIST)的研究人员深入研究了人工智能(AI)系统中的漏洞,揭示了对手和恶意威胁行为者对不可信数据的利用。

尽管存在担忧,人工智能已成为我们生活中的重要角色。从检测暗网网络攻击到在医生能力不足时诊断严重的医疗状况,可以肯定地说人工智能将继续存在。然而,它需要强有力的网络安全措施,以防止其落入恶意威胁行为者手中。

因此,这项题为“对抗性机器学习:攻击和缓解的分类和术语”的研究可以说是对建立值得信赖的人工智能的持续努力的重大贡献。

NIST的计算机科学家讨论了与人工智能系统相关的固有风险,揭示攻击者可以故意操纵或“毒害”这些系统以导致故障。

该出版物强调,缺乏针对此类对抗性攻击的万无一失的防御机制,敦促开发人员和用户在声称无法穿透的安全措施的情况下保持谨慎。

该研究将重大攻击分为四类:逃避、投毒、隐私和滥用。逃避攻击旨在改变部署后的输入,而中毒攻击则在训练阶段引入损坏的数据。

隐私攻击发生在部署过程中,试图提取敏感信息以供滥用,而滥用攻击则涉及将不正确的信息插入人工智能源中。

该研究承认保护人工智能免受误导的挑战,特别是由于训练中使用的大量数据集超出了人类监控的范围。NIST概述了潜在的攻击和相应的缓解策略,强调社区需要增强现有防御。

该研究强调现实世界场景,探讨敌对行为者如何利用人工智能的漏洞,导致不良行为。例如,当精心设计的提示操纵时,聊天机器人可能会用辱骂性语言做出反应,从而暴露了人工智能在处理不同输入方面的脆弱性。有关本研究背后的完整研究材料,请访问此处(PDF)。

为了深入了解NIST的最新研究,我们联系了SaaS安全先驱AppOmni的首席AI工程师兼安全研究员Joseph Thacker。Joseph说研究是“他迄今为止见过的最好的人工智能安全出版物。

“这是我见过的最好的人工智能安全出版物。最值得注意的是深度和覆盖面。这是我遇到过的关于人工智能系统对抗性攻击的最深入的内容。它涵盖了不同形式的即时注射,为以前没有明确标记的组件详细阐述并提供了术语,”约瑟夫指出。

“它甚至引用了丰富的现实世界示例,例如DAN(Do Anything Now)越狱和一些令人惊叹的间接提示注入工作。它包括涵盖潜在缓解措施的多个部分,但很明显这还不是一个已解决的问题,”他补充道。

“最后有一个有用的术语表,我个人计划在编写或研究人工智能安全性时将其用作大型语言模型的额外“上下文”。它将确保法学硕士和我正在使用特定于该主题领域的相同定义。总的来说,我相信这是涵盖人工智能安全的最成功的总体内容。”约瑟夫强调道。

NIST鼓励开发者社区批判性地评估和改进现有的对抗性攻击防御措施。这项研究是政府、学术界和工业界共同努力的成果,提供了攻击和缓解措施的分类,认识到人工智能威胁不断变化的性质以及相应调整防御措施的必要性。

发表评论

评论已关闭。

相关文章