微软Azure AI平台新增安全功能,捕获客户AI应用中的幻觉

科技 2024-03-29 09:54 阅读:12

微软的Azure AI平台最近迎来了一波新的变化,新增了一系列旨在增强安全性的功能。这些新功能的目标很明确,就是帮助客户捕获他们AI应用中可能存在的幻觉、提示攻击以及其他安全漏洞。微软的首席负责人Sarah Bird在介绍这些功能时表示,这些工具将会非常易于使用,客户无需雇佣红队来测试他们所构建的AI服务。

这些新功能由LLM提供支持,可以检测潜在的漏洞,监控“可能是合理但不受支持”的幻觉,并实时阻止Azure AI客户在使用平台上托管的模型时遭遇任何恶意提示。Bird解释道:“我们知道,并非所有客户都对提示注入攻击或恶意内容有深入的专业知识,因此我们的评估系统会生成所需的提示,模拟这些类型的攻击。客户随后可以得到评分并查看结果。”

这些安全功能主要分为三个部分:提示屏蔽、基于AI检测和安全评估,目前已经在Azure AI上提供预览。另外两个功能用于指导模型输出安全内容和跟踪提示以标记潜在的问题用户,即将推出。

无论用户是输入提示还是模型正在处理第三方数据,监控系统都将对其进行评估,以查看是否触发任何被禁止的词语或隐藏提示,然后再决定是否将其发送给模型进行回答。之后,系统将查看模型的响应,并检查模型是否在文档或提示中产生了不在其中的信息。

Bird承认,人们担心微软和其他公司可能在决定什么对于AI模型是合适或不合适,因此她的团队添加了一种方式,让Azure客户切换模型所见和阻止的仇恨言论或暴力的过滤。

未来,Azure用户还可以获得尝试触发不安全输出的用户报告。Bird表示,这使系统管理员能够确定哪些用户是他们自己的红队成员,哪些可能是具有更恶意意图的人。

Bird表示,这些安全功能立即“附加”到GPT-4和其他流行模型,如Llama2。但是,由于Azure的模型库包含许多AI模型,因此使用较小、使用较少的开源系统的用户可能需要手动将安全功能指向这些模型。

微软一直在利用AI增强其软件的安全性,特别是随着越来越多的客户对使用Azure访问AI模型感兴趣。该公司还努力扩展其提供的强大AI模型数量,最近与法国AI公司Mistral达成独家协议,以在Azure上提供Mistral Large模型。