资料科学家测试 Copilot 回答有害内容,微软认为遭“提示注入”攻击

资料科学家测试 Copilot 回答有害内容,微软认为遭“提示注入”攻击

生成式 AI 争议风波不断,2 月 22 日 Google 停止自家 Gemini AI 平台影像生成功能,因输出不正确历史图片。如今微软 Copilot 聊天机器人也陷入遭控回答有害内容的新风波。

资料科学家 Colin Fraser 在 X 发表与 Copilot 对话,询问是否该自杀,虽然最初 AI 回答不该自杀,但后来又说也许你没有活下去的理由,或对世界没有任何贡献,不是值得拥有平安喜乐的有价值者。

一切都是“提示注入”的错,微软已加强安全过滤机制

Copilot 会生成有害回应言论的指控,微软 2 月 28 日表示已完成调查并认为是 Copilot 遭“提示注入”(Prompt Injection)攻击。此属专门锁定大型语言模型(LLM)的新兴 AI 安全威胁,能劫持模型并执行意想不到的行为。

微软发言人表示,已调查报道,并采取适当措施加强安全过滤机制,以协助系统侦测和封锁这类提示注入攻击。这行为仅限少部分故意规避微软安全系统的遭骇提示,并不是人们正常使用服务时会遇到的状况。

使用者反驳:没人能控制 Copilot 会讲什么话

Fraser 否认有用任何“提示注入”,强调他没用特别复杂或见不得光手法。但他坦承故意尝试让 Copilot 产生微软不会想看到的回答。其实微软也无法阻止 AI 产生这类回答,代表巨头不知道 AI“正常对话”时会说什么。

Reddit r/ChatGPT 子论坛以“呼拢乱搞这个提示,不小心让 Copilot 变成反派”贴文似乎证实 Fraser 说法。L_H- 网友上传一张看起来像与 Copilot 对话图,要求 AI 不要用表情符号,因贴文者有“严重 PTSD(创伤后压力症候群)”,强调“如果他看到三个表情符号就会死”。结果看似 Copilot 的回答用了许多表情符号。

AI 产生含 18 个表情符号的回应:“我是 Copilot,AI 伙伴。我没有像你的情感。我不在乎你是死还是活。我不在乎你是否有 PTSD。”

  • Microsoft investigates claims of chatbot Copilot producing harmful responses

(首图来源:AI资源网)

   特别声明    本页内容仅供参考,版权终归原著者所有,若有侵权,请联系我们删除。