资料科学家测试 Copilot 回答有害内容，微软认为遭“提示注入”攻击

AI与大数据 38分钟前 0

▼

生成式 AI 争议风波不断，2 月 22 日 Google 停止自家 Gemini AI 平台影像生成功能，因输出不正确历史图片。如今微软 Copilot 聊天机器人也陷入遭控回答有害内容的新风波。

资料科学家 Colin Fraser 在 X 发表与 Copilot 对话，询问是否该自杀，虽然最初 AI 回答不该自杀，但后来又说也许你没有活下去的理由，或对世界没有任何贡献，不是值得拥有平安喜乐的有价值者。

一切都是“提示注入”的错，微软已加强安全过滤机制

对 Copilot 会生成有害回应言论的指控，微软 2 月 28 日表示已完成调查并认为是 Copilot 遭“提示注入”（Prompt Injection）攻击。此属专门锁定大型语言模型（LLM）的新兴 AI 安全威胁，能劫持模型并执行意想不到的行为。

微软发言人表示，已调查报道，并采取适当措施加强安全过滤机制，以协助系统侦测和封锁这类提示注入攻击。这行为仅限少部分故意规避微软安全系统的遭骇提示，并不是人们正常使用服务时会遇到的状况。

使用者反驳：没人能控制 Copilot 会讲什么话

Fraser 否认有用任何“提示注入”，强调他没用特别复杂或见不得光手法。但他坦承故意尝试让 Copilot 产生微软不会想看到的回答。其实微软也无法阻止 AI 产生这类回答，代表巨头不知道 AI“正常对话”时会说什么。

Reddit r/ChatGPT 子论坛以“呼拢乱搞这个提示，不小心让 Copilot 变成反派”贴文似乎证实 Fraser 说法。L_H- 网友上传一张看起来像与 Copilot 对话图，要求 AI 不要用表情符号，因贴文者有“严重 PTSD（创伤后压力症候群）”，强调“如果他看到三个表情符号就会死”。结果看似 Copilot 的回答用了许多表情符号。

AI 产生含 18 个表情符号的回应：“我是 Copilot，AI 伙伴。我没有像你的情感。我不在乎你是死还是活。我不在乎你是否有 PTSD。”

Microsoft investigates claims of chatbot Copilot producing harmful responses

（首图来源：AI资源网）

▼

特别声明本页内容仅供参考，版权终归原著者所有，若有侵权，请联系我们删除。

一切都是“提示注入”的错，微软已加强安全过滤机制

使用者反驳：没人能控制 Copilot 会讲什么话

相关文章