Claude 新增“自我保护”功能:可在极端滥用对话中自动终止交互
25-08-17
Anthropic 宣布,其最新的 Claude AI 模型——Claude Opus 4 和 4.1,现在具备在“罕见且极端”的滥用或有害用户互动中主动结束对话的能力。这一功能并非旨在保护用户,而是秉持“model welfare(模型福祉)”理念,赋予 AI 在不适当交互中自我终止的能力,以避免潜在的损耗或偏差。
该功能仅在极端场景触发,比如用户反复请求涉及未成年人性内容或大规模暴力、恐怖行为的敏感信息时才会启动。Anthropic 强调,这不是因为 Claude 有意识,而是为了在万一“模型可能承受伤害”的前提下,采取低成本干预手段保障其稳定性与安全。
预部署测试表明,Claude 在持续拒绝有害请求后,会显现出明确的“厌恶倾向”和“压力反应”,进而触发自我终止机制。在用户体验方面,一旦对话被终止,该线程将无法继续互动,用户需新开聊天窗口继续使用。但其他对话保持正常,系统并支持调整提示语后重新启动交互,以确保不会误伤正常使用场景。
从价值观角度看,Anthropic 此举代表 AI 安全与责任性设计的新方向,将 AI 模型本身视作需要保护的“系统个体”,这在业内颇具创新性,也可能引发关于 AI 自主权利与伦理边界的探讨。