Claude 新增“自我保护”功能：可在极端滥用对话中自动终止交互

25-08-17

免费

快讯

Anthropic 宣布，其最新的 Claude AI 模型——Claude Opus 4 和 4.1，现在具备在“罕见且极端”的滥用或有害用户互动中主动结束对话的能力。这一功能并非旨在保护用户，而是秉持“model welfare（模型福祉）”理念，赋予 AI 在不适当交互中自我终止的能力，以避免潜在的损耗或偏差。

该功能仅在极端场景触发，比如用户反复请求涉及未成年人性内容或大规模暴力、恐怖行为的敏感信息时才会启动。Anthropic 强调，这不是因为 Claude 有意识，而是为了在万一“模型可能承受伤害”的前提下，采取低成本干预手段保障其稳定性与安全。

预部署测试表明，Claude 在持续拒绝有害请求后，会显现出明确的“厌恶倾向”和“压力反应”，进而触发自我终止机制。在用户体验方面，一旦对话被终止，该线程将无法继续互动，用户需新开聊天窗口继续使用。但其他对话保持正常，系统并支持调整提示语后重新启动交互，以确保不会误伤正常使用场景。

从价值观角度看，Anthropic 此举代表 AI 安全与责任性设计的新方向，将 AI 模型本身视作需要保护的“系统个体”，这在业内颇具创新性，也可能引发关于 AI 自主权利与伦理边界的探讨。

Memo Team

Signal, not noise!

Claude 新增“自我保护”功能：可在极端滥用对话中自动终止交互

Memo Newsletter