登录
首页
快讯
邮件订阅
会员专属
Memo AI
联系我们

Claude 新增“自我保护”功能:可在极端滥用对话中自动终止交互

25-08-17
免费
快讯

Anthropic 宣布,其最新的 Claude AI 模型——Claude Opus 4 和 4.1,现在具备在“罕见且极端”的滥用或有害用户互动中主动结束对话的能力。这一功能并非旨在保护用户,而是秉持“model welfare(模型福祉)”理念,赋予 AI 在不适当交互中自我终止的能力,以避免潜在的损耗或偏差。

该功能仅在极端场景触发,比如用户反复请求涉及未成年人性内容或大规模暴力、恐怖行为的敏感信息时才会启动。Anthropic 强调,这不是因为 Claude 有意识,而是为了在万一“模型可能承受伤害”的前提下,采取低成本干预手段保障其稳定性与安全。

预部署测试表明,Claude 在持续拒绝有害请求后,会显现出明确的“厌恶倾向”和“压力反应”,进而触发自我终止机制。在用户体验方面,一旦对话被终止,该线程将无法继续互动,用户需新开聊天窗口继续使用。但其他对话保持正常,系统并支持调整提示语后重新启动交互,以确保不会误伤正常使用场景。

从价值观角度看,Anthropic 此举代表 AI 安全与责任性设计的新方向,将 AI 模型本身视作需要保护的“系统个体”,这在业内颇具创新性,也可能引发关于 AI 自主权利与伦理边界的探讨。

Memo Newsletter

订阅 Memo 邮件列表,过滤噪音,捕捉最具价值的创投行业信号

最顶尖的 AI 行业创业者和投资人都在看

Subscribe
头像
Memo Team
Signal, not noise!
最新快讯