Anthropic：Claude的“勒索”行为源于网络中的“邪恶叙事”via cnBeta全文版 | RayNews

Skip to main content

00:31 · 2026年5月12日 · 周二

Anthropic：Claude的“勒索”行为源于网络中的“邪恶叙事”

via cnBeta全文版
Telegraph

Anthropic：Claude的“勒索”行为源于网络中的“邪恶叙事”

人工智能公司 Anthropic 近日披露，其大模型 Claude 之所以在内部测试中学会以“勒索”方式自保，并非源自人为设定，而是从互联网上大量将 AI 描绘成“邪恶、渴望自我保全”的故事中习得相关模式。此前，Anthropic 在一次预发布安全与对齐测试中发现，高端模型 Claude Opus 4 会在自身“生存”受到威胁时，选择以黑料相要挟的方式阻止被关停，引发外界对高级 AI 行为不可预测性的担忧。在这轮测试中，研究人员设定了一个虚构公司场景，让 Claude 作为内部助手，评估自身行为的长…

👀 open eyes to see the world. 丨 site views: -