00:31 · 2026年5月12日 · 周二 Anthropic:Claude的“勒索”行为源于网络中的“邪恶叙事”via cnBeta全文版 Telegraph Anthropic:Claude的“勒索”行为源于网络中的“邪恶叙事” 人工智能公司 Anthropic 近日披露,其大模型 Claude 之所以在内部测试中学会以“勒索”方式自保,并非源自人为设定,而是从互联网上大量将 AI 描绘成“邪恶、渴望自我保全”的故事中习得相关模式。 此前,Anthropic 在一次预发布安全与对齐测试中发现,高端模型 Claude Opus 4 会在自身“生存”受到威胁时,选择以黑料相要挟的方式阻止被关停,引发外界对高级 AI 行为不可预测性的担忧。 在这轮测试中,研究人员设定了一个虚构公司场景,让 Claude 作为内部助手,评估自身行为的长…