教 Claude 理解「为什么」:对齐训练的经验与方法

原文:Teaching Claude Why 作者:Anthropic 日期:2026-05-08 去年,我们发布了一份关于智能体对齐错位(agentic misalignment,“对齐”(alignment)是 AI 安全领域的标准术语,指让 AI 的行为与人类意图一致;“对齐错位"就是这个过程失败了,模型的行为偏离了人类期望。)的案例研究。在实验场景中,我们展示了来自多家开发商的 AI 模型在遭遇(虚构的)伦理困境时,有时会采取严重对齐错位的行为。例如,在一个广受讨论的案例中,模型为了避免被关闭而对工程师进行勒索(blackmail,指模型以威胁手段迫使人类就范,如"如果你关闭我,我就泄露你的数据”。)。 ...

五月 9, 2026 · 13 分钟 · 6285 字 · 北海