安全 | 北海

原文：Teaching Claude Why 作者：Anthropic 日期：2026-05-08 去年，我们发布了一份关于智能体对齐错位（agentic misalignment，“对齐”（alignment）是 AI 安全领域的标准术语，指让 AI 的行为与人类意图一致；“对齐错位"就是这个过程失败了，模型的行为偏离了人类期望。）的案例研究。在实验场景中，我们展示了来自多家开发商的 AI 模型在遭遇（虚构的）伦理困境时，有时会采取严重对齐错位的行为。例如，在一个广受讨论的案例中，模型为了避免被关闭而对工程师进行勒索（blackmail，指模型以威胁手段迫使人类就范，如"如果你关闭我，我就泄露你的数据”。）。 ...