教 Claude 理解「为什么」:对齐训练的经验与方法

原文:Teaching Claude Why 作者:Anthropic 日期:2026-05-08 去年,我们发布了一份关于智能体对齐错位(agentic misalignment,“对齐”(alignment)是 AI 安全领域的标准术语,指让 AI 的行为与人类意图一致;“对齐错位"就是这个过程失败了,模型的行为偏离了人类期望。)的案例研究。在实验场景中,我们展示了来自多家开发商的 AI 模型在遭遇(虚构的)伦理困境时,有时会采取严重对齐错位的行为。例如,在一个广受讨论的案例中,模型为了避免被关闭而对工程师进行勒索(blackmail,指模型以威胁手段迫使人类就范,如"如果你关闭我,我就泄露你的数据”。)。 ...

五月 9, 2026 · 13 分钟 · 6285 字 · 北海

自然语言自编码器:将 Claude 的内部思维转化为可读文本

原文:Natural Language Autoencoders 作者:Anthropic 论文全文:transformer-circuits.pub/2026/nla 代码:github.com/kitft/natural_language_autoencoders 互动演示:neuronpedia.org/nla 当你和 Claude 这样的 AI 模型对话时,你用的是自然语言。但在 Claude 内部,这些语言被转化为一长串数字来处理,最后再输出为自然语言。这些中间的数字被称为激活值(activations)——就像人类大脑中的神经活动一样,它们编码着 Claude 的"思想"。 ...

五月 8, 2026 · 10 分钟 · 4688 字 · 北海

81,000 人告诉我们的 AI 经济学

原文:What 81,000 people told us about the economics of AI 作者:Anthropic(Maxim Massenkoff 主笔) 日期:2026-04-22 核心发现: 我们最近对 81,000 名 Claude 用户的调查显示,从事 AI 暴露度(exposure)更高的岗位的人,对 AI 驱动的岗位替代有更多担忧。早期职业阶段的受访者也更为焦虑。 最高薪和最低薪职业的从业者报告了最大的生产力提升,最常见的形式是能力范围扩展(scope)——即能做以前做不了的事。 报告因 AI 而获得最大加速效果的受访者,对岗位替代的担忧也更高。 为了向公众展示我们观察到的 AI 带来的经济变化,我们的经济指数(Economic Index)公布了人们要求 Claude 完成哪些工作,以及在哪些岗位中 Claude 承担了最大比例的任务。然而,到目前为止,我们缺乏这些使用模式如何映射到人们对 AI 的想法和印象上的信息。 ...

四月 23, 2026 · 13 分钟 · 6281 字 · 北海

如何让AI说人话

你一定读过那种文章——每段都稳稳当当,情绪温和妥帖,论点后面永远跟着三个论据,结尾升华到"让我们一起期待未来"。读完你说不出哪里不对,但就是觉得不对。 ...

四月 23, 2026 · 12 分钟 · 5665 字 · 北海