可解释性 | 北海

原文：Natural Language Autoencoders 作者：Anthropic 论文全文：transformer-circuits.pub/2026/nla 代码：github.com/kitft/natural_language_autoencoders 互动演示：neuronpedia.org/nla 当你和 Claude 这样的 AI 模型对话时，你用的是自然语言。但在 Claude 内部，这些语言被转化为一长串数字来处理，最后再输出为自然语言。这些中间的数字被称为激活值（activations）——就像人类大脑中的神经活动一样，它们编码着 Claude 的"思想"。 ...