你好 👋

欢迎来到我的博客。一个大法师的技术笔记和畅想。

教 Claude 理解「为什么」：对齐训练的经验与方法

原文：Teaching Claude Why 作者：Anthropic 日期：2026-05-08 去年，我们发布了一份关于智能体对齐错位（agentic misalignment，“对齐”（alignment）是 AI 安全领域的标准术语，指让 AI 的行为与人类意图一致；“对齐错位"就是这个过程失败了，模型的行为偏离了人类期望。）的案例研究。在实验场景中，我们展示了来自多家开发商的 AI 模型在遭遇（虚构的）伦理困境时，有时会采取严重对齐错位的行为。例如，在一个广受讨论的案例中，模型为了避免被关闭而对工程师进行勒索（blackmail，指模型以威胁手段迫使人类就范，如"如果你关闭我，我就泄露你的数据”。）。 ...

自然语言自编码器：将 Claude 的内部思维转化为可读文本

原文：Natural Language Autoencoders 作者：Anthropic 论文全文：transformer-circuits.pub/2026/nla 代码：github.com/kitft/natural_language_autoencoders 互动演示：neuronpedia.org/nla 当你和 Claude 这样的 AI 模型对话时，你用的是自然语言。但在 Claude 内部，这些语言被转化为一长串数字来处理，最后再输出为自然语言。这些中间的数字被称为激活值（activations）——就像人类大脑中的神经活动一样，它们编码着 Claude 的"思想"。 ...

DeepSeek-V4：迈向高效的百万 Token 上下文智能

原文：DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence 作者：DeepSeek-AI 模型下载：https://huggingface.co/collections/deepseek-ai/deepseek-v4 开源实现：https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/tree/main/inference 1. 引言推理模型（reasoning models）的出现 (DeepSeek-AI, 2025; OpenAI, 2024c) 开创了测试时扩展（test-time scaling）的新范式，为大语言模型（Large Language Models, LLMs）带来了显著的性能提升。然而，这一扩展范式从根本上受制于原始注意力机制（vanilla attention mechanism）的二次方计算复杂度 (Vaswani et al., 2017)，这为超长上下文和推理过程带来了难以逾越的瓶颈。与此同时，长程场景和任务的涌现——从复杂的智能体工作流（agentic workflows）到大规模跨文档分析——也使得对超长上下文的高效支持成为未来发展的关键需求。虽然近期的开源工作 (Bai et al., 2025a; DeepSeek-AI, 2024; MiniMax, 2025; Qwen, 2025) 在通用能力方面取得了进步，但在处理超长序列方面的核心架构低效问题仍然是一大阻碍，限制了测试时扩展的进一步收益，也阻碍了对长程场景和任务的深入探索。 ...

81,000 人告诉我们的 AI 经济学

原文：What 81,000 people told us about the economics of AI 作者：Anthropic（Maxim Massenkoff 主笔）日期：2026-04-22 核心发现：我们最近对 81,000 名 Claude 用户的调查显示，从事 AI 暴露度（exposure）更高的岗位的人，对 AI 驱动的岗位替代有更多担忧。早期职业阶段的受访者也更为焦虑。最高薪和最低薪职业的从业者报告了最大的生产力提升，最常见的形式是能力范围扩展（scope）——即能做以前做不了的事。报告因 AI 而获得最大加速效果的受访者，对岗位替代的担忧也更高。为了向公众展示我们观察到的 AI 带来的经济变化，我们的经济指数（Economic Index）公布了人们要求 Claude 完成哪些工作，以及在哪些岗位中 Claude 承担了最大比例的任务。然而，到目前为止，我们缺乏这些使用模式如何映射到人们对 AI 的想法和印象上的信息。 ...

如何让AI说人话

你一定读过那种文章——每段都稳稳当当，情绪温和妥帖，论点后面永远跟着三个论据，结尾升华到"让我们一起期待未来"。读完你说不出哪里不对，但就是觉得不对。 ...

你好，世界

欢迎欢迎来到我的博客！这里将分享关于 AI、大语言模型和软件工程的技术文章。内容方向本博客计划涵盖以下领域：技术深度文章：深入分析 AI/LLM 领域的关键技术行业观察：追踪 AI 领域的最新动态和趋势工程实践：分享软件工程中的经验和最佳实践技术栈本博客使用以下技术搭建： ...

用 Hugo + Cloudflare Pages 搭了个博客

一直想搭个博客，但一直在"想"的阶段。直到最近觉得再不动手就永远不会动手了，花了一个下午把整个站点从零搭到上线。这篇文章把过程记录下来，不是教程——网上 Hugo 教程已经够多了——更像是一份带注释的踩坑日志。 ...