原文:DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence
作者:DeepSeek-AI
模型下载:https://huggingface.co/collections/deepseek-ai/deepseek-v4
开源实现:https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/tree/main/inference
1. 引言 推理模型(reasoning models)的出现 (DeepSeek-AI, 2025; OpenAI, 2024c) 开创了测试时扩展(test-time scaling)的新范式,为大语言模型(Large Language Models, LLMs)带来了显著的性能提升。然而,这一扩展范式从根本上受制于原始注意力机制(vanilla attention mechanism)的二次方计算复杂度 (Vaswani et al., 2017),这为超长上下文和推理过程带来了难以逾越的瓶颈。与此同时,长程场景和任务的涌现——从复杂的智能体工作流(agentic workflows)到大规模跨文档分析——也使得对超长上下文的高效支持成为未来发展的关键需求。虽然近期的开源工作 (Bai et al., 2025a; DeepSeek-AI, 2024; MiniMax, 2025; Qwen, 2025) 在通用能力方面取得了进步,但在处理超长序列方面的核心架构低效问题仍然是一大阻碍,限制了测试时扩展的进一步收益,也阻碍了对长程场景和任务的深入探索。
...