杭州网站建设哪里好微信内部劵网站怎么做-贵港市网站建设公司-Seo优化

杭州网站建设哪里好,微信内部劵网站怎么做,soho外贸网站,2345网址大全设主页怎么设置DeepSeek V3到V3.2的技术演进包括#xff1a;引入稀疏注意力机制(DSA)提高计算效率#xff1b;采用自我验证与自我修正技术提升数学问题解决能力#xff1b;优化GRPO算法增强训练稳定性#xff1b;推出扩展思维的V3.2-Speciale变体。这些创新使DeepSeek V3.2在基准测试中表…DeepSeek V3到V3.2的技术演进包括引入稀疏注意力机制(DSA)提高计算效率采用自我验证与自我修正技术提升数学问题解决能力优化GRPO算法增强训练稳定性推出扩展思维的V3.2-Speciale变体。这些创新使DeepSeek V3.2在基准测试中表现优异与GPT-5和Gemini 3.0 Pro相媲美成为开放权重模型中的有力竞争者。知名 AI 研究者和博主 Sebastian Raschka详细梳理了 DeepSeek V3 到 V3.2 的进化历程。博客标题A Technical Tour of the DeepSeek Models from V3 to V3.2博客地址https://sebastianraschka.com/blog/2025/technical-deepseek.html与 DeepSeek V3 的发布策略如出一辙DeepSeek 团队再次选择在一个美国主要节假日周末发布了他们的新旗舰模型。鉴于 DeepSeek V3.2 展现出了极佳的性能水平在基准测试中对标 GPT-5 和 Gemini 3.0 Pro加之它本身也是一个开放权重模型这无疑值得重点关注。图 1DeepSeek V3.2 与专有旗舰模型之间的基准测试对比。来自 DeepSeek V3.2 报告并加上了注释。我曾在文章《大型 LLM 架构对比》的开篇介绍过它的前身 ——DeepSeek V3。随着新架构的不断涌现我在过去几个月里一直在持续更新那篇文章。原本我刚和家人度完感恩节假期回来计划「只是」在原文章中增加一个新章节来简单介绍这次新发布的 DeepSeek V3.2。但随后我意识到这次更新包含太多有趣的信息和细节仅仅一个章节无法涵盖。因此我决定将其写成一篇篇幅较长的独立文章。他们的技术报告中涵盖了大量有趣的领域和值得学习的知识让我们开始吧目录DeepSeek 发布时间线混合推理模型与专用推理模型从 DeepSeek V3 到 V3.13.1 DeepSeek V3 概览与多头潜在注意力 (MLA)3.2 DeepSeek R1 概览与带可验证奖励的强化学习 (RLVR)3.3 DeepSeek R1-0528 版本升级3.4 DeepSeek V3.1 混合推理DeepSeek V3.2-Exp 与稀疏注意力机制采用自我验证与自我修正的 DeepSeekMath V25.1 自我验证5.2 自我修正DeepSeek V3.2 (2025 年 12 月 1 日)6.1 DeepSeek V3.2 架构6.2 强化学习更新6.3 GRPO 更新6.4 DeepSeek V3.2-Speciale 与扩展思维总结DeepSeek 发布时间线虽然 DeepSeek V3 在 2024 年 12 月刚发布时并没有立刻引起轰动但随后推出的 DeepSeek R1 推理模型基于相同的架构使用 DeepSeek V3 作为基础模型改变了局面。它帮助 DeepSeek 成为了最受欢迎的开放权重模型之一并成为了 OpenAI、Google、xAI 和 Anthropic 等公司专有模型的有力替代方案。图 22024 年 12 月发布的 DeepSeek V3 和 R1 架构。我们将在稍后的章节中重温并讨论这些架构细节。那么自 V3/R1 以来有什么新变化吗我相信 DeepSeek 团队今年一定非常忙碌。然而自 DeepSeek R1 发布后的过去 10 到 11 个月里并没有出现重大的版本发布。就我个人而言我认为花大约一年的时间来发布一个主要的 LLM 版本是合理的因为这涉及海量的工作。然而我在各种社交媒体平台上看到人们宣称该团队已经「凉了」。最后这并不代表他们什么都没发布。今年其实陆续有一些较小的发布例如 DeepSeek V3.1 和 V3.2-Exp。图 3自去年以来的 DeepSeek 发布情况。主要模型以红色显示。正如我在九月份所预测的那样DeepSeek V3.2-Exp 的发布旨在为托管刚刚发布的 V3.2 模型准备生态系统和推理基础设施。V3.2-Exp 和 V3.2 使用了一种非标准的稀疏注意力Sparse Attention变体这需要定制代码我们稍后会详细介绍这种机制。混合推理模型与专用推理模型在进一步讨论模型细节之前有必要先探讨一下整体的模型类型。最初DeepSeek V3 是作为一个基础模型发布的而 DeepSeek R1 则增加了额外的后训练以开发成一个专用的推理模型。这一过程总结在下图中。图 4DeepSeek R1 训练流程概览这里值得注意的是DeepSeek V3 是基础模型而 DeepSeek R1 是专用的推理模型。在 DeepSeek 推进的同时其他团队今年也发布了许多非常强大的开放权重推理模型。今年最强的开放权重模型之一是 Qwen3。最初它是作为一个混合推理模型发布的这意味着用户可以在同一个模型中切换推理模式和非推理模式。在 Qwen3 的案例中这种切换是通过分词器添加 / 省略标签来实现的。从那时起LLM 团队发布了专用推理模型和指令 / 推理混合模型有些团队甚至在这两者之间反复横跳如下图的时间线所示。图 5今年发布的部分推理模型和混合模型的时间线。例如Qwen3 最初是混合模型。但随后Qwen 团队分别发布了独立的指令Instruct模型和推理Reasoning模型因为这两种模型开发起来更容易且在各自的用例中性能表现更好。有些模型如 OpenAI 的 gpt-oss仅提供混合变体用户可以通过系统提示词System Prompt选择推理力度我怀疑 GPT-5 和 GPT-5.1 也是类似的处理方式。而在 DeepSeek 的案例中他们似乎反其道而行之从专用推理模型R1转向了混合模型V3.1 和 V3.2。不过我怀疑 R1 主要是作为一个研究项目旨在开发推理方法和验证当时最好的推理模型。V3.2 的发布可能更多是为了开发针对不同用例的最佳整体模型。在这里R1 更像是一个测试平台或原型模型。我也猜想虽然 DeepSeek 团队开发了具有推理能力的 V3.1 和 V3.2但他们可能仍在开发专门的 R2 模型。从 DeepSeek V3 到 V3.1在更详细地讨论新的 DeepSeek V3.2 发布之前我认为先概述一下从 V3 到 V3.1 的主要变化会很有帮助。3.1 DeepSeek V3 概览与多头潜在注意力 (MLA)我已经在其他几篇文章中非常详细地讨论了 DeepSeek V3 和 R1。总结一下要点DeepSeek V3 是一个基础模型它使用了两个值得注意的架构特性混合专家模型MoE和多头潜在注意力MLA。我想你此时可能已经对 MoE 非常熟悉了所以我这里跳过介绍。另一个值得注意的亮点是 MLA 的使用。MLA 已被用于 DeepSeek V2、V3 和 R1它提供了一种节省内存的策略特别适合与 KV 缓存搭配使用。MLA 的核心思想是在将键Key和值Value张量存储到 KV 缓存之前先将它们压缩到一个低维空间中。在推理时这些压缩的张量在使用前会被投影回其原始大小如下图所示。这虽然增加了一次额外的矩阵乘法但显著减少了内存使用。顺便提一下查询 Query 也会被压缩但仅在训练期间推理期间不会。图 6DeepSeek V3 和 R1 中的多头潜在注意力 (MLA)。为简单起见未显示查询向量的压缩空间。上图阐述了 MLA 背后的主要思想键和值首先被投影到一个潜在向量中该向量可以存储在 KV 缓存中以减少内存需求。这需要稍后进行向上投影Up-projection回到原始的键 - 值空间但总体上它提高了效率类比一下你可以将其想象为 LoRA 中的降维和升维投影。顺便说一句正如前面提到的MLA 在 DeepSeek V3 中并不是新事物因为它的前身 DeepSeek V2 也使用了甚至引入了它。3.2 DeepSeek R1 概览与带可验证奖励的强化学习 (RLVR)DeepSeek R1 使用了与上述 DeepSeek V3 相同的架构。区别在于训练配方。即使用 DeepSeek V3 作为基础模型DeepSeek R1 专注于「带可验证奖励的强化学习」RLVR方法以提高模型的推理能力。RLVR 的核心思想是让模型从可以进行符号化或编程验证的响应中学习例如数学和代码但这当然也可以扩展到这两个领域之外。图 7一个可验证任务的示例。GRPO 算法全称「群相对策略优化」Group Relative Policy Optimization本质上是「近端策略优化」PPO算法的一个简化变体。PPO 在用于 LLM 对齐的「带人类反馈的强化学习」RLHF中非常流行。图 8LLM 训练中强化学习设置的比较。传统的带 PPO 的 RLHF 使用奖励模型基于人类偏好训练和评论家价值模型来指导学习。GRPO 取消了评论家模型。带 GRPO 的 RLVR 更进一步移除了奖励模型转而依赖来自符号工具如计算器或编译器的可验证奖励。3.3 DeepSeek R1-0528 版本升级正如 DeepSeek 团队自己所述DeepSeek R1-0528 基本上是一个「小版本升级」。架构与 DeepSeek V3/R1 保持一致改进主要在训练方面以使其达到当时 OpenAI o3 和 Gemini 2.5 Pro 的水平。遗憾的是DeepSeek 团队没有发布任何具体信息来描述这是如何实现的然而他们表示这部分源于后训练流程的优化。此外根据已分享的信息我认为该模型的托管版本在推理时可能会使用更多的计算资源即进行更长时间的推理。3.4 DeepSeek V3.1 混合推理DeepSeek V3.1 是一个兼具通用聊天指令和推理能力的混合模型。也就是说不再开发两个独立的模型而是现在有一个模型用户可以通过聊天提示模板切换模式类似于最初的 Qwen3 模型。DeepSeek V3.1 基于 DeepSeek V3.1-Base而后者又基于 DeepSeek V3。它们都共享相同的架构。DeepSeek V3.2-Exp 与稀疏注意力机制DeepSeek V3.2-Exp (2025 年 9 月) 开始变得更有趣了。最初DeepSeek V3.2-Exp 在发布时并没有霸榜基准测试这也是为什么当时围绕这个模型的兴奋度不高的原因。然而正如我在九月份推测的那样这很可能是一个早期的实验性发布旨在为更大规模的发布准备基础设施特别是推理和部署工具因为 DeepSeek V3.2-Exp 中有一些架构上的变化。更大的发布是 DeepSeek V3.2不是 V4这一部分稍后会详细介绍。那么DeepSeek V3.2-Exp 有什么新东西首先DeepSeek V3.2-Exp 是基于 DeepSeek V3.1-Terminus 作为基础模型训练的。什么是 DeepSeek V3.1-Terminus它只是上一节提到的 DeepSeek V3.1 检查点的一个小幅改进版。技术报告指出DeepSeek-V3.2-Exp一个实验性的稀疏注意力模型它通过持续训练为 DeepSeek-V3.1-Terminus 配备了 DeepSeek 稀疏注意力 (DSA)。凭借由 Lightning Indexer 驱动的细粒度稀疏注意力机制 DSADeepSeek-V3.2-Exp 在训练和推理方面都实现了显著的效率提升特别是在长上下文场景中。如上段所述这里的主要创新是他们在对 DeepSeek V3.1-Terminus 进行进一步训练之前添加了 DeepSeek 稀疏注意力 (DSA) 机制。这个 DSA 由 (1) 一个 lightning indexer 和 (2) 一个 Token 选择器token-selector组成目标是有选择地减少上下文以提高效率。为了解释它是如何工作的让我们从滑动窗口注意力开始。例如滑动窗口注意力这种技术最近被 Gemma 3 和 Olmo 3 使用会将注意力窗口限制为固定大小如下图所示。图 9在滑动窗口注意力中当前的查询 Token 不关注所有之前的 Token而只关注一个子集。DSA 基于与滑动窗口注意力相同的想法只能关注一部分过去的 Token。然而DSA 不是通过固定宽度的滑动窗口来选择可关注的 Token而是拥有一个索引器和 Token 选择器来决定哪些过去的 Token 可以被关注。换句话说可被关注的 Token 选择更加随机如下图所示。图 10在 DSA 中当前 Token 可以关注一组选定的过去 Token而不是像常规因果注意力那样关注所有过去 Token。然而虽然我上面说了「随机」但选择哪些过去 Token 的模式实际上并不是随机的而是学习得到的。实际上DSA 使用其所谓的 lightning indexer 基于所有先前的 Token 为每个新的查询 Token 计算相关性分数。对于此计算lightning indexer 使用 DeepSeek 多头潜在注意力 (MLA) 中的压缩 Token 表示并计算与其他 Token 的相似度。相似度分数基本上是通过 ReLU 函数的查询向量和键向量之间的缩放点积。如果你对数学细节感兴趣下面展示了摘自论文的该 lightning indexer 相似度分数的方程这里w 是一个学习得到的每头per-head加权系数决定每个索引器头对最终相似度分数的贡献程度。q 指的是查询向量k 指的是键向量。下面是不同下标的列表t当前查询 Token 的位置s序列中先前 Token 的位置 (0 ≤ s t)j不同索引器头的索引为了简单起见图 10 仅显示了一个头所以 q_{t,j} 意思是「索引器头 j 中当前 Token t 的查询向量」。你可能会注意到索引器仅针对查询而不针对键。这是因为模型只需要决定每个新查询应该考虑哪些过去的 Token。键已经被压缩并存储在 KV 缓存中因此索引器不需要再次对它们进行评分或压缩。这里的 ReLU 函数因为它是 f(x) max(x, 0)会将负的点积位置归零这理论上可以实现稀疏性。但由于存在对不同头的求和索引器分数实际上为 0 的可能性很小。稀疏性主要来自于单独的 Token 选择器。单独的 Token 选择器仅保留少量高分 Token例如top-k 位置并构建一个稀疏注意力掩码掩盖掉未包含在选定子集中的其他 Token。注意这里的 k 是 top-k 中的 k不要与上面方程中用于键的 k 混淆这是一个超参数在 DeepSeek 团队分享的模型代码中设置为 2048。下图以流程图的形式说明了整个过程。图 11DeepSeek V3.2 稀疏注意力机制的可视化总结。总结一下索引器和 Token 选择器的结果是每个 Token 只关注模型习得的认为最相关的几个过去 Token而不是所有 Token 或固定的局部窗口。这里的目标不是为了超越 DeepSeek V3.1-Terminus 的性能而是在减少性能衰减由于稀疏注意力机制的同时受益于效率的提升。总的来说DSA 将注意力机制的计算复杂度从二次的 O(L²) 降低到了线性的 O(Lk)其中 L 是序列长度k 是选定 Token 的数量。采用自我验证与自我修正的 DeepSeekMath V2讨论完 DeepSeek V3.2-Exp我们越来越接近本文的主题DeepSeek V3.2。然而还有一个拼图需要先讨论。2025 年 11 月 27 日美国的感恩节就在 DeepSeek V3.2 发布前 4 天DeepSeek 团队发布了基于 DeepSeek V3.2-Exp-Base 的 DeepSeekMath V2。该模型是专门为数学开发的并在多个数学竞赛中获得了金牌级的分数。本质上我们可以将其视为 DeepSeek V3.2 的概念验证模型它引入了另一项技术。这里的关键在于推理模型如 DeepSeek R1 和其他模型是使用外部验证器训练的模型学会了在得出最终答案之前自行编写解释。然而这些解释可能是不正确的。正如 DeepSeek 团队简洁指出的那样常规 RLVR 的缺点是[…] 正确的答案并不保证正确的推理。[…] 模型可能通过有缺陷的逻辑或幸运的错误得出正确的答案。他们旨在解决的 DeepSeek R1 RLVR 方法的另一个局限性是[…] 许多数学任务如定理证明需要严格的逐步推导而不是数值答案这使得最终答案奖励并不适用。因此为了改善上述两个缺点他们训练了两个模型一个用于定理证明的基于 LLM 的验证器Verifier。主模型一个证明生成器Proof-Generator它使用基于 LLM 的验证器作为奖励模型而不是符号验证器。除了上述通过 LLM 进行自我验证外他们还使用了自我修正让 LLM 迭代地改进其自己的答案。5.1 自我验证拥有一个对中间步骤进行评分的 LLM 并不是什么新鲜事。有不少关于所谓「过程奖励模型」Process Reward Models的研究专注于此。例子包括Solving Math Word Problems With Process- and Outcome-based Feedback (2022) 或 Let’s Verify Step by Step (2023)还有更多。过程奖励模型的挑战在于检查中间奖励是否正确并不容易这也可能导致奖励黑客攻击reward hacking。在 2025 年 1 月的 DeepSeek R1 论文中他们没有使用过程奖励模型因为他们发现在我们的实验中与其在大规模强化学习过程中引入的额外计算开销相比它的优势是有限的。在此文中他们以自我验证的形式成功地重新审视了这一点。其动机是即使不存在参考答案人类在阅读证明和发现问题时也能进行自我纠正。因此为了开发一个更好的撰写数学证明的模型下图中的 LLM 1他们开发了一个证明验证器下图中的 LLM 2它可以用作「LLM 即裁判」LLM-as-a-judge来对证明者LLM 1的输出进行评分。图 12通用的数学证明生成器 (LLM 1) 和验证器 (LLM 2) 设置。验证器 LLM (LLM 2) 接收一个评分标准来对生成的证明进行评分分数规则如下「1 分完整且严谨的证明所有逻辑步骤都有清晰的论证」「0.5 分证明整体逻辑合理但有微小错误或遗漏细节」「0 分证明存在根本性缺陷包含致命的逻辑错误或关键缺失。」对于证明验证器模型他们从 DeepSeek V3.2-Exp-SFT 开始这是他们基于 DeepSeek V3.2-Exp 通过在推理数据数学和代码上进行监督微调而创建的模型。然后他们使用格式奖励检查解决方案是否符合预期格式和基于预测分数与实际分数由人类数学专家标注接近程度的分数奖励对该模型进行进一步的强化学习训练。证明验证器 (LLM 2) 的目标是检查生成的证明 (LLM 1)但谁来检查证明验证器呢为了使证明验证器更加稳健并防止其产生幻觉问题他们开发了第三个 LLM即元验证器Meta-verifier。图 13元验证器 (LLM 3) 检查验证器 (LLM 2) 是否正确评估了生成器 (LLM 1)。元验证器 (LLM 3) 也是通过强化学习开发的类似于 LLM 2。虽然使用元验证器不是必须的但 DeepSeek 团队报告称由元验证器评估的验证器证明分析的平均质量得分从 0.85 提高到了 0.96同时保持了相同的证明评分预测准确性。这实际上是一个相当有趣的设置。如果你熟悉生成对抗网络 (GAN)你可能会在这里看到类比。例如证明验证器将其视为 GAN 判别器改进了证明生成器而证明生成器生成了更好的证明进一步推动了证明验证器的进步。元分数Meta score用于验证器 (LLM 2) 和生成器 (LLM 1) 的训练期间。它并不用于推理时的自我修正循环我们将在下一节讨论这一点。5.2 自我修正在上一节中我们谈到了自我验证即分析解决方案的质量。其目的是为了实现自我修正这意味着 LLM 可以根据反馈采取行动并修改其答案。传统上在自我修正这种成熟且流行的推理扩展技术中我们会使用同一个 LLM 来生成解决方案并对其进行验证然后再进行修正。换句话说在前面的图 12 和 13 中LLM 1 和 LLM 2 将是同一个 LLM。因此传统的自我修正过程如下所示图 14一个经典的自我修正迭代同一个 LLM 生成初始响应Output 1对其进行评估Eval并生成修正后的答案Output 2。然而DeepSeek 团队观察到在实践中使用同一个 LLM 既进行生成又进行验证存在一个关键问题当被提示一次性生成并分析其自己的证明时生成器往往会声称正确即使外部验证器很容易发现缺陷。换句话说虽然生成器可以根据外部反馈修正证明但它无法像专用验证器那样严谨地评估自己的工作。作为逻辑推论人们会假设他们使用独立的证明生成器 (LLM 1) 和证明验证器 (LLM 2)。因此这里使用的自我修正循环变得类似于下图所示。请注意我们省略了 LLM 3它仅在开发验证器 (LLM 2) 期间使用。图 15使用独立验证器 LLM (LLM 2) 的自我修正。然而在实践中与图 15 不同的是DeepSeek 团队使用的生成器和验证器 LLM 与图 14 中的经典自我修正循环是同一个「所有实验都使用了一个单一模型即我们的最终证明生成器它同时执行证明生成和验证。」换句话说独立的验证器对于训练是必不可少的——可用于改进生成器但在生成器足够强大之后在推理期间就不再使用或不需要它了。与简单的单模型自我修正的关键区别在于最终的证明者是在更强大的验证器和元验证器的指导下训练出来的因此它学会了将这些评分标准应用于自己的输出。此外在推理期间使用这种合二为一的 DeepSeekMath V2 验证器在资源和成本方面也是有利的因为它比运行第二个 LLM 进行证明验证增加了更少的复杂性和计算需求。回到图 14 和 15 中展示的一般自我修正概念这两张图都显示了 2 次迭代的自我修正初始迭代和修正后的答案。当然我们可以向此过程添加更多迭代。这是一个经典的推理扩展权衡我们添加的迭代越多生成答案的成本就越高但整体准确性也会越高。在论文中DeepSeek 团队使用了多达 8 次迭代看起来准确性尚未饱和。图 16额外的自我修正迭代提高了准确性。来自 DeepSeekMath V2 论文并加上了注释。Best32 多数投票方法也被称为自我一致性Self-consistency。DeepSeek V3.2 (2025 年 12 月 1 日)我们在上一节花了这么多时间讨论 DeepSeekMath V2 的原因是它是一个非常有趣的概念验证通过自我验证和自我修正技术进一步推动了「带可验证奖励的强化学习」RLVR理念自我验证和自我修正技术也被用于 DeepSeek V3.2 中。但在我们进入这部分之前先来看看 DeepSeek V3.2 的总体概况。这个模型之所以重要是因为它与当前的旗舰模型相比表现非常出色。图 17DeepSeek V3.2 与专有旗舰模型之间的基准测试对比。来自 DeepSeek V3.2 报告并加上了注释。与 DeepSeek 的其他几款模型类似V3.2 也附带了一份很棒的技术报告我将在接下来的章节中进行讨论。6.1 DeepSeek V3.2 架构当然该模型的主要动机是提高整体模型性能。例如像 DeepSeekMath V2 一样它在数学基准测试中获得了金牌级的表现。然而该模型在训练时也考虑到了工具的使用并且在其他任务例如代码和智能体任务上也表现良好。同时DeepSeek 团队将计算效率视为一个巨大的驱动因素。这就是为什么他们使用了 V2 和 V3 中的多头潜在注意力 (MLA) 机制以及他们在 V3.2 中添加的 DeepSeek 稀疏注意力 (DSA) 机制。事实上论文中提到「DeepSeek-V3.2 使用了与 DeepSeek-V3.2-Exp 完全相同的架构」这我们在前面的章节中已经讨论过了。图 18DeepSeek V3.2 架构。正如我之前提到的DeepSeek V3.2-Exp 的发布很可能是为了让生态系统和推理基础设施准备好托管刚刚发布的 V3.2 模型。图 19由 DeepSeek 稀疏注意力 (DSA) 实现的推理成本节省。来自 DeepSeek V3.2 报告并加上了带注释。由于架构与 DeepSeek V3.2-Exp 相同有趣的细节在于训练方法我们将在接下来的章节中讨论。6.2 强化学习更新总的来说DeepSeek 团队采用了类似于 DeepSeek R1 的「带可验证奖励的强化学习」RLVR程序使用了群体相对策略优化GRPO算法。但是有一些有趣的更新值得讨论。最初DeepSeek R1 使用了格式奖励确保答案格式正确语言一致性奖励确保模型在编写回复时不会在不同语言之间切换主要的验证者奖励数学或代码问题中的答案是否正确。对于 DeepSeek V3.2他们更改了奖励对于推理和智能体任务我们采用基于规则的结果奖励、长度惩罚和语言一致性奖励。对于通用任务我们采用生成式奖励模型其中每个提示都有自己的评估标准。例如他们移除了格式奖励但为智能体任务添加了长度惩罚。然后对于没有符号验证器数学或代码解释器来验证答案的通用任务他们使用奖励模型另一个训练用于输出奖励分数的 LLM。所以听起来这个流程不再是像 DeepSeek R1 那样纯粹的基于验证器的 RLVR而是 RLVR用于可验证领域和更标准的「LLM 即裁判」奖励建模用于其他所有领域的混合体。对于数学领域他们表示额外「整合了来自 DeepSeekMath-V2 的数据集和奖励方法」这我们在本文前面已经讨论过了。6.3 GRPO 更新关于 RLVR 流程内部的学习算法 GRPO 本身自 DeepSeek R1 论文中的原始版本以来他们也做了一些更改。在过去的几个月里数十篇论文提出了对 GRPO 的修改建议以提高其稳定性和效率。如果不深入 GRPO 的数学细节简单来说DAPO 修改了 GRPO采用了非对称裁剪、动态采样、Token 级损失和显式的基于长度的奖励整形。Dr. GRPO 更改了 GRPO 目标本身以移除长度和标准差归一化。最近的 Olmo 3 论文也采用了类似的变更我引用如下零梯度信号过滤我们移除奖励完全相同的实例组即优势标准差为零的批次以避免在提供零梯度的样本上进行训练类似于 DAPO (Yu et al., 2025)。[DAPO]主动采样尽管进行了零梯度过滤我们仍使用一种新颖、更高效的动态采样版本维持一致的批次大小 (Yu et al., 2025)。详见 OlmoRL Infra。[DAPO]Token 级损失我们使用 Token 级损失通过批次中的 Token 总数进行归一化 (Yu et al., 2025)而不是按样本归一化以避免长度偏差。[DAPO]无 KL 损失作为一种常见做法我们移除了 KL 损失 (GLM-4.5 Team et al., 2025; Yu et al., 2025; Liu et al., 2025b)因为它允许更少限制的策略更新并且移除它不会导致过度优化或训练不稳定。[DAPO 和 Dr. GRPO]更高裁剪阈值我们将损失中的上限裁剪项设置为比下限略高的值以允许对 Token 进行更大的更新正如 Yu et al. (2025) 提议的那样。[DAPO]截断重要性采样为了调整推理引擎和训练引擎之间对数概率的差异我们将损失乘以截断的重要性采样比率遵循 Yao et al. (2025)。无标准差归一化在计算优势时我们不对组的标准差进行归一化遵循 Liu et al. (2025b)。这消除了难度偏差即奖励标准差低的问题例如太难或太容易其优势会被归一化项显著放大。[Dr. GRPO]DeepSeek V3.2 中的 GRPO 修改稍微不那么激进我用类似于 Olmo 3 的风格总结如下特定领域的 KL 强度包括数学为零 DeepSeek V3.2 没有像 DAPO 和 Dr. GRPO 那样对数学类 RL 总是放弃 KL而是在目标中保留 KL 项但根据每个领域调整其权重。然而他们也指出非常弱甚至为零的 KL 通常对数学效果最好。但不是完全移除它而是变成了一个超参数。无偏 KL 估计如上所述DeepSeek V3.2 没有移除 KL 惩罚。除了将其视为调节旋钮外他们还提出了对 GRPO 中 KL 惩罚估计方式的修正即用用于主损失的相同重要性比率重新加权 KL 项因此 KL 梯度实际上与样本来自旧策略而不是当前策略的事实相匹配。异策略序列掩码Off-policy sequence masking 当他们在许多梯度步骤中重用 rollout 数据rollout 只是模型生成的完整序列的术语时DeepSeek V3.2 测量当前策略在每个完整答案上偏离 rollout 策略的程度并简单地丢弃那些既具有负优势又「过于偏离策略」的序列。因此这防止了模型从过度偏离策略或陈旧的数据中学习。保留 MoE 模型的路由对于混合专家骨干网络他们记录了 rollout 期间激活了哪些专家并在训练期间强制使用相同的路由模式以便梯度更新针对那些产生采样答案的专家。保留 top-p /top-k 的采样掩码当 rollout 使用 top-p 或 top-k 采样时DeepSeek V3.2 存储选择掩码并在计算 GRPO 损失和 KL 时重新应用它以便训练时的动作空间与采样期间实际可用的动作空间相匹配。保留原始 GRPO 优势归一化 Dr. GRPO 表明 GRPO 的长度和每组标准差归一化项会使优化偏向于过长的错误答案并过度加权非常容易或非常难的问题。Dr. GRPO 通过移除这两个项并回到无偏的 PPO 风格目标来解决这个问题。相比之下DAPO 转向 Token 级损失这也改变了长答案与短答案的加权方式。然而DeepSeek V3.2 保留了原始的 GRPO 归一化而是专注于其他修正例如上面的那些。所以总的来说DeepSeek V3.2 比最近的其他一些模型更接近原始的 GRPO 算法但增加了一些逻辑上的微调。6.4 DeepSeek V3.2-Speciale 与扩展思维DeepSeek V3.2 还有一个极端的、扩展思维extended-thinking的变体称为 DeepSeek V3.2-Speciale它在 RL 阶段仅在推理数据上进行训练更类似于 DeepSeek R1。除了仅在推理数据上训练外他们还在 RL 期间减少了长度惩罚允许模型输出更长的响应。生成更长的响应是一种推理扩展形式为了获得更好的结果响应因长度增加而变得更加昂贵。图 20扩展思维的 Speciale 模型实现了更高的准确性但也生成了更多的 Token。总结在这篇文章中我没有涵盖 DeepSeek V3.2 训练方法的所有细节但我希望与之前的 DeepSeek 模型的比较有助于阐明主要观点和创新。简而言之有趣的要点是DeepSeek V3.2 使用了自 DeepSeek V3 以来与其所有前身相似的架构主要的架构调整是他们添加了来自 DeepSeek V3.2-Exp 的稀疏注意力机制以提高效率为了提高数学性能他们采用了来自 DeepSeekMath V2 的自我验证方法训练流程有几项改进例如 GRPO 稳定性更新注意论文还涉及围绕蒸馏、长上下文训练、集成类似于 gpt-oss 的工具使用等其他几个方面我们在本文中没有涵盖。无论 DeepSeek 模型与其他较小的开放权重模型或像 GPT-5.1 或 Gemini 3.0 Pro 这样的专有模型相比的市场份额如何有一件事是肯定的DeepSeek 的发布总是很有趣而且从随开放权重模型检查点一起发布的技术报告中总有很多值得学习的东西。最后我在一线科技企业深耕十二载见证过太多因技术更迭而跃迁的案例。那些率先拥抱 AI 的同事早已在效率与薪资上形成代际优势我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我整理出这套 AI 大模型突围资料包✅AI大模型学习路线图✅Agent行业报告✅100集大模型视频教程✅大模型书籍PDF✅DeepSeek教程✅AI产品经理入门资料完整的大模型学习和面试资料已经上传带到CSDN的官方了有需要的朋友可以扫描下方二维码免费领取【保证100%免费】为什么说现在普通人就业/升职加薪的首选是AI大模型人工智能技术的爆发式增长正以不可逆转之势重塑就业市场版图。从DeepSeek等国产大模型引发的科技圈热议到全国两会关于AI产业发展的政策聚焦再到招聘会上排起的长队AI的热度已从技术领域渗透到就业市场的每一个角落。智联招聘的最新数据给出了最直观的印证2025年2月AI领域求职人数同比增幅突破200%远超其他行业平均水平整个人工智能行业的求职增速达到33.4%位居各行业榜首其中人工智能工程师岗位的求职热度更是飙升69.6%。AI产业的快速扩张也让人才供需矛盾愈发突出。麦肯锡报告明确预测到2030年中国AI专业人才需求将达600万人人才缺口可能高达400万人这一缺口不仅存在于核心技术领域更蔓延至产业应用的各个环节。资料包有什么①从入门到精通的全套视频教程⑤⑥包含提示词工程、RAG、Agent等技术点② AI大模型学习路线图还有视频解说全过程AI大模型学习路线③学习电子书籍和技术文档市面上的大模型书籍确实太多了这些是我精选出来的④各大厂大模型面试题目详解⑤ 这些资料真的有用吗?这份资料由我和鲁为民博士共同整理鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。所有的视频教程由智泊AI老师录制且资料与智泊AI共享相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念‌通过动态追踪大模型开发、数据标注伦理等前沿技术趋势‌构建起前沿课程智能实训精准就业的高效培养体系。课堂上不光教理论还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作把课本知识变成真本事‌如果说你是以下人群中的其中一类都可以来智泊AI学习人工智能找到高薪工作一次小小的“投资”换来的是终身受益应届毕业生‌无工作经验但想要系统学习AI大模型技术期待通过实战项目掌握核心技术。零基础转型‌非技术背景但关注AI应用场景计划通过低代码工具实现“AI行业”跨界‌。业务赋能 ‌突破瓶颈传统开发者Java/前端等学习Transformer架构与LangChain框架向AI全栈工程师转型‌。获取方式有需要的小伙伴可以保存图片到wx扫描二v码免费领取【保证100%免费】**

杭州网站建设哪里好微信内部劵网站怎么做

哪些网站是做食品网站建设数据库怎么传送

南昌个人网站建设网站空间续费多钱一年

菏泽网站制作做网站页面过大好

西宁网站搭建自己怎么建立微网站后台

福建建设工程环保备案网站入口去年做的电子请帖怎么找原网站

深圳网站建设东毅虎企业咨询服务合同范本

杭州网站建设哪里好微信内部劵网站怎么做

哪些网站是做食品网站建设数据库怎么传送

南昌个人网站建设网站空间续费多钱一年

菏泽网站制作做网站页面过大好

西宁网站搭建自己怎么建立微网站后台

福建建设工程环保备案网站入口去年做的电子请帖怎么找原网站

深圳网站建设 东毅虎企业咨询服务合同范本

深圳网站建设东毅虎企业咨询服务合同范本