DeepSeek的能力,到底从哪里来?-创新-知识分子

DeepSeek的能力,到底从哪里来?

1天前
导读
DeepSeek-R1的能力,到底从哪里来?《知识分子》和Open-Reasoner-Zero团队成员胡倞成、韩琦,Light-R1团队成员邹昊晟,新加坡国立大学、Sea AI Lab研究人员刘梓辰,以及个人复现者许书尧都聊了聊,试图回答这个问题。
 5.27
知识分子
The Intellectual

图源:Pixabay

撰文 | 张天祁

 ●                  ●                   


今年年初,DeepSeek发布DeepSeek-R1模型,引发全球的关注。在公开评测中,它的综合能力逼近当时的顶尖大模型,尤其在逻辑推理和数学题上展现出强劲性能,而且它的成本要远低于作比较的其他大模型。


更令圈内研究者惊喜的,是它在训练方式上的简化。以往的模型在提升推理能力时,通常依赖于把监督微调SFT这个环节。在这个阶段,研究人员会使用大量已标注的数据对预训练的AI模型进行进一步训练。这些数据包含了问题及其对应的正确答案,以及如何建立思考步骤的范例。靠着这些模仿人类思维的例题答案,大模型得以提升推理能力。


DeepSeek-R1的报告中,展示了名为DeepSeek-R1-Zero的路线,它跳过了复杂的监督微调,直接在DeepSeek-V3的基础上进行强化学习训练。这一次,模型没有例题示范,只通过简单的答题反馈来学习:答对加分,答错减分,用简单的方法显著的推理能力提升。这个被简称为纯强化学习的方法,成为了复现和跟进研究中的热门对象。


在复现的热潮中研究者们意识到,一些关键问题仍有待厘清。到底是训练的哪些环节带来了模型推理能力的提升?DeepSeek-R1的能力究竟来自训练方式的改变,还是基础模型DeepSeek-V3本身的强大?如果关键在于强化学习,这种方式可以在迁移到其他模型训练上吗?


正是围绕这些问题,一些团队启动了对DeepSeek-R1复现与跟进研究。DeepSeek-R1虽然开源了模型权重,但关键的训练数据和完整算法实现并未公开。想要真正理解和重现其能力,就必须从论文出发,复刻训练流程。对跟进的研究者而言,复现和跟进研究的意义不止是复制一个模型,更是拆解这套训练方法,厘清模型性能提升的真正来源。


《知识分子》和Open-Reasoner-Zero团队成员胡倞成、韩琦,Light-R1团队成员邹昊晟,新加坡国立大学、Sea AI Lab研究人员刘梓辰,以及个人复现者许书尧都聊了聊,试图回答以上一些问题。


Open-Reasoner-Zero团队在基础模型上直接进行强化学习,观察到了模型验证分数的显著提升,验证了DeepSeek-R1-Zero训练方法的有效性[1],个人复现者许书尧也在一个相对小的模型上验证了类似的现象[2]Light-R1团队把模型放在AIME上测试成绩,提升到了接近完整DeepSeek-R1的水准,并且也成功复现了强化学习的方法[3],刘梓辰的验证工作则是从怀疑开始的,他发现模型推理能力的提升,与所选用的基础模型之间存在密切关联[4]


这些工作从不同角度探讨了一个关键问题:DeepSeek-R1的能力,到底从哪里来?


01

为什么是DeepSeek?


去年,OpenAI推出的o1推理模型在数学和推理任务中的表现远远好于其他同参数量级的主流模型,在GSM8KMATH等多个基准测试中一度拉开了显著差距。但由于官方几乎未公布训练细节,模型是如何获得这类能力的,一度成为业内谜题。OpenAI o1的出现,使得推理模型这一新方向引发关注。


一种流行的猜测是,o1的推理能力来自OpenAI内部某个更大的模型,o1只是它训练出的精简版本。另一种看法是,OpenAI在训练中使用了更复杂的技术路线。这些方案都出于同一方向的判断:做出顶尖推理模型需要堆更多的资源。


DeepSeek-R1的发布打破了这些猜想。它没有使用这些复杂手段,仅凭简单的强化学习奖励设置,就让模型在推理能力上达到与o1接近的水准。


DeepSeek-R1之前,也有研究者尝试过用纯强化学习训练推理模型,但大多停留在小规模的实验阶段。这种迟疑来自两个方面,一是从技术直觉上,大家普遍不认为这样简单的方法能奏效;另一个是如果基础模型不够强,这么简单的方法可能真的不奏效,许书尧说。


许书尧介绍,大约在一年前,不少关于推理模型训练的论文中已经加入了强化学习这一步,也有人尝试基于模型的答题结果直接设计奖励。但在当时,业内普遍不相信仅靠简单的答题反馈,就能训练出接近o1水平的推理模型的推理能力。纯强化学习大家一直有尝试,但没人真正扩展到大模型上。那时候大家不觉得光让模型做题就够了


邹昊晟也提到,在今年DeepSeek-R1Kimi 1.5出现之前,几乎没有人认为纯强化学习能真正提升大模型的推理能力。彼时更主流的看法是,推理能力的提高可能依赖蒙特卡洛树搜索MCTS或过程奖励模型PRM


对于大模型而言,某种方法是否仍然有效,往往要看它能否经受住规模扩展的考验。在当时看来,纯强化学习的前景,并不如蒙特卡洛树搜索MCTS或过程奖励模型PRM更被看好。


MCTS是一种曾在AlphaGo中取得成功的策略,依靠将问题拆解为若干步骤并通过多轮搜索引导模型学习。在DeepSeek-R1的报告中,团队尝试了类似方向,但发现当模型规模扩大后,搜索空间呈指数增长,后续训练很困难。


PRM则是让模型生成对每个推理步骤的评价和打分,逐步判断答案的准确性,从而提升模型的推理能力。许书尧曾经投入了很多精力在这个方向,但在他看来这种系统太过复杂,很难扩大规模。


最终,还是纯强化学习先走通了这条路。"深度学习教给大家一件事情,往往是简单的方法,在规模扩大的时候更稳健"


不过,DeepSeek的率先成功,并不是一个只靠选对技术路线就能成功的励志故事。它更像是在一系列关键因素同时就位后,才能实现的成就。


许书尧介绍,早期的基础模型预训练阶段数据质量参差不齐,导致模型缺乏稳定的指令遵循能力。而一些更晚期的基础模型则引入了退火步骤,在预训练中分阶段加入更高质量的数据,逐步提高模型理解与执行复杂任务的能力。也正是在这些打好地基的工作之后,强化学习的效果才能充分显现。


新加坡国立大学Sea AI Lab研究人员刘梓辰表示,类似DeepSeek-R1的尝试其实已有先例。比如2024年底,AI2Allen Institute for AI推出的Tülu 3模型,就在数学任务中引入了强化学习方法,并采用了可验证奖励的机制。只有当模型答案正确时,才给予奖励。从这个角度看,DeepSeek的训练思路,Tülu 3已经部分尝试过了。


但最终,Tülu 3的表现不如DeepSeek-R1亮眼,刘梓辰认为问题在于两方面。一是基础模型的选择,Tülu 3是基于Llama训练的,它在数学方面强化学习的效果可能不如其他模型。二是模型体量差异,Tülu 3的最大版本为70B,而DeepSeek-R1则是在自家600B级别的DeepSeek-V3模型上完成训练的。这一差距极大影响了强化学习的上限。


从数据层面看,许书尧指出,DeepSeek-R1在后训练阶段还使用了约80万条高质量样本进行微调。这类数据不仅数量庞大,而且质量要求很高,如果出现错误很容易导致强化学习训练的崩溃。对大多数小团队而言,单是获取、筛选并清洗出这样规模和质量的数据,都很困难。


在那个时间点,除了Google和其他几家积累深厚的巨头,可能真没有其他团队能做出这样的成果。刘梓辰说。DeepSeek手上有强大的基础模型,还具备调优这类模型的经验和资源,DeepSeekV3作为模型本身一定也经过了高质量、清洗过的数据进行预训练,才能在强化学习后得到提升。即使其他团队掌握相似的方法、具备工程能力,如果出发点模型存在差距,也很难达到类似效果。


胡倞成认为,整个行业的推进速度本就非常惊人。即使没有DeepSeek,其他团队也在逐渐接近OpenAI o1级别的推理模型,也许再过几个月,就会有其他方案浮出水面。


DeepSeek的成功仍然关键。在方法层面,它验证了通过强化学习提升推理能力的路径确实可行。更重要的是,它验证了这条路的可行性。R1之前,大家并没有真正做出一个能给自己信心的东西。这件事到底能不能做成,能做成什么样?即使有了思路方向,很多团队心里也没有底。DeepSeek-R1的出现,给我们做研究的人以信心,证明这条路是能走得通的,胡倞成说。


02

性能提升,靠强化学习还是靠模型能力


在对DeepSeek-R1的后续研究中,一种观点逐渐受到关注。部分研究者认为,模型反思能力的提升,并非完全源自强化学习过程,而是基础模型自身能力的体现。


刘梓辰支持这种观点。他尝试复刻DeepSeek-R1顿悟时刻(Aha moment),按照DeepSeek-R1的报告,这是描述训练中模型在面对特定难题时,展现了自我反思的能力,主动重新评估初始解法,并投入更多思考时间以寻求更优答案。


这一能力对推理模型非常关键。在推理模型出现之前,大模型主要依赖预训练阶段扩大参数规模来提升表现,但增长已经逐渐趋缓。在一些需要严密逻辑链条的任务中,比如数学推理,模型即便读过再多语料,依然难以获得实质突破。一个关键的瓶颈是它们缺乏自主修正回答的能力。


OpenAI o1的成功提供了一个重要线索,如果模型拥有更长的思考时间,它的解题准确率就会显著提高。


为什么如此关键?胡倞成解释,Transformer 计算深度有限,只能做有限步的计算,复杂问题如果不能拆分,就超出了模型的处理能力。只有当模型学会将问题拆解成多个 token逐步向前推进,才可能完成更深层的计算。如果不能把思考过程拉长,模型就没法把一些复杂的计算拆解成自己能够解决的问题。


张胤民补充,这就像我们能快速心算几位数乘法,但遇到更复杂的数字,就需要写在纸上分步完成。模型也是如此,新的推理范式相当于教会了模型如何利用更长的思考时间或更多的计算步骤。一旦模型学会了这种利用时间来分解和解决复杂问题的方法,它就能解锁更多以前无法完成的任务。


当模型说出让我再想想这样的语言,其实正是它利用更长思考时间的一种外在体现,是它能力的具象化。比如,模型发现前面的回答有误,然后进行纠正,这就是在利用时间来优化结果。将一个复杂问题拆分成多个步骤来解答,也是一种利用时间的表现。所谓顿悟时刻,就是指模型在没有明确教导下,自发学会了这些利用时间和计算资源的方法。


胡倞成认为,这种反思能力突破了原有建模方式上的本质限制。杨立昆很早就断言自回归大语言模型注定要失败,理由之一就是错误会累计。连续生成1000token,只要每一步有千分之一的出错概率,最后出错的可能就非常高。这种批评指出的关键问题,就是大模型没法自主修正生成过程中产生的错误。而大模型而具备反思能力后,模型就像获得了一块橡皮擦,可以对生成内容进行审视、重写,甚至主动改变推理路径。


也正因这类能力在推理模型中至关重要,DeepSeek-R1在训练中首次出现顿悟时刻时,才引发团队的兴奋,并在业界引起关注。DeepSeek在报告中形容那一刻是见证了强化学习力量的美妙


但刘梓辰的研究发现,早在强化学习阶段开始之前,部分基础模型的回答中就已经出现了浅层的自我反思倾向,顿悟可能并非像宣称的那样,是模型强化学习过程中自然涌现出来的,而是基础模型本身具备的能力。其中,Qwen2.5系列模型的反思行为最为明显,有趣的是,目前大多数复现工作,恰恰都是基于Qwen2.5展开。


邹昊晟认为,预训练模型本身就已经具备某种程度的反思能力。大模型的预训练往往涉及几十万亿个token,在如此海量的语料中,出现少量带有反思倾向的文本很有可能。在这种背景下,模型说出我需要再想想并不令人意外。强化学习的作用,可能更多在于让这些原本零散的表达更频繁、更清晰地浮现出来。


胡倞成表示,强化学习本身更像是一种催化剂或者放大器。它能够将模型在预训练阶段学到的潜在知识和能力,通过特定的激励和目标引导出来,让它在某些任务上表现更好。


至于不同模型的能力差别,训练早期是否广泛接触具有因果链条、逻辑关系和复杂推理结构的文本,将在很大程度上决定其在后续的强化学习阶段能否发展出相应的能力。除了语料组成,架构和训练策略也同样关键。尽管主流模型大多基于 Transformer,微小的结构差异或超参数设置的不同,仍然会影响模型最终在推理上的表现。


刘梓辰用读书做题的关系来解释基础模型与强化学习之间的关联。预训练阶段的模型就像读过大量书籍,博览群书,但还不太会做题。强化学习则像是发给它一叠卷子反复练习,没有加入新的知识内容,但确实提高了它的做题能力。两者之间关系微妙,做题能力还是建立在它读过的书上,不能说光靠做题就能达到这个水平,但不练这几道题,它又确实不会做


即使基础模型有着反思能力的潜质,但强化学习把这种能力稳定地激发了出来,这也是一个关键的进步。如果一个智商180的天才儿童不会说话,有个老师教会了他,展现出了智商180的表达能力,你觉得这个老师有没有水平?胡倞成反问。


03

1000条数据就够了?


DeepSeek-R1的跟进研究中,一批聚焦于超低成本提升模型能力的研究迅速引发关注。


在一些媒体报道中,被称为花费仅50美元复现 DeepSeek-R1”的斯坦福大学 S1-32B 模型。仅使用1000条精选数据的情况下,就显著提升了数学与推理能力。


上海交通大学的 LIMOLess Is More for Reasoning提出,利用经过精心挑选的817条训练样本,通过简单的监督微调,就能让模型在多个数学任务中表现出色。在AIME24测试中,LIMO将准确率从传统模型(如 Numina-Math6.5%提升至57.1%,甚至超过了一些使用数十万条数据训练的主流模型。


张胤民解释,这一方面是由于高质量数据能提供更清晰、更直接的信号,帮助模型快速抓住关键模式,避免在无关或噪声信息上浪费学习能力。另一方面,在对齐阶段,用少量但精准的优质数据进行策略优化,能更有效地引导模型向期望的行为靠拢。这个过程类似做题,与其做一百道质量不一的题目,不如精做十道包含核心考点、能引发深度思考的经典例题。


既然用少量精心设计的数据监督学习(蒸馏),就能让模型展现出一定的推理能力,传统上用数万甚至十万级别样本进行训练的做法是不是没有必要?


对此邹昊晟表示,少量高质量数据的确可以唤起模型已有的推理潜力,帮助它模仿出会思考的行为。但若要获得真正稳定且高水平的表现,依然离不开更大规模的数据支撑。


AIME评测为例,像LIMOS1这类使用小规模数据蒸馏训练的模型,尽管性能有明显提升,但与DeepSeek蒸馏得到的Qwen-32B模型仍存在不小差距。得分更高的OpenThinker-32B,背后依托的是一个包含11万条样本的大型数据集。Light-R1团队也是在训练中先使用了约7万至8万条样本,再从中精挑出3000条更具挑战性的数据进行进一步训练。


任何有关大模型的讨论,都不能刻意淡化数据的重要性,数据质和量都要保证,邹昊晟说。


他解释,很多对于DeepSeek-R1低成本复现的报道,提到的只是训练过程的成本,而获取数据也是有成本的。要蒸馏一个模型首先要部署它,再花费算力收集数据。有了数据,后面SFT的步骤的成本没有那么高。



04

惊艳的训练方法,没有成为主流


DeepSeek-R1-Zero训练方法,邹昊晟的评价是。他曾认为,大模型不适合MCTS加 PRM的后训练方法,它们不够优雅简洁。 DeepSeek的方法恰恰抛弃了MCTS,仅使用ORM,在技术报告中,在DeepSeek-R1-Zero的响应长度和验证分数同时增加,形成一条完美的曲线


既美,也有效。它出来的那一周,我几乎没干别的,只在反复读它的论文,听相关的解读,他说。


但实际上,后续出现大量的推理模型没有使用这种极具美感训练方式,蒸馏反而成了主导。一个关键原因在于,DeepSeek-R1开放了它的CoTChain-of-Thought,思维链)数据后,训练推理模型已经有了一条捷径。


在大模型的训练流程中,SFT是后训练的关键步骤之一。具体做法是,研究者准备一批高质量的人工标注数据,其中不仅包含问题和答案,还包含推理过程,也就是CoT数据。SFT阶段,就是用这些带有思考步骤的样例子去微调模型,让它学会像人一样逐步分析问题、得出结论。


过去,获取高质量的CoT数据一直是训练推理模型的瓶颈之一。普通问答数据通常只包含问题和答案,而要激活模型的反思能力,需要为题目配上详细的思维过程。但这类数据在公开数据集中几乎不存在,人工标注成本极高,用AI自动生成往往又质量不佳。


DeepSeek-R1选择开放CoT数据,使得后来者可以直接用这些数据对模型进行蒸馏,让一个不具备推理能力的模型,通过模仿DeepSeek-R1给出的解题步骤,获得推理能力。邹昊晟表示,有了一个开源的、能生成CoT的模型之后,很多跟进工作整理出了开源的、带CoT的数据集,这大大降低了获取的成本。


于是,相比亲自走一遍纯强化学习这条难度高、试错成本大的路线,后来者更倾向于使用这些公开的CoT数据进行蒸馏,训练推理模型。"一旦有一个模型允许蒸馏,就会有无数个"。邹昊晟说,在资源消耗和可控性上,蒸馏要好很多


根据邹昊晟的粗略估计,和蒸馏相比,从头强化学习需要的资源至少多一个数量级。强化学习训练过程中的数据主要都靠模型自己采样生成,不像监督学习的数据更容易人为干预。根据Light-R1强化学习部分的训练经验,一个14B的模型进行强化学习训练,需要128A100卡跑超过40个小时。而利用了SFT步骤的Light-R1-32B模型训练,只需要96H800卡跑6小时。


相比直接训练推理模型,从已有模型中进行蒸馏在资源消耗上要低得多。研究者可以先生成一小批问题的解题过程,用于初步训练。如果算力紧张,后续还可以按需补充。在抓取完 DeepSeek-R1的回答后,后续对数据清洗、筛选和组织工作大多属于低成本环节。根据处理后的数据,还可以产出多个版本,分别用于不同模型的训练。


在邹昊晟看来,纯强化学习路线更多体现的是一种研究上的美感,但这种方法存在两个现实问题:一是最终分数仍然不如先经过蒸馏再进行强化学习等步骤优化后的模型,二是模型的思考过程可读性不强。他补充说,DeepSeek部署上线的也不是R1-Zero模型,而是经过SFT后再强化学习训练的R1模型。纯强化学习训练出来的模型,目前与用户直接交互的能力还稍显不足。


另一个限制出现在模型的体量上。在未经过SFT 的基础模型上直接进行强化学习,对小模型来说很困难。


许书尧提到,流行的说法是3B参数量是一个门槛。如果模型规模小于这一阈值,在强化学习阶段往往难以表现出回答长度的增长或准确率的提升。他在实验中曾尝试对Qwen2.5-1.5B-Instruct模型进行强化学习训练,但没有成功复现推理能力的提升,换用 Qwen2.5-7B-1M模型后,这一效果才得以显现。


这背后其实是概率问题。比如让模型解一道题,目标是让它给出正确答案,这样它就能获得正向奖励。但如果模型太小,它几乎永远给不出正确答案,连猜对的概率都没有,模型就没法通过强化学习放大正确的行为。


例如,对一个7B的模型做64次采样,也就是让模型对同一个问题生成64次答案,它也许回答正确几次。但对于一个1B模型,可能64次中没有一次是正确的。在有限的训练次数下,始终得不到正确的答案,强化学习也就没法向得到正确答案的方向引导。


相反,蒸馏则是对小模型友好的方法,在许书尧的后续实验中,通过让7B模型指导1.5B模型,模型展现出明显的反思行为,思维链也变得更长。


不过,这不代表纯强化学习只是一次方法上的尝试,它依然有实用的价值。


邹昊晟介绍,在其团队工作之前,虽有大量复现和跟进实验,但无一能比肩DeepSeek蒸馏Qwen 32B模型在AIME2472.6分的成绩。而他所在的团队成功在一个更小的14B模型上,不仅实现了强化学习阶段响应长度与验证分数的同步提升,还将成绩提高到74分,超越了前者。


这两分的提升,其实是最难的,邹昊晟认为,如果大多数模型可以通过蒸馏达到90分,但要在此基础上更进一步,提升到95分,强化学习就是不可替代的手段,虽然不像外界想象的那么有革命性,但对行业内来说,这是一个训练技术上的范式转移


参考文献

1.https://github.com/Open-Reasoner-Zero/Open-Reasoner-Zero

2.https://github.com/Tim-Siu/reft-exp

3.https://github.com/Qihoo360/Light-R1

4.https://oatllm.notion.site/oat-zero


参与讨论
0 条评论
评论
暂无评论内容
订阅Newsletter

我们会定期将电子期刊发送到您的邮箱

GO