- BASIC 【鱼书】深度学习入门-强化学习 课件及笔记
- DRL 【王树森】深度强化学习 课件及笔记
- Hands-on-RL 【愈勇等】动手学强化学习++
- OPEN AI 强化学习手册 官网地址
- 李宏毅-强化学习-PPO 【视频地址 】
- 李宏毅-强化学习-2025【视频地址】
- 人人都能看懂的PPO原理与源码解读
- easy-rl 在线地址
- Mathematical-RL [【赵世钰】强化学习的数学原理](https://www.bilibili.com/video/BV1sd4y167NS/?)
- RLHF-huggingface
- cleanrl 原地址
- joyrl 入门强化学习的代码生态
- easy-rl 在线地址
- notes-on-reinforcement-learning 在线阅读地址
- 强化学习算法实现 DRL-code-pytorch
- 复现deepseek-r1
- deepspeed-chat deepspeed-chat
-
全面综述:RL在现实世界落地的未来方向
-
Maximum Likelihood Reinforcement Learning
MaxRL建立起RL(pass@1)与最大似然估计MLE(pass@k)之间的桥梁
-
JustRL: Scaling a 1.5B LLM with a Simple RL Recipe
当我们试着加入一些"应该有用"的优化时,性能反而下降了
-
Part I: Tricks or Traps? A Deep Dive into RL for LLM Reasoning
技巧还是陷阱?从bese模型和aligned模型的角度观察
-
- token-level的advantage
-
[复旦]PPO-Max:Secrets of RLHF in Large Language Models Part I- PPO [复旦]PPO-Max:github地址
-
- sequence-level的advantage
-
Soft Clip 机制:CISPO-MiniMax-M1- Scaling Test-Time Compute Efficiently with Lightning Attention
-
FIPO(Future-KL Influenced Policy Optimization)
- FIPO 追踪的是每个Token引发的概率偏移(实时追踪每一个Token对后续推理轨迹的实际影响)
-
[推荐]Why Online Reinforcement Learning Forgets Less
为何在线强化学习能有效缓解灾难性遗忘?
Retaining by Doing: The Role of On-Policy Data in Mitigating Forgetting
- 支持“on-policy SFT 可减轻遗忘”的观点
-
[for LLM]On a few pitfalls in KL divergence gradient estimation for
RL当你的 KL 散度正则化在“裸奔”
-
A Comedy of Estimators On KL Regularization in RL Training of LLMs
分析了两种主流 KL 估计器(K1 和 K3)在两种放置位置(Reward 和 Loss)下的梯度特性
-
[熵]1-The Entropy Mechanism of Reinforcement Learning for Reasoning Language Model
关注的是宏观的、全局的“策略熵”
-
- 关注的是微观的、局部的“Token 级熵”
-
Harnessing Uncertainty Entropy Modulated Policy Gradients for Long-Horizon LLM Agents
- 利用不确定性面向长序列LLM智能体的熵调制策略梯度
-
TODO Rethinking Entropy Regularization in Large Reasoning model
- 探索不应是盲目和全局的,而应是有选择性的
-
TODO-Reinforcement Learning Finetunes Small Subnetworks in Large Language Models
- RL引起的参数更新稀疏性
- 这种稀疏性主要源于强化学习微调的数据特性
-
Reinforcement Learning Finetunes Small Subnetworks in Large Language Models
指出 RL 微调是“局部更新”,而非全局重塑,因此更容易被后续训练干扰
- 实际上,它只改动了模型 5%-30% 的权重,剩下的部分几乎纹丝不动。这和 SFT(监督微调)那种“地毯式轰炸”的更新模式完全不同。
-
Sparse but Critical: A Token-Level Analysis of Distributional Shifts in RLVR Fine-Tuning of LLMs
- On the Direction of RLVR Updates for LLM Reasoning: Identification and Exploitation
- 大小度量(熵和KL散度)的分布直方图在Base和RLVR模型之间几乎一模一样
- 稀疏性源于RLVR对低概率Token的天然聚焦
- 测试时外推是在训练完成后放大RLVR学到的信号,
- 而训练时重加权则是在训练过程中主动强化这些信号
- RLVR 的策略梯度稀疏地集中在低概率token上
- Do Not Let Low-Probability Tokens Over-Dominate in RL for LLMs
-
优势重加权(Advantage Reweighting, AR):通过重新调整不同概率词元的优势(advantage)权重,直接削弱低概率词元的影响力。
-
低概率词元隔离(Low-Probability Token Isolation, Lopti):将更新过程分解为两个阶段,先更新低概率词元,再更新高概率词元,通过隔离来避免梯度干扰。
既然高概率词元的梯度那么小,我们干脆在更新时忽略它们,只用中低概率的词元不就行了吗?
- 图6(a)的实验否定了这一想法。结果显示,如果屏蔽掉高概率词元,模型的性能会比基线 GRPO 更差。这说明高概率词元虽然梯度信号微弱,但它们对模型的贡献是不可或缺的。 Lopti 的更新顺序是成功的关键:
- Lopti 的核心是“先低后高”的更新顺序。如果把顺序颠倒,变成“先高后低”,会发生什么?图6(b)给出了答案——训练过程在第四个 epoch 后彻底崩溃,性能远差于基线。
- 只有先处理高梯度、影响大的低概率词元,才能为后续高概率词元的精细调整创造条件。
-
-
Mitigating LLM Hallucination via Behaviorally Calibrated Reinforcement Learning
用行为校准 RL 抑制模型幻觉
-
Why Language Models Hallucinate
为什么大模型出现幻觉?
-
单奖励
-
GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization
多奖励+先归一化后加
-
Stabilizing Reinforcement Learning with LLMs: Formulation and Practices
一阶近似
-
【对整个 response 进行裁剪】
-
Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?
强化学习是否真的在Llms中激发了超出基础模型的推理能力?
-
On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models
预训练(Pre-Training)、中期训练(Mid-Training)和基于强化学习的后训练(RL Post-Training)
-
OctoThinker: Mid-training Incentivizes Reinforcement Learning Scaling
爬坡似的接触特定的领域数据:基础领域知识-》专业领域知识
-
[推荐]Why Online Reinforcement Learning Forgets Less
为何在线强化学习能有效缓解灾难性遗忘?
-
The Path Not Taken: RLVR Provably Learns Off the Principals
RLVR微调的本质是“非主成分学习”!SFT微调的是“主成分”
-
The Art of Scaling Reinforcement Learning Compute for LLMs
RL 的 scaling 到底有没有规律可循?
对于视觉理解任务,显式的语言逻辑(Verbalized Logic)可能并不是必须的。
-
- MLLM(多模态大模型)中从Next-token Prediction(下一个词预测)-->Attention Distribution(注意力分布)
- 为什么 LLM 的 CoT 经验在多模态感知任务上失效了?
- 作者的目标是:让高奖励的回复对应的注意力模式被保留和增强
- 去 CoT 化
- 强化学习不应该只停留在输出层。Transformer 内部丰富的中间状态(Attention, Activations)其实蕴含着巨大的可优化空间
学习者在观察到结果后,会反思发生了什么,形成修正后的内部模型,并在后续的尝试中应用这些修正
- Experiential Reinforcement Learning, ERL
- 传统的强化学习通常将复杂的环境反馈压缩成一个简单的标量优化信号(scalar optimization signals),这要求策略在没有明确方向的探索中隐式地发现纠正结构
- 引入经验学习机制,模型可以像人一样,把反馈转化为具体的中间推理(即反思过程),从而进行显式的纠正,大大提高了学习效率和针对性
- 经验学习:环境的反馈 --> 一段具体的反思
- 将反思视为中间推理信号
- 让它先尝试,拿到反馈后进行文字反思,然后再做一次修正尝试,最后将成功的经验“内化”到基础策略中
- 【反常情况】在 Olmo3-7B-Instruct 挑战 Sokoban 的设定中,无记忆变体反而略微超越了完整的 ERL。
-
- 训练与测试的统一:学生写,老师改
- SFT是一种破坏性的训练(哪怕目标分布与原始分布完全一致)
-
使用On-Policy Distillation方案
- Why Does Self-Distillation (Sometimes) Degrade the Reasoning Capability of LLMs?
研究表明,尽管自我蒸馏在化学问答、代码生成等领域能够缩短推理路径并提升模型性能,但在数学推理领域,该方法会导致模型性能出现较大幅度的下降。
- 在化学领域,SDPO 在缩短回复长度的同时快速提升了分数
- 而在数学领域(DAPO-Math-17k 数据集),SDPO 随着训练步数的增加,其评估分数却低于持续增长的 GRPO。
- “认知不确定性表达”(Epistemic Verbalization)
- 语言模型输出中的认知不确定性表达是支持其执行纠错和寻找解答的核心组成部分。
- http://udlbook.github.io/udlbook 深度学习中的算法背后的原理
- https://github.com/changyeyu/LLM-RL-Visualized 图解大模型算法
- https://www.rethink.fun 大模型核心技术和应用
- Ray-利用Ray进行大模型的数据处理、训练、推理和部署 Ray rllib github地址
- 图解OpenRLHF中基于Ray的分布式训练流程
1.节点内部 (8 卡):使用 TP (张量并行)。因为 8 卡之间有 NVLink 高速互联,可以承受 TP 的高频通信,解决单卡存不下大层的问题。
2.节点之间:使用 PP (流水线并行)。将模型层切分到不同的机器组上,减少跨机器的通信频率。
3.整体集群:使用 DP (数据并行:模型复制,数据分片)。将上述的 "TP+PP" 组合视为一个大的“虚拟卡”,然后复制多份这样的组合,处理不同的数据批次,通过 DP 来扩大总吞吐量。
- ZeRO: Memory Optimizations Toward Training Trillion Parameter Models
- 流水线并行(Pipeline Parallelism)
- 数据并行上篇(DP, DDP与ZeRO)
- 数据并行下篇( DeepSpeed ZeRO,零冗余优化)
- 张量模型并行(TP),Megatron-LM
Megatron-LM/
├── megatron/
│ ├── core/ # Megatron Core (kernels, parallelism, building blocks)
│ │ ├── models/ # Transformer models
│ │ ├── transformer/ # Transformer building blocks
│ │ ├── tensor_parallel/ # Tensor parallelism
│ │ ├── pipeline_parallel/ # Pipeline parallelism
│ │ ├── distributed/ # Distributed training (FSDP, DDP)
│ │ ├── optimizer/ # Optimizers
│ │ ├── datasets/ # Dataset loaders
│ │ ├── inference/ # Inference engines and server
│ │ └── export/ # Model export (e.g. TensorRT-LLM)
│ ├── training/ # Training scripts
│ ├── legacy/ # Legacy components
│ ├── post_training/ # Post-training (quantization, distillation, pruning, etc.)
│ └── rl/ # Reinforcement learning (RLHF, etc.)
├── examples/ # Ready-to-use training examples
├── tools/ # Utility tools
├── tests/ # Comprehensive test suite
└── docs/ # Documentation
- Megatron-LM
- Megatron官方手册
- Megatron-DeepSpeed
- 1、Megatron源码解读1,分布式环境初始化
- 2、Megatron源码解读2,模型并行
- 3、Megatron源码解读3,分布式混合精度训练
- 4、DeepSpeed-Megatron MoE并行训练(原理篇)
- 5、DeepSpeed-Megatron MoE并行训练(源码解读篇)
- 【论文】Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism
- 【论文】Efficient Large-Scale Language Model Training on GPU Clusters Using Megatron-LM
- 【论文】Reducing Activation Recomputation in Large Transformer Models
- 推理框架的切换成本,降低RL训推共卡开销:SGLang/vLLM的无缝切换实现与分析
- VMM:虚拟地址与物理地址之间的映射
- 训推角色切换与权重更新
- 睡眠模式
- 一文读懂vLLM显存管理:技术细节+优化思路
- ppo-ray(猛猿)
- openrlhf-_initiate_actors
- 这段代码展示了如何利用 Ray 的 Placement Group (资源组) 来实现严格的资源隔离和分布式训练环境的搭建。
- 创建 Master Actor (Rank 0)
- 创建 Worker Actors (Rank 1 to N)
- placement_group放置组
- 资源束 (Bundle)
- options()









