【论文阅读】DanceGRPO: Unleashing GRPO on Visual Generation
DanceGRPO: Unleashing GRPO on Visual Generation
-
原文摘要
-
研究背景与问题
- 生成模型的突破:扩散模型和整流流等生成模型在视觉内容生成领域取得了显著进展。
- 核心挑战:如何让模型的输出更好地符合人类偏好仍是一个关键问题。
- 现有方法的局限性:
- 兼容性问题:传统的基于强化学习(RL)的方法无法与现代基于常微分方程(ODE)的采样范式兼容。
- 训练不稳定:在大规模训练中容易出现不稳定性。
- 缺乏验证:现有方法在视频生成任务上缺乏验证。
-
提出的解决方案:DanceGRPO
-
DanceGRPO 是第一个将 GRPO 应用于视觉生成的统一框架
-
统一性:支持多种生成范式(扩散模型、整流流)、任务(文本生成图像/视频、图像生成视频)、基础模型(如 Stable Diffusion、HunyuanVideo 等)和奖励模型(如美学评分、文本对齐、视频运动质量等)。
-
技术优势
- 稳定性:在复杂的视频生成任务中稳定策略优化。
- 轨迹学习:帮助生成策略更好地捕捉去噪轨迹(denoising trajectories),从而支持 Best-of-N 推理(即从多个生成结果中选择最优输出)。
- 稀疏反馈学习:能够从稀疏的二元反馈中学习。
-
实验结果
- 性能提升:在多个基准测试上显著超过基线方法,最高提升达 181%。
- 广泛验证:覆盖了多种任务、模型和奖励机制,证明了其鲁棒性和通用性。
-
研究意义
- 为 RLHF 提供新思路:DanceGRPO 为视觉生成领域的 RLHF 提供了可扩展且通用的解决方案。
- 调和 RL 与视觉生成:揭示了强化学习与视觉合成之间的协同潜力,为未来研究提供了新方向。
1. Introduction
-
研究背景与现状
-
生成模型的进展
- 扩散模型 和 整流流取得突破性进展,显著提升了图像/视频生成的质量和多样性。
- 预训练虽能建立基础数据分布,但人类反馈的整合对对齐生成结果与人类偏好至关重要。
-
现有方法的局限性
-
ReFL方法:依赖可微奖励模型,导致视频生成中显存(VRAM)效率低下,且工程实现复杂。
-
DPO系列方法:仅能带来边际视觉质量提升。
-
基于RL的方法虽具潜力,但存在三大挑战:
- 整流流的ODE采样与马尔可夫决策过程(MDP)的数学形式冲突;
- 现有策略梯度方法在小规模数据集(r(z0,c),0,if t=0otherwiseoi}i=1G∼πθold(⋅∣c)at,i∼πθold(⋅∣st,i)[[G1i=1∑GT1t=1∑Tmin(ρt,iAi,clip(ρt,i,1−ϵ,1+ϵ)Ai)]r1,r2,⋯,rG})ri−mean({r1,r2,⋯,rG})
-
-
-
-
-
免责声明:我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理! 图片声明:本站部分配图来自人工智能系统AI生成,觅知网授权图片,PxHere摄影无版权图库和百度,360,搜狗等多加搜索引擎自动关键词搜索配图,如有侵权的图片,请第一时间联系我们。