【论文阅读】DanceGRPO: Unleashing GRPO on Visual Generation

06-01 1717阅读

DanceGRPO: Unleashing GRPO on Visual Generation

原文摘要
- 研究背景与问题
  - 生成模型的突破：扩散模型和整流流等生成模型在视觉内容生成领域取得了显著进展。
  - 核心挑战：如何让模型的输出更好地符合人类偏好仍是一个关键问题。
  - 现有方法的局限性：
    - 兼容性问题：传统的基于强化学习（RL）的方法无法与现代基于常微分方程（ODE）的采样范式兼容。
    - 训练不稳定：在大规模训练中容易出现不稳定性。
    - 缺乏验证：现有方法在视频生成任务上缺乏验证。
    - 提出的解决方案：DanceGRPO
      - DanceGRPO 是第一个将 GRPO 应用于视觉生成的统一框架
      - 统一性：支持多种生成范式（扩散模型、整流流）、任务（文本生成图像/视频、图像生成视频）、基础模型（如 Stable Diffusion、HunyuanVideo 等）和奖励模型（如美学评分、文本对齐、视频运动质量等）。
      - 技术优势
        
        稳定性：在复杂的视频生成任务中稳定策略优化。
        轨迹学习：帮助生成策略更好地捕捉去噪轨迹（denoising trajectories），从而支持 Best-of-N 推理（即从多个生成结果中选择最优输出）。
        稀疏反馈学习：能够从稀疏的二元反馈中学习。
      - 实验结果
        
        性能提升：在多个基准测试上显著超过基线方法，最高提升达 181%。
        广泛验证：覆盖了多种任务、模型和奖励机制，证明了其鲁棒性和通用性。
        
        研究意义
        
        为 RLHF 提供新思路：DanceGRPO 为视觉生成领域的 RLHF 提供了可扩展且通用的解决方案。
        调和 RL 与视觉生成：揭示了强化学习与视觉合成之间的协同潜力，为未来研究提供了新方向。
        1. Introduction
        
        研究背景与现状
        
        生成模型的进展
        
        扩散模型和整流流取得突破性进展，显著提升了图像/视频生成的质量和多样性。
        预训练虽能建立基础数据分布，但人类反馈的整合对对齐生成结果与人类偏好至关重要。
        
        现有方法的局限性
        
        ReFL方法：依赖可微奖励模型，导致视频生成中显存（VRAM）效率低下，且工程实现复杂。
        
        DPO系列方法：仅能带来边际视觉质量提升。
        
        基于RL的方法虽具潜力，但存在三大挑战：
        
        整流流的ODE采样与马尔可夫决策过程（MDP）的数学形式冲突；
        现有策略梯度方法在小规模数据集（r(z0,c),0,if t=0otherwiseoi}i=1G∼πθold(⋅∣c)at,i∼πθold(⋅∣st,i)[[G1i=1∑GT1t=1∑Tmin(ρt,iAi,clip(ρt,i,1−ϵ,1+ϵ)Ai)]r1,r2,⋯,rG})ri−mean({r1,r2,⋯,rG})

免责声明：我们致力于保护作者版权，注重分享，被刊用文章因无法核实真实出处，未能及时与作者取得联系，或有版权异议的，请联系管理员，我们会立即处理! 部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理! 图片声明：本站部分配图来自人工智能系统AI生成,觅知网授权图片,PxHere摄影无版权图库和百度，360，搜狗等多加搜索引擎自动关键词搜索配图，如有侵权的图片，请第一时间联系我们。

一	二	三	四	五	六	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

【论文阅读】DanceGRPO: Unleashing GRPO on Visual Generation

DanceGRPO: Unleashing GRPO on Visual Generation

1. Introduction

相关阅读

美国物理服务器租用，全面解析与实用指南？租美国物理服务器靠谱吗？美国物理服务器值得租吗？

香港服务器快照功能，数据保护的终极解决方案？香港快照真能护数据周全？香港快照真能护数据周全？

美国服务器对象存储，高效、安全的数据管理解决方案？美国服务器存储真的安全高效吗？美国云存储真靠谱吗？

国内函数计算，云原生时代的新一代计算范式？函数计算能颠覆传统云计算吗？函数计算能否取代传统云计算？

目录[+]