【论文阅读】DanceGRPO: Unleashing GRPO on Visual Generation

06-01 1717阅读

DanceGRPO: Unleashing GRPO on Visual Generation

  • 原文摘要

    • 研究背景与问题

      • 生成模型的突破:扩散模型和整流流等生成模型在视觉内容生成领域取得了显著进展。
      • 核心挑战:如何让模型的输出更好地符合人类偏好仍是一个关键问题。
      • 现有方法的局限性:
        • 兼容性问题:传统的基于强化学习(RL)的方法无法与现代基于常微分方程(ODE)的采样范式兼容。
        • 训练不稳定:在大规模训练中容易出现不稳定性。
        • 缺乏验证:现有方法在视频生成任务上缺乏验证。
        • 提出的解决方案:DanceGRPO

          • DanceGRPO 是第一个将 GRPO 应用于视觉生成的统一框架

          • 统一性:支持多种生成范式(扩散模型、整流流)、任务(文本生成图像/视频、图像生成视频)、基础模型(如 Stable Diffusion、HunyuanVideo 等)和奖励模型(如美学评分、文本对齐、视频运动质量等)。

          • 技术优势

            1. 稳定性:在复杂的视频生成任务中稳定策略优化。
            2. 轨迹学习:帮助生成策略更好地捕捉去噪轨迹(denoising trajectories),从而支持 Best-of-N 推理(即从多个生成结果中选择最优输出)。
            3. 稀疏反馈学习:能够从稀疏的二元反馈中学习。
          • 实验结果

            • 性能提升:在多个基准测试上显著超过基线方法,最高提升达 181%。
            • 广泛验证:覆盖了多种任务、模型和奖励机制,证明了其鲁棒性和通用性。
            • 研究意义

              • 为 RLHF 提供新思路:DanceGRPO 为视觉生成领域的 RLHF 提供了可扩展且通用的解决方案。
              • 调和 RL 与视觉生成:揭示了强化学习与视觉合成之间的协同潜力,为未来研究提供了新方向。

                1. Introduction

                • 研究背景与现状

                  1. 生成模型的进展

                    • 扩散模型 和 整流流取得突破性进展,显著提升了图像/视频生成的质量和多样性。
                    • 预训练虽能建立基础数据分布,但人类反馈的整合对对齐生成结果与人类偏好至关重要。
                    • 现有方法的局限性

                      • ReFL方法:依赖可微奖励模型,导致视频生成中显存(VRAM)效率低下,且工程实现复杂。

                      • DPO系列方法:仅能带来边际视觉质量提升。

                      • 基于RL的方法虽具潜力,但存在三大挑战:

                        • 整流流的ODE采样与马尔可夫决策过程(MDP)的数学形式冲突;
                        • 现有策略梯度方法在小规模数据集(r(z0​,c),0,​if t=0otherwise​oi​}i=1G​∼πθold​​(⋅∣c)at,i​∼πθold​​(⋅∣st,i​)​​[[G1​i=1∑G​T1​t=1∑T​min(ρt,i​Ai​,clip(ρt,i​,1−ϵ,1+ϵ)Ai​)]r1​,r2​,⋯,rG​})ri​−mean({r1​,r2​,⋯,rG​})​
免责声明:我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理! 图片声明:本站部分配图来自人工智能系统AI生成,觅知网授权图片,PxHere摄影无版权图库和百度,360,搜狗等多加搜索引擎自动关键词搜索配图,如有侵权的图片,请第一时间联系我们。

目录[+]

取消
微信二维码
微信二维码
支付宝二维码