当前位置: 首页 > article >正文

SUTD:偏好优化提升文本到音频效果

在这里插入图片描述

📖标题:TangoFlux: Super Fast and Faithful Text to Audio Generation with Flow Matching and Clap-Ranked Preference Optimization
🌐来源:arXiv, 2412.21037

🌟摘要

🔸我们介绍了TANGOFLUX,这是一种具有515M参数的高效文本到音频(TTA)生成模型,能够在单个A40 GPU上仅用3.7秒生成长达30秒的44.1kHz音频。对齐TTA模型的一个关键挑战在于创建偏好对的困难,因为TTA缺乏结构化机制,如可验证的奖励或可用于大型语言模型(LLM)的黄金标准答案。
🔸为了解决这个问题,我们提出了CLAP分级偏好优化(CRPO),这是一种迭代生成和优化偏好数据以增强TTA对齐的新框架。我们证明,使用CRPO生成的音频偏好数据集优于现有的替代品。有了这个框架,TANGOFLUX在客观和主观基准测试中都达到了最先进的性能。我们开源所有代码和模型,以支持TTA生成的进一步研究。详见https://tangoflux.github.io

🛎️文章简介

🔸研究问题:文本到音频(TTA)生成模型在生成高质量音频时存在对齐问题,如何通过偏好数据优化模型以生成更符合用户意图的音频?
🔸主要贡献:论文提出了TANGOFLUX模型和CRPO(CLAP-Ranked Preference Optimization)方法,显著提升了TTA模型的性能,并在公开数据集上实现了最先进的生成效果。

📝重点思路

🔸模型架构:采用基于FluxTransformer的混合MMDiT和DiT架构,结合预训练、微调和偏好优化三个阶段进行训练。
🔸偏好优化:提出CRPO方法,通过CLAP模型作为代理奖励模型,生成偏好数据集并进行迭代优化。
🔸在线数据生成:在每次迭代中生成新的合成数据,避免使用离线数据导致的性能饱和和退化。
🔸损失函数:结合DPO和FM损失,确保优化过程的稳定性和高效性。

🔎分析总结

🔸性能提升:TANGOFLUX在多个客观和主观评估指标上均优于现有模型,特别是在处理多事件提示时表现出色。
🔸在线数据生成的重要性:在线生成数据显著优于离线数据,避免了性能退化和过优化问题。
🔸偏好数据集的有效性:CRPO生成的偏好数据集在优化效果上优于其他现有数据集,如Audio-Alpaca和BATON。
🔸推理效率:TANGOFLUX在保持高质量生成的同时,显著减少了推理时间,表现出更高的计算效率。

💡个人观点

论文的创新点在于提出了TANGOFLUX模型和CRPO方法,通过在线生成偏好数据和修正流优化,显著提升了文本到音频生成的质量和效率。

🧩附录

在这里插入图片描述


http://www.kler.cn/a/500801.html

相关文章:

  • 【论文阅读+复现】High-fidelity Person-centric Subject-to-Image Synthesis
  • 网络安全 | Web安全常见漏洞和防护经验策略
  • elasticsearch中IK分词器
  • OpenCV相机标定与3D重建(48)对三台相机进行极线校正(rectification)函数rectify3Collinear()的使用
  • Python的循环
  • hive数据迁移
  • 理解 SQL 中NULL值对IN操作符的影响
  • 蓝桥杯历届真题 # 封闭图形个数(C++,Java)
  • Win32汇编学习笔记10.OD插件
  • Vue.js组件开发-如何使用day.js、luxon或date-fns处理日期时间
  • 【经管数据】ZF数字采购采购明细数据(2015.3-2024.3)
  • Mybatis——Mybatis开发经验总结
  • Vue 常用指令详解(附代码实例)
  • C++(10)—类和对象(上) ③this指针的详解
  • RAG技术:是将知识库的文档和问题共同输入到LLM中
  • 多媒体技术学习笔记
  • 饭搭难点亮点
  • 25/1/12 算法笔记 剖析Yolov8底层逻辑
  • 【2024年华为OD机试】(C卷,100分)- 单词加密(Java JS PythonC/C++)
  • 【学习笔记】理解深度学习的基础:机器学习
  • webpack打包要义
  • 什么是MVCC
  • 【ASP.NET学习】Web Pages 最简单的网页编程开发模型
  • 深入浅出Java Web开放平台:从API设计到安全保障的全方位探索
  • --- 多线程编程 基本用法 java ---
  • 从零开始开发纯血鸿蒙应用之多签名证书管理