当前位置: 首页 > article >正文

论文解读 | NeurIPS'24 Spotlight ChronoMagic-Bench 评估文本到视频生成的质变幅度评估基准...

点击蓝字

2e180985ccd1ac0613dd545d706c36f5.jpeg

关注我们

AI TIME欢迎每一位AI爱好者的加入!

f00ee63d9b33f2634937571b1ffa50a2.png

点击 阅读原文 观看作者讲解回放!

作者简介

袁盛海,北京大学硕士一年级学生

内容简介

本文提出了一种新颖的文本到视频(T2V)生成基准ChronoMagic-Bench,用于评估T2V模型(例如Sora和CogVideoX)生成质变延时视频的能力。与现有基准相比,这些基准侧重于生成视频的视觉质量和文本相关性,ChronoMagic-Bench专注于让模型生成具有显著质变幅度和时间连贯性的延时视频的能力,侧面衡量视频模型的物理含量。为此,ChronoMagic-Bench引入了1,649个提示和现实世界视频作为参考,分为四大类延时视频:生物类、人类创造类、气象类和物理现象类,这些进一步细分为75个子类别。为了准确对齐人类偏好和大规模衡量模型能力,引入了两个新的自动指标,MTScore衡量质变幅度,反映视频随时间变化的程度,而CHScore评估时间连贯性,确保生成的视频保持逻辑进展和连续性。基于ChronoMagic-Bench,本文对18个代表性T2V模型进行了全面的评估,揭示了它们在不同类别提示中的优势和劣势,提供了一个全面的评估框架,解决了视频生成研究中的当前空白。此外,本文还创建了一个大规模的ChronoMagic-Pro数据集,包含460k对高质量720p延时视频和详细字幕。每个字幕确保包含较高的物理内容和较大的质变幅度,弥补了该类数据集在社区的空缺。

论文地址

https://arxiv.org/pdf/2406.18522

代码链接

https://pku-yuangroup.github.io/ChronoMagic-Bench

Motivation

高质量的文本到视频生成技术,在内容创作和世界模拟中具有重要意义。这些技术不仅能够帮助人们以全新的方式表达创造力,还能用于建模和理解现实世界。最近,SORA等模型在生成高分辨率、更自然的动作视频方面取得了显著进展。这些改进得益于模型架构的演进,从传统的UNet逐步转向新兴的DiT,同时结合了更大规模的数据和更好的训练策略。然而,尽管基于DiT的闭源或开源模型层出不穷,对于其能力与局限性的研究仍然缺乏。然后,我们发现延时视频记录了世间万物的变化规律的相比于普通视频包含了更多的物理规律,因此本文基于此为切入点,评估视频模型的物理含量。

如图中所示,大多数 T2V 模型(例如 OpenSora 和 CogVideoX)生成的视频运动有限且变化较弱。只有像 MagicTime 这样的少数模型可以生成完整的延时视频过程。换句话讲,就是现有的模型没能有效地编码现实世界的物理知识。

732ad9ccab956716e0853f79119912a8.png

评估文本到视频生成模型的好坏,最简单的就是评估生成视频的美学质量还有文本的相关程度。所以,目前已经有很多关于视频生成的评估基准,但同质化严重,多数基准主要关注美学质量和文本一致性,研究者们都围绕着这两方面寻找和人类感知对齐度更高的指标。但是,他们都缺乏可靠的指标来评估模型生成复杂物理现象的能力,这使得评估模型对现实世界的理解变得困难。

7bb593a391110a99b5a2f6d3bc8adc21.png

Benchmark Construction

为了解决前面陈述的问题,本文构建了首个用于文本到视频生成模型的延时视频评估基准,主要步骤包含以下两个方面:第一,根据延时视频的特性构建提示词;第二,构建评估指标。

c95192737ffbb7bba100a0bf9401659f.png

Prompt Categorization

在构建评估基准过程中,本文对提示词类别进行了精细的划分,以保证覆盖足够广泛的场景和内容,满足多样化延时视频生成的评估需求。具体而言,作者将提示词类别分为四个主要类别:生物类、人类创造类、气象类和物理现象类。然后进一步将这四个类别扩展成75个子类别。其中,生物类包括自然界中与生物体相关的内容,例如种子发芽;气象类则涵盖了各种气象现象,例如日出日落;人造类包含了人类活动创造或影响的所有对象,例如3D打印;物理类则聚焦于非生物的物理现象,例如冰的融化。接着,作者根据这些精挑后的类别,到互联网上收集对应的真实世界视频,然后使用GPT-4o获取视频对应的描述,最终获得评估文本到视频生成模型的输入,即延时视频对应的文本提示词。

fadf5ee9bf8dbdf9cf8f209c7bc0399d.png

Chronomagic-Bench: Data Analysis

本文的评估基准涵盖了多样化的内容,并针对提示词长度和内容范围进行了合理的设定。如右下角的环形图所示,大多数提示词的长度集中在 30 到 50 个字之间,占比约 47%。因为CLIP编码器只能接收77个token,而T5能够接收上百个。这种设计考虑了主流文本编码器的输入需求,既确保了提示词的完整性,又避免了过长文本对模型性能的影响。此外,作者也保留了少量较短或较长的提示词,以提升数据集的多样性。

f47e928e840e01036c78b024370fdd36.png

Assessing Metamorphic: 

MTScore & GPT4o-MTScore

如何构建输出,即设计评估指标?具体而言,本文设计了两个互补的指标来评估延时视频中的变化幅度。 

首先是 MTScore。这一指标通过设计多个检索句子,利用视频检索模型对给定视频进行对比分析。也就是计算延时视频(metamorphic)和普通视频(general)各自的概率分布,然后基于公式中的加权投票机制,生成整体的评分。这种方法偏向从粗粒度层面判断视频的变化幅度。

其次是 GPT4o-MTScore。这一指标是对 MTScore 的补充,侧重于更细粒度的主观评估。作者制定了一个基于 5 分制的详细评分标准(如表6所示),覆盖从“几乎无变化”到“显著动态变化”的多个层级。然后,作者利用GPT-4o 结合详细的评分标准,为每个视频打分并且提供明确的评价理由。这种方法能够捕捉更加细腻的变化特征。

c5cf5df7fea4d6199f844f3c1a212d84.png

Assessing Temporal Coherence: 

Coherence Score

除了变化幅度外,时间一致性是延时视频中非常重要的一个评价指标,反映了视频帧之间运动和结构变化的平滑程度,因此本文提出CHScore。简单来说,作者借用追踪模型获取视频的跟踪点网格。然后,逐帧计算缺失的跟踪点数量(即帧中无法继续跟踪的点),并记录这些跟踪点的变化情况。对于相邻帧之间的跟踪点变化量,如果变化超过设定的阈值T,会将这些帧标记为异常帧。随后,作者计算多项统计指标,例如异常帧数量、每帧平均缺失点的数量、缺失点的标准差、最大缺失点数等。这些指标最后会被组合成一个加权公式,得到最终的CHScore。

5dc79bee0030f8b849ad8b3b3b4d169d.png

Reasonableness of Automatic 

Evaluation Metrics

下图展示了评估指标与人类感知在质变幅度和时间连贯性方面的一致性评估结果。顶端的两个小符号分别表示肯德尔系数 (Kendall↑) 和斯皮尔曼系数 (Spearman↑),↑ 表示数值越高越好。如图所示,所提出的自动指标与人类感知之间具有较强的相关性,验证了本文所提评估指标的可靠性。

30c96c56d4b1fe2c82e5c28fbf7fa1db.png

Visual Reference for Varying Scores

下图提供了MTScore和CHScore在量表上不同分数的直观示例,有助于说明不同分数表示视频的具体情况。比如MTScore达到0.5分以上,CHScore达到50分以上,视频的变化幅度和连贯度则可以称得上是不错的效果。

e703c5ca5da4fda815773c2d8e6e9471.png

Main Results of ChronoMagic-Bench-150

借助新提出的指标和提示词,本文总共选取了18个T2V模型进行评估——其中4个为闭源模型,14个为开源模型。最近比较火的可灵和CogVideoX都包含在内。结果揭示了不同T2V模型之间在能力上的显著差异。针对于本文关注的变化幅度评估,即MTScore和GPT4o-MTScore,可见几乎所有开源模型分数都较低,很少超过0.5分的,即没法生成诸如种子发芽、花开、建筑构建等完整延时过程。作者希望这些结果能够为用户在选择适合其特定需求的T2V模型时提供宝贵的见解。

9398ef77453a343e5858f69cae61c35b.png

Qualitative Analysis of Our Benchmark

下图比较了几个代表性模型的输出结果,包括闭源的KeLing、LUMA等,也包括开源的MagicTime和CogVideoX等,可以清晰地看到不管是开源还是闭源模型都没法生成记录了世间万物变化规律的延时视频内容。

b2a22a47542ca9b4e5a2506fc663a15e.png

ChronoMagic-Pro

除了评估基准外,本文构建了首个大规模的延时视频数据集ChronoMagic-Pro。虽然视频数量相较于Panda要小,但信息含量可能更高,因为延时视频比普通视频包含更多的物理现象。作者也希望这个数据集对于训练和改进T2V模型能够产生一些价值。

84a4435c02ace453a07f15c78cbe7104.png

Pipeline of Constructing ChronoMagic-Pro

下图展示了数据集数的据处理流程。简单来说就是先把视频的跳切移除,然后使用开源的视觉大模型给视频打上标注。在这里,作者发现直接将整个视频输入给视觉大模型,输出的视频描述通常是不准确的。因此,文章中选择使用帧级别的标注,最后再让LLM汇总出最终的caption。

4c5757bd9f5699adee19d6816bd2503a.png

ChronoMagic-Pro: Dataset Statistic

下图展示了数据集的统计数据,包含了46万对高质量的视频-文本对。视频时长从15秒到60秒不等,分辨率集中在720P,只有少量的480P数据。并且,每段视频以详细的标注为主,美学指标集中在5分以上。

07c04ad4a7b3ff34695822548d283199.png

Dataset Verification 

(with ChronoMagic-Pro 10K)

本文也采用不同训练方法验证数据集的有效性,第一行是微调前的,第二第三行是微调后,可以看到微调后视频质量都有在提高。

89984a080b78300f59daeb4aa8c9f696.png

Conclusion

总结而言,该篇工作一共有四个贡献点:分别是新的 T2V评估 基准、新的自动指标、新的模型选择见解以及一个大规模延时数据集。

800be822373c08eada15a5b857856108.png

本期文章由陈研整理

往期精彩文章推荐

0bc8f9d8a3046286a3d8e19ded77debd.jpeg

ICLR 2025预讲会一作讲者招募|个人和团队报名通道开启

 关于AI TIME 

AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。

迄今为止,AI TIME已经邀请了2000多位海内外讲者,举办了逾700场活动,超800万人次观看。

 7243ebac2a4d52de0ccd7946fe3e6b11.png

我知道你 

在看

提出观点,表达想法,欢迎 

留言

892d49375019eb3e3361a652e0446210.gif

点击 阅读原文 观看作者讲解回放!


http://www.kler.cn/a/534948.html

相关文章:

  • React - jsx 语法
  • creator 接入zendesk Unified SDK 组件样式报错解决方法
  • AspectJ 中通知方法参数绑定
  • 免费PDF 转换成 Word、PPT、Excel 格式的工具
  • axios如何利用promise无痛刷新token
  • 在VS Code中基于TypeScript使用Vue.js搭建Babylon.js的开发环境
  • B站自研的第二代视频连麦系统(上)
  • 拧紧“安全阀”,AORO-P300 Ultra防爆平板畅通新型工业化通信“大动脉”
  • .net的一些知识点3
  • Windows本地部署DeepSeek-R1大模型并使用web界面远程交互
  • 网络面试题(第一部分)
  • 7.攻防世界 wzsc_文件上传
  • 深度学习与搜索引擎优化的结合:DeepSeek的创新与探索
  • Excel中对单列数据进行去重筛选
  • npx tailwindcss init报错npm error could not determine executable to run
  • Langchain教程-1.初试langchain
  • Spring 核心技术解析【纯干货版】- X:Spring 数据访问模块 Spring-Orm 模块精讲
  • Golang: 对float64 类型的变量进行原子加法操作
  • ESP32开发学习记录---》GPIO
  • 第四十六天|动态规划|子序列|647. 回文子串,5.最长回文子串, 516.最长回文子序列,动态规划总结篇
  • Mac 终端命令大全
  • 记录 | WPF创建和基本的页面布局
  • S4 HANA (递延所得税传输)Deferred Tax Transfer - S_AC0_52000644
  • 基于Hexo实现一个静态的博客网站
  • 本地机器上便捷部署和运行大型语言模型(LLM)而设计的开源框架Ollama
  • 《利用原始数据进行深度神经网络闭环 用于光学驻留空间物体检测》论文精读