开云(中国)Kaiyun·官方网站 登录入口

开云体育来自 Sora 和可灵的 AIGC 视频-开云(中国)Kaiyun·官方网站 登录入口

发布日期:2026-02-16 10:34    点击次数:97

开云体育来自 Sora 和可灵的 AIGC 视频-开云(中国)Kaiyun·官方网站 登录入口

视频生成模子卷得繁荣兴旺开云体育,配套的视频评价圭表当然也弗成过期。

咫尺,北京大学 MMCAL 团队成立了首个用于视频编订质料评估的新方向——VE-Bench,关系代码与预磨真金不怕火权重均已开源。

它重心关爱了 AI 视频编订中最常见的一个场景:视频编订前后收尾与原始视频之间的磋议。

举例,在"摘掉女孩的耳饰"的任务中,需要保留东谈主物 ID,源视频与编订收尾应该有着较强语义关系性,而在"把女孩换为钢铁侠"这么的任务中,语义就彰着发生了变嫌。

此外,它的数据还愈加顺应东谈主类的主不雅感受,是一个灵验的主不雅对王人量化方向。

实验收尾深入,与 FastVQA、StableVQA、DOVER、VE-Bench QA 等视频质料评价措施比拟,VE-Bench QA 获取了SOTA 的东谈主类感知对王人收尾:

这到底是如何作念到的呢?

简便来说,VE-Bench 最初从原始视频汇聚、辅导词汇聚、视频编订措施、主不雅标注 4 个方面出手,构建了一个愈加丰富的数据库VE-Bench DB。

此外,团队还淡薄了改进的测试措施VE-Bench QA,将视频的举座效果分红了翰墨 - 方向一致性、参考源与方向的关系、工夫畸变和好意思学圭表多个维度进行概述评价,比面前常用的 CLIP 分数等客不雅方向、PickScore 等反馈东谈主类偏好的方向都愈加全面。

关系论文已入选 AAAI 2025(The Association for the Advancement of Artificial Intelligence)会议。

更丰富全面的数据库 VE-Bench DB 原始视频汇聚

为了确保数据万般性,VE-Bench DB 除了汇聚来自实在天下场景的视频,还包括CG 渲染的推行以及基于文本生成的AIGC 视频。

数据着手包括公开数据集 DAVIS、Kinetics-700、Sintel、Spring 的视频,来自 Sora 和可灵的 AIGC 视频,以及来自互联网的补充视频。

来自互联网的视频包括极光、熔岩等老例数据集枯竭的场景。

所有这个词视频都被调遣为长边 768 像素,同期保握其原始宽高比。

由于咫尺主流视频编订措施提拔的长度为止,每段视频都被剪辑为 32 帧。

源视频的具体推行组成如下图所示,所有这个词样本在汇聚时均通过东谈主工筛选以保证推行的万般性并减少冗余:

△VE-Bench 原始视频组成。 ( a ) 视频着手 ( b ) 视频类型 ( c ) 视频通顺种类 ( d ) 视频推行种类辅导词汇聚

参考过往使命,VE-Bench 将用于编订的辅导词分为3大类别:

立场编订(Style editing):包括对心思、纹理或举座氛围的编订。

语义编订(Semantic editing):包括布景编订和局部编订,举例对某一双象的添加、替换或移除。

结构编订(Structural editing):包括对象大小、姿态、当作等的变化。

针对每个类别,团队东谈主工编写了相应的辅导词,对应的词云与类别组成如下:

△VE-Bench 辅导词组成。 ( a ) 词云 ( b ) 辅导词类型占比统计编订收尾生成

VE-Bench 考取了 8 种视频编订措施。

这些措施包括早期的经典措施与近期较新的措施,涵盖从 SD1.4~SD2.1 的不同版块,包括需要微调的措施、0-shot 的措施、和基于 ControlNet、PnP 等不同计谋编订的措施。

东谈主类主不雅评价

在进行主不雅实验时,VE-Bench 确保了每个视频样本均由 24 位受试者进行打分,顺应 ITU 圭表中 15 东谈主以上的东谈主数条件。

所参与受试者均在 18 岁以上,学历均在本科及以上,包括商学、工学、理学、法学等不同的布景,有寥寂的判断智商。

在实验启动前,所有这个词东谈主会线下联贯进行培训,况且会展示数据集除外的不同锋利的编订例子。

测试时,受试者被条件证实其主不雅感受,并对以下几个方面进行概述评价:文本与视频的一致性、源视频与方向视频的关系度以及编订后视频的质料,分数为尽头制。

终末汇聚得到的不同模子平均得分的箱线图如下:

△VE-Bench 模子得分箱线图

其中,横坐标暗意不同模子 ID,纵坐标暗意 Z-score 正则化后的 MOS ( Mean Opinion Score ) 分数。橘红色线条暗意得分的中位数。

不错看出,面前的大多数文本驱动的视频编订模子中位数得分浩荡在 5 分傍边浮动,少数模子的得分中位数不错达到近 6 分,部分模子的得分中位数不到 4 分。

模子得分最低分不错下探到不到 2 分,也有个别样本最高不错达到近 9 分。

具体每个样本在 Z-score 前后的得分直方图如下图所示,不错看出极高分和极低分仍在少数:

△VE-Bench 模子得分直方图

在此基础上,团队进一步画图了不同视频编订模子在 VE-Bench 辅导词上的发扬:

△不同视频编订模子在 VE-Bench 中不同类别的辅导词上的发扬

不错看出,咫尺的模子都相对较为擅长立场化指示,这可能是愚弄了 SD 在大都不同立场图片上磨真金不怕火的先验后果。

同期,删除指示比拟于添加得分更低,因为它需要颠倒辩论物体或布景重建等问题,对模子语义相识与细粒度特征索求智商有更高条件。

现存模子都还不太擅长体式编订。这方面 FateZero 模子发扬较为优秀,这可能与它针对 shape-aware 淡薄的珍眼光羼杂措施关系。

从 3 个纬度进行评估的 VE-Bench QA

在构建的 VE-Bench DB 的基础上,团队还淡薄了改进的 VE-Bench QA 磨真金不怕火措施,方向是得到与东谈主类感知愈加接近的分数。

底下这张图展示了 VE-Bench QA 的主要框架:

VE-Bench QA 从3个维度对文本驱动的视频编订进行评估:

文本 - 视频一致性

为了估计所编订视频是否与文本关系,VE-Bench QA 基于 BLIP 进行了灵验的视频 - 文本关系性建模,通过在 BLIP 视觉分支的基础上加入 Temporal Adapter 将其膨胀到三维,并与文分内支的收尾通过交叉珍眼光得到输出。

源视频 - 编订后视频动态关系性

为了更好建模随落魄文动态变化的关系性关系,VE-Bench QA 在该分支上通过时空 Transformer 将二者投影到高维空间,并在此基础上拼接后愚弄珍眼光机制诡计二者关系性,终末通过转头诡计得到相应输出。

传统维度的视觉质料方面

VE-Bench QA 参考了过往当然场景视频质料评价的优秀使命 DOVER,通过在好意思学和失真方面预磨真金不怕火事后的主干汇聚输出相应收尾。

最终各个分支的输出通过线性层转头得到最终分数。

实验收尾深入,VE-Bench QA 在多个数据集上所预计的收尾,其与真值的关系性得分都卓越于其他措施:

△VE-BenchQA 在 T2VQA-DB 数据集上的收尾

△VE-Bench QA 在 VE-Bench DB 数据集上的收尾

论文勾通:https://arxiv.org/abs/2408.11481

代码勾通:https://github.com/littlespray/VE-Bench

—  完  —

投稿请发邮件到:

ai@qbitai.com

标题注明【投稿】,告诉咱们:

你是谁,从哪来,投稿推行‍

附上论文 / 名堂主页勾通,以及磋议神情哦

咱们会(尽量)实时回应你

点这里� � 关爱我,谨记标星哦~

一键三连「共享」、「点赞」和「在看」

科技前沿进展日日再会 ~