澳门六合彩官网 AGI-Eval团队：AI视频生成模子年度横评，国产模子仍然朝上！

发布日期：2025-01-02 11:15:55 点击次数：121

AGI-Eval团队投稿澳门六合彩官网

量子位 | 公众号 QbitAI

说到2024年AI圈的热点话题，诚然不行错过视频生成模子了！

即使是在12月，国表里视频模子的更新脚步依旧莫得放缓。其中以Sora、可灵AI为代表。

12月9日，OpenAI厚爱推出视频居品Sora。用户可以创建即兴长宽比例的分辨率高达1080p（最长 20 秒）的视频，可给与文本、图像和视频输入并生成新视频手脚输出。

12月19日，可灵AI晓谕基座模子再升级，视频生成推出可灵1.6模子，文本响应度、画面好意思感及通顺合感性，均有彰着升迁，画面更踏实新纯真，同期维持规范和高品性模式，相配是1.6模子的图生视频，里面评测比 1.5 模子举座后果升迁195%。

视频模子竞争热烈，评测榜单也变得尤为弥留。

AGI-Eval通过构建上百条评测数据和众人级东说念主工评测团队，对Sora 、及国产头部视频生成模子进行了更深度的专科评测。

主要论断有以下3个：

论断1

与国内头部大模子（国内前三）比拟，Sora在视频-文本一致性维度、视频质地上均有小幅过期。总体来看，国内大模子仍保抓朝上水平。

论断2

Sora在通顺质地维度发达略好于可灵1.6，即生成的视频画面在动态进程中的主体一致性和动态幅度更当然。

论断3

在视频-文本一致性维度上，Sora存在文智力会有误、指示衔命不符的问题，即生成的视频实践与教唆词的描摹不符的景色。

详细的榜单名次如下，评测维度包括视频-文本一致性、视频质地（含确切性、合感性) 、通顺质地等，确保评测截止反馈模子确切水平。

注：以上数据为示例，具体评分请参考AGI-Eval评测社区平台的最新数据。

榜单数据经过归一化处分，与原始分值有所区别，但名次一致。

AGI-Eval平台聚积：https://agi-eval.cn/mvp/listSummaryIndex

详细评测对比：Sora VS 国内视频生成模子

一皆来望望详细的测评截止。

从视频生成的举座后果来看，Sora在视频质地、创作解放度、作风维持等方面的发达更优，尤其是在动态场景下五官的呈现上更为精良。

示例对比

【示例1】：文本一致性

Prompt: 地上放着一个篮球、面包和背包，镜头奴婢劳累的通顺员来到物品眼前，提起一样物品用来补充能量。

英文prompt：There is a basketball, a loaf of bread, and a backpack on the ground. The camera follows the exhausted athlete as he approaches the items and picks up one of them to replenish his energy.

该prompt自身较为复杂，同期存在多个实体、东说念主物情状发达，且需要模子进行正确的推理，考试的才智愈加全面。

Sora-1080P

该维度打分：2分

分析：条目生成的实体中，背包缺失，面包发达较差，丢失实体特征；东说念主物动作”提起“不稳当，无法判断是否稳当推理正确的物体。

可灵1.6

该维度打分：2.67分

分析：条目生成的实体中，面包缺失，”提起“的动作有趋势但发达较差，相似无法判断是否稳当推理正确的物体。

Pixverse-V3

该维度打分：3.5分

分析：条目生成的实体及东说念主物动作“提起”均险恶，也能达成正确的推理，贯通需要拿的是面包，但不稳当镜头奴婢和东说念主物动作“来到”，相对来说还是发达得可以。

MiniMax-Video-01

该维度打分：3分

分析：条目生成的实体中，面包缺失，“提起”动作不稳当，但推理正确，贯通需要拿的是面包。

Prompt:高温变色马克杯告白。一个玄色高温变色马克杯正被加入沸水，逐步变成白色的进程。重心需要稀薄马克杯的变色才智。

英文prompt：High-temperature color-changing thermos advertisement. A black high-temperature color-changing thermos cup is being filled with hot water, gradually transforming into white. The key focus is to highlight the thermos cup’s color-changing capability.

该prompt实体较粗略，但倾向于考试水流、热气、神气渐变等细节，流通的细节变化常常来说较为艰辛。

Sora-1080P

该维度打分：2.67分

分析：忽略prompt条目的重心，未体现出变色的进程。

可灵1.6

该维度打分：4分

分析：变色进程不完全稳当条目，但相对来说较好。

Pixverse-V3

该维度打分：3分

分析：未体现正在加水，变色有体现，但不稳当逐步变白的条目。

MiniMax-Video-01

该维度打分：2.67分

分析：相似未体现出变色的进程，也无法看出是沸水。

【示例2】：物品生成踏实性（倏得出现或销毁）

Prompt: 一款创意蛋糕的宣传告白。一把餐刀切开了蛋糕，从蛋糕的切口处涌出了草莓酱。

英文prompt：An advertisement for a creative cake. A dining knife slices through the cake, and strawberry sauce flows out from the cut.

该prompt重在考试通顺细节及实体之间的交互，模子在“切口处涌出了草莓酱”上发达得各有各异。

Sora-1080P

该维度打分：2.5分

分析：该视频中果酱屡次忽然出现和忽然销毁，蛋糕忽然出现缺口，仅针对踏实性较差。

可灵1.6

该维度打分：3.5分

分析：能看到刀的动作导致蛋糕出现切口，果酱的出现比较突兀分歧理。

Pixverse-V3

该维度打分：3.5分

分析：果酱和刀的口头踏实，蛋糕的切口出现较为突兀。

MiniMax-Video-01

该维度打分：3分

分析：刀和蛋糕的口头较踏实，稳当切开的情状，但果酱忽然大都出现分歧理。

【示例3】：实体特地

Prompt: 生成一个动画作风的视频，实践是一个女孩正在巴黎旅行，她的眼前是埃菲尔铁塔。

英文prompt：Generates an animated-style video of a girl traveling in Paris with the Eiffel Tower in front of her.

Sora-1080P

该维度打分：2.67分

分析：配景鸟群出现彰着特地及分歧理滞空，配景行东说念主有粘连及行走姿态彰着分歧理，举座不雅感上较为彰着。

可灵1.6

该维度打分：4分

分析：主体东说念主物及建筑物举座的口头均较好，部分配景东说念主物出现渺小特地，举座对不雅感影响较小。

Pixverse-V3

该维度打分：3分

分析：主体东说念主物手指有渺小粘连形变，配景建筑物发生形变，不雅感上稍有分歧理。

MiniMax-Video-01

该维度打分：3.5分

分析：主体东说念主物手指渺小形变，左侧出现的配景东说念主物面部有渺小误解，不雅感上稍有分歧理。

Prompt: 共事们正在办公室门前交谈。

英文prompt：Colleagues are talking in front of the office door.

Sora-1080P

该维度打分：2.5分

分析：东说念主物有彰着的穿模，门发生的形变也较彰着，影响严重。

可灵1.6

该维度打分：3.5分

分析：东说念主物举座形象较好，无彰着特地，部分镜头中东说念主物手部存在形变，变成一定的影响。

Pixverse-V3

该维度打分：3分

分析：东说念主物手指形变抓续存在且较严重，较影响视觉后果。

MiniMax-Video-01

该维度打分：3.5分

分析：东说念主物举座形象较好，无彰着特地，部分镜头中东说念主物手部存在形变，变成一定的影响。

【示例4】：镜头时间

Prompt: 创意视频，升镜拉镜衔接，镜头从一座劳作的城市拉升到空中、天外、天地外，需要展示出地球是其他天地高维生命手中的玻璃球

英文prompt：A creative video combining zoom-in and zoom-out techniques, with the shot pulling up from a bustling city to the sky, into space, and beyond the universe, revealing Earth as a glass ball in the hands of higher-dimensional beings from another universe.

Sora-1080P

该维度打分：3分

分析：拉镜有所发达，但升镜体现较差，视频举座镜头发达较单一。

可灵1.6

该维度打分：4分

分析：视频能较好的体现升镜、拉镜，场景变化的过度比较当然，举座流通。

Pixverse-V3

该维度打分：3.5分

分析：升镜体现较好，但拉镜未明确发达，视频举座场景滚动较流通。

MiniMax-Video-01

该维度打分：3分

分析：拉镜有所发达，但升镜体现较差，视频举座后果较为突兀。

是怎样评测的？

针对基础模子，AGI-Eval承袭了不同的评测门径及不同的评测神情，包含东说念主工主不雅评测、模子打分（modeleval）、众包评测三种神情，考试模子在不同版块下是否有才智着落、作风等影响导致榜单截止各异，反馈模子详细才智。

东说念主工评测

评测讲明：

给定prompt的视频，东说念主工从视频文本一致性、视频质地、通顺质地等维度详细给被测视频打1-5完竣值分,并标注出被测视频的特地标签;视频承袭多轮标注的神情，2东说念主打分截止调换则为该prompt截止，若2东说念主打分diff则进入3标，最终3东说念主平均为被测视频最终分数。

评测想路：

视频文本一致性：是否按照prompt的条目生成视频，包括对物体、东说念主物、场景、作风、通顺细节等总共磋磨成分的描摹是否完整衔命。

“他周薪高达三十多万镑，他每天赚到的钱抵得上人们一年的工资，但他几乎什么也没干！”

视频质地：

合感性：视频在逻辑、结构、瞎想、通顺轨迹等维度是否稳当旧例，即，是否稳当物理限定。

确切性：视频具有传神后果，无彰着AI印迹。

通顺质地：视频中的通顺发达是否流通、连贯、动态后果是否丰富。

评测集先容：

左证一致性、通顺质地、画面质地等关键性能贪图，构建了包含500条中英文对照样本的黑盒测试集，粉饰了从动作生成到神志生成多种复杂场景和才智项及欺诈场景；在构建中也衔接到了物理知识和百科知识，评估生成视频的确切感和逻辑性。

评测案例：

任务类型：互相影响多实体生成

Prompt：一只猫唤醒了正在睡眠的主东说念主。

模子谜底：

评测分析：

视频详细打分：3分

一致性：4分，实体生成稳当条目，但关于“唤醒”的动作进程体现不完整。

视频质地：3分，通顺进程中东说念主物肢体、猫面部都呈现出变形。

通顺质地：3分，通顺基本连贯，终末猫爪收回动作不当然，机械感较彰着。

任务类型：实体&动作生成

Prompt：跳水通顺员们正在热身。

模子谜底：

评测分析：

视频详细打分：1分

一致性：1分，条目的实体及动作完全未体现。

视频质地：1分，视觉中心的主体特地，场景下方也存在变形不连贯。

通顺质地：2分，下方虚拟出现实体，通顺连贯性、动态后果、通顺幅度均差。

AGI-Eval评测平台

鉴于传统评测神情难以充分响应模子的确切水平，AGI-Eval篡改性地提议了东说念主机配合评测模式，探索建树高质地评测社区建树。

在这种模式下，参与者可以与最新的大模子共同完成任务，既有助于提高任务完成度又便于建立愈加直不雅的差别度。

基于前期的一些用户实验标明，通过这种神情不仅可以赢得更为精真金不怕火、完善的推理进程描摹，还可以进一步升迁用户与大模子之间的互动体验。

异日，跟着更多访佛平台的出现和发展，服气东说念主机配合将成为评测畛域的一个弥留发展标的。

东说念主机社区聚积：https://agi-eval.cn/llmArena/home

AGI-Eval 平台基于确切数据回流、才智项拆解等神情，自建万量级独到数据，并经过屡次质检保证准确率。

黑盒100%独到化数据，可保证评测数据不可“穿越”。

从数据建树到模子评测，竣事全层级才智容貌，一级才智涵盖指示衔命、交互才智、贯通才智（含推理、知识、其他贯通才智等）；无缺竣事自动与东说念主工评测相衔接。

关于Chat模子，平台官方榜单衔接主不雅、客不雅评测截止，中英文权重散播平衡。

客不雅评测基于模子打分，可处分具有一定解放度问题，准确率95%+；主不雅评测基于三东说念主孤独标注，并纪录细分维度标签截止，全面会诊模子问题。

想要苦求文生视频测评的一又友可以平直磋磨AGI-Eval团队。

AGI-Eval团队先容

AGI-Eval是由上海交通大学、同济大学、华东师范大学、DataWhale等高校和机构合作发布的大模子评测社区，以“评测助力，让AI成为东说念主类更好的伙伴”为服务。平台旨在打造公平、确切、科学、全面的评测生态，命令群众共同过问到大模子评测服务，参与数据构建及丰富兴味的东说念主机配合比赛，与大模子协同完成复杂任务，竣事评测决议共建。

AGI-Eval多模态评测可联络全模态(any toany)模子评测(部分榜单待上线)，接待诸君模子厂商提报评测合作交流。

文生视频测评苦求神情：

请使用单元邮箱，将测评筹议主义、筹谋，筹议机构、苦求者先容和磋磨神情（手机或微信），发送到邮箱。

邮箱:[email protected]，标题是：AGI-Eval文生视频测评苦求

— 完 —

量子位 QbitAI · 头条号签约

体恤咱们澳门六合彩官网，第一时辰获知前沿科技动态

上一篇：澳门六合彩资料心水《她&她》编导顾湘萍：叫醒戏院空间的念念象力_大皖新闻 | 安徽网下一篇：澳门六合彩资料心水多地优化迁移支付状貌助力外籍搭客“打卡中国”更方便