超越赛道! Adobe发布新神器:P视频比P图简单

新智慧报告编辑器:LRST 【新智慧介绍】新的EditVerse AI工具将图像和视频编辑集成到一个框架中,使编辑视频像编辑照片一样简单。通过统一的通用视觉语言和情境学习能力,EditVerse解决了传统视频编辑的复杂性和数据稀缺问题,也实现了罕见的“涌现能力”。其效能超越了商业工具“Runway”,预示着新创作时代的到来。你有过这样的经历吗?您已经可以非常轻松地使用各种人工智能程序(例如Hunyuan-Image或nano-banana)编辑照片,但是当涉及到视频编辑时,必须打开具有复杂时间线和特效面板的视频编辑软件(PR/FCPX)很快就会变得令人不知所措。图像编辑和视频编辑就像二维技能树。但如果有一个工具可以像照片一样编辑视频呢?如今,这个颠覆性工具已经到达了。 EditVerse由香港中文大学、Adobe Research和约翰霍普金斯大学的研究人员联合推出,是一种革命性的人工智能模型,彻底打破图像和视频制作的障碍,实现在统一框架下自由编辑和生成图像和视频。文章链接:https://arxiv.org/abs/2509.20360 项目主页:http://editverse.s3-website-us-east-1.amazonaws.com/ 测试代码:https://github.com/adobe-research/Ed itVerse 完整结果: http://editverse.s3-website-us-east-1.amazonaws.com/comparison.html 无论您是想为音符生成特效还是为您的舞蹈角色添加一对闪亮的翅膀,只需输入您的文本,EditVerse 就会帮助您实现。 EditVerse 的视频编辑功能展示了“数据孤岛”。为什么要编辑视频?真的有那么难吗?长期以来,AI视频编辑的发展远远落后于图像编辑的发展ing。原因是有两个主要的“天然凹槽”。这是一个建筑上的“差距”。传统的人工智能模型是为照片或视频而设计的。使用图像编辑模型处理视频非常困难,并且需要复杂的修改和调整,反之亦然。这会导致工具碎片化。数据“饥饿”:结合“剪辑指导和后期剪辑”的高质量视频数据集极为罕见。与数亿图像编辑数据相比,视频领域严重缺乏“养分”,lto AI的学习和进化存在显着限制。由于这些问题,迄今为止许多人工智能视频编辑工具都是单一的或无效的,并且不如图像编辑那么灵活。它活泼而有力。 EditVerse如何“打破围墙” EditVerse的创新本质在于它使用全新的“世界观”和方法论来同时解决架构和数据的双重问题。 C想法 1:创建一种“通用视觉语言” 散布文本和视觉模式的 EditVerse 示例。 EditVerse 可以处理任何分辨率、长度和顺序位置的图像和视频的输入和输出。 EditVerse 做的第一件事就是教 AI 以同样的方式“阅读”世界上所有的视觉信息。创新性地将文本、图像和视频转换为统一的、一维的“数据流”(令牌序列)。这就像发明“世界语”,让原本说不同方言(图像编码和视频编码)的AI可以用同一种语言进行交流和思考。大创意 2:强大的“情境学习”EditVerse 模型框架。研究人员设计了一个统一的图像和视频生成和编辑框架,以统一的顺序处理文本和视觉输入。右图所示为位置编码(RoPE位置编码)设计。该框架是一个完整的自注意力机制,用于促进强大的情境学习能力,并实现跨模式的高效知识转移。 EditVerse 以“通用语言”为特色,采用基于完全自我关注的强大 Transformer 架构。通过连接序列维度上的所有信息流,EditVerse模型可以通过注意力的情境学习能力直接关联不同的照片、视频和文本。它堪称“情境学习大师”,可以一次性读懂整个“数据流”,包括原始指令和图纸,并准确理解各个部分之间的关​​系。例如,“请将[视频1]中左侧女士的裙子改为[照片2]中的裙子。”全注意力机制可以准确地将文字指令、视频中的特定人物、照片中的衣服关联起来。同时,这种设计使 EditVerse 能够灵活地处理任何分辨率和长度的输入,让您做你真正想做的事。中心思想3:搭建“知识转移的桥梁”。这就是EditVerse最原创的东西。由于图像和视频均使用统一的框架进行处理,因此从大量图像编辑数据(可以是“处理效果”“火焰”或“水彩风格”)中获得的知识可以无缝迁移并应用到视频编辑工作中。这种“知识桥梁”显着缓解了视频数据稀疏的问题,使模型能够从单个实例中举一反三,展现出令人难以置信的创造力和泛化能力。 多分辨率视频编辑评估基准。仅靠一个智能“大脑”(模型架构)是不够的。它还需要大量的“知识”(训练数据)和公正的“审查者”(评估基准)。面对频次编辑数据短缺的困境,EditVerse团队首先建立了可扩展的数据生产线。他们使用一个各种先进的专有AI模型自动生成大量视频编辑样本(对象去除、变换等),然后使用视觉语言模型(VLM)对其进行评分。最后我们选择了232,000个高质量的视频编辑样本进行训练。这批视频编辑数据与600万个图像编辑样本、390万个视频生成样本、190万个图像生成样本等海量数据混合在一起共同训练EditVerse,从而增加模型的理解和知识传递能力。此外,为了科学、公正地评估模型的功能,团队还推出了业界首个基于命令的视频编辑综合评估基准EditVerseBench。该评测基准包括 100 个不同分辨率的视频,涵盖多达 20 种不同的编辑任务,从简单的对象添加到复杂的风格转换,确保了测试的整体性。每个模型的 rue 级别。 EditVerseBench 示例。 EditVerseBench包含200个编辑样本集,均匀分布在20个编辑类别中,视频涵盖水平和垂直方向。想象力无极限,释放你的力量 EditVerse 不仅统一了你的工作流程,其编辑效果也处于业界最高水平,甚至在人类评价上超越了 Runway Aleph 商业模式。让我们通过真实的例子来感受一下它的威力。 EditVerse 与传统方法的综合有效性比较 为了大规模地进行客观的自动化评估,团队从多个角度评估了每个模型。视频质量:我们使用PickScore进行评分,它与人类的审美感具有很高的相关性。文本对齐:计算编辑结果和关卡文本指令之间的语义匹配。单帧和完整视频。 Temporal Coherence:通过计算特征s来判断视频是否流畅、无闪烁相邻帧之间的相似性。视觉语言模型 (VLM) GPT-4o 分数(VLM 评估)——从多个角度对生成的结果进行评分,包括对指令的遵从性、编辑质量和背景一致性。 EditVerseBench 基准测试将 EditVerse 与现有的传统方法进行比较。结果表明,EditVerse 总体优于所有开源模型。更值得注意的是,EditVerse 在最适合人类偏好的 VLM 分数上优于闭源商业模型 Runway Aleph。与 EditVerseBench 的定量比较。对于开源研究模型,研究人员比较了两种不需要训练的方法(TokenFlow 和 STDF),即第一四边形传播方法(Señorita-2M)和基于指令的视频编辑方法(InsV2V)。最佳结果以粗体标记。还提供了“Runway Aleph”商业模式的结果。虽然EditVerse在制作质量上略逊于Runway Aleph由于底层模型的差异,EditVerse 在编辑保真度上超越了它(通过基于视觉语言模型评估编辑质量),并且与人类的评估结果更加一致。在出版领域,用户的真实偏好最有说服力。在真人评估环节中,评审者在不知道模型来源的情况下对不同模型制作的视频进行投票。结果再次证实了EditVerse的优越性。不仅对开源模型取得了压倒性的胜利(例如对InsV2V取得了96.9%的高胜率),而且对Runway Aleph商业模式也取得了压倒性的胜利,51.7%的用户认为EditVerse更好。 EditVerse的“突现能力”从何而来,是人类评估的结果?在测试过程中,研究人员发现了一个有趣的现象。也就是说,EditVerse 通常可以完成它从未从视频数据中学到的任务。例如,诸如“将乌龟变成玻璃材质”或“为天空添加延时摄影效果”。虽然视频训练集没有“变换材质”或“添加特效”等特殊数据,但模型却能够完美地实现。这种“无监督学习”的“理解”能力,正是AI领域备受关注的“新兴能力”。秘诀就在于前面提到的“知识传递桥梁”发挥着重要作用。想象一下,EditVerse是一个学习者, 读过600万本“静态图像”(图像编辑数据)的主要教材,但只阅读了288,000本“动态图像”(视频编辑数据)的说明书。但他从大量的绘画教科书中学到了深刻的光影、构图、材料和风格原理。在处理视频时,您可以灵活地应用这些基本的艺术原理来“弄清楚”如何在视频中表达“晶体纹理”或“天气变化”,即使简报中没有提到它们。 为了测试这个根据猜想,团队进行了关键的消融实验。他们引入了 600 万本“绘画教科书”(即删除了图像编辑数据),仅使用视频数据来训练模型。不出所料,新机型的视频编辑能力出现了断崖式下滑。此外,我们发现当视频生成的训练数据被删除时,模型的有效性也会降低。这表明该模型同时利用了图像编辑和视频生成的优势,具有视频编辑功能。关于训练数据的消融研究。我们将训练数据上的消融实验结果可视化。图像数据起着关键作用。该实验基于非常大且多样化的图像数据,从数据中学到的深层知识使 EditVerse 具有从单个示例中得出推论并在视频领域建立相似性的“新兴能力”。您还可以生成比训练数据更高质量的工作,因为您真正了解d 创造而不是死记硬背。将 EditVerse 生成的结果与您的实际数据进行比较。结果表明,EditVerse 通过从图像和视频中生成的数据中提取知识,可以生成超越现实世界数据的高质量数据。 EditVerse 的推出标志着创意新时代的开始。它的重要性不仅仅是一个强大的工具。这是内容创作的新范式:从分离到整合,从复杂到简单。宣布到来。 EditVerse所做的就是真正为所有创意人士带来专业级的可视化编辑能力。关于作者 鞠轩是香港中文大学计算机科学与工程专业的博士生。他的研究兴趣包括图像和视频生成,以及理解和生成统一模型。曾在Meta、Kolin、Adobe、腾讯、IDEA、商汤科技等多家公司实习。参考:https://arxiv.org/abs/2509.20360
特别提示:以上内容(包括图片、视频,如有)由自有媒体平台“网易账号”用户上传发布。本平台仅提供信息存储服务。
注:以上内容(包括图片和视频,如有)由网易号用户上传发布,网易号是一个仅提供信息存储服务的社交媒体平台。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注