动作模型融合 全自回归模型:WorldVLA“!来了”

2025-07-23 20:17:27      来源:青岛新闻网

岑俊,阿里巴巴达摩院具身智能大模型算法研究员,博士毕业于香港科技大学。研究方向主要是:具身智能VLA模型,世界模型。

阿里巴巴达摩院提出了WorldVLA,首次将世界模型(WorldModel)和动作模型(ActionModel/VLAModel)融合到了一个模型中。WorldVLA是一个统一了文本、图片、动作理解和生成的全自回归模型。

论文标题:WorldVLA:TowardsAutoregressiveActionWorldModel

代码地址:https://github.com/alibaba-damo-academy/WorldVLA

研究简介

近年来,视觉-语言-动作(Vision-Language-Action,VLA)模型的发展成为机器人动作建模研究的重要方向。这类模型通常是在大规模预训练的多模态大语言模型(MultimodalLargeLanguageModels,MLLMs)基础上,添加一个动作输出头或专门的动作模块,以实现对动作的生成。MLLMs在感知和决策方面表现出色,使得VLA模型在多种机器人任务中展现出良好的泛化能力。然而,这些模型存在一个显著的局限性:它们往往缺乏对动作本身的深入理解。在现有方法中,动作只是作为输出结果处理,并未被当作输入进行分析和建模。相比之下,世界模型(WorldModels)能够基于当前观测与动作预测未来的视觉状态,从而同时理解视觉信息和行为动态。尽管具备这一优势,世界模型却无法直接生成动作输出,这导致其在需要显式动作规划的应用场景中存在功能上的空白。

为了解决VLA模型与世界模型各自的局限,我们提出WorldVLA——一种基于自回归机制的统一动作与图像理解与生成模型。如下图所示,WorldVLA使用三个独立的编码器分别处理图像、文本和动作数据。不同模态的token被设计为共享相同的词表,从而使得在同一个语言模型架构下可以统一完成跨模态的理解与生成任务。

其中,世界模型部分通过输入动作来生成对应的视觉表示,从而学习环境中的物理动态规律。这种对动作的解读与物理世界的建模对于动作模型的决策至关重要。与此同时,嵌入在WorldVLA中的动作模型也反过来增强了对视觉信息的理解,进一步提升世界模型在图像生成方面的准确性。这种双向增强机制使整个系统在理解和生成图像与动作方面更加鲁棒和全面。

此外,已有研究表明,动作分块(actionchunking)和并行解码技术对动作模型的性能有显著影响。然而,我们在实验中发现,在自回归模型中连续生成多个动作时会导致性能下降。主要原因在于,预训练的多模态语言模型主要接触的是图像和文本,而对动作的学习较少,因此在动作生成任务中泛化能力有限。而在自回归模型中,后续动作的生成依赖于前面的预测结果,一旦出现错误,便会随时间不断传播放大。为了解决这一问题,我们提出了一种动作注意力掩码策略(actionattentionmaskingstrategy),在生成当前动作时选择性地屏蔽掉之前的动作信息。这种方法有效缓解了错误累积的问题,在动作分块生成任务中带来了显著的性能提升。

在LIBERO基准测试中,我们的WorldVLA相比使用相同主干网络的传统动作模型,在抓取成功率上提升了4%。相较于传统的世界模型,WorldVLA在视频生成质量上表现更优,FVD(FréchetVideoDistance)指标降低了10%。这些结果充分说明,将世界模型与动作模型融合所带来的协同增益,验证了图像与动作统一理解与生成框架的优势。在动作分块生成任务中,传统自回归方式会导致抓取成功率下降10%到50%。但引入我们的注意力掩码策略后,性能下降得到了明显缓解,抓取成功率提升了4%到23%。

研究方法

VLA模型可以根据图像理解生成动作;世界模型可以根据当前图像和动作生成下一帧图像;WorldVLA将将两者融合,实现图像与动作的双向理解和生成,如下图所示。

WorldVLA使用独立的编码器分别处理图像、文本和动作,并让这些模态共享同一个词汇表,从而在单一的大语言模型架构下实现跨模态的统一建模。这种设计不仅提升了动作生成的准确性,也增强了图像预测的质量。WorldVLA使用ActionModel数据和WorldModel数据来训练模型。ActionModel是根据图片输入和文本指令输入来输出动作,数据格式如下:

WorldModel根据当前帧图片和动作来生成下一帧图片,数据格式如下:

在一次性输出多个action时,使用默认的自回归范式会使得效果变差。原因是动作模态并不在原本多模态大模型的预训练中,因此泛化能力较差,这样生成多个动作时就会有误差累积的问题。为了解决这个问题,WorldVLA提出了一种attentionmask策略,使得生成动作时只能看见前面的图片而不能看见前面的动作,从而解决动作累计误差问题,如下图所示。

实验结果

在LIBERObenchmark上的实验结果如下图所示,在没有预训练的情况下超越了需要预训练的全自回归模型OpenVLA。

下图为actionmodel的消融实验结果。对比row2和row1以及row5和row4可以看出,worldmodel的加入可以给actionmodel带来更好的结果。Row3可以看出,使用默认的attentionmask会导致某些任务的成功率下降,但是从row4看出,我们提出的attentionmask可以全面大幅提升任务的成功率。

ActionModel可视化(Text+Image->Action)

下图可以看出WorldVLA可以根据指令完成对应的动作。

WorldModel可视化(Action+Image->Image)

下图可以看出WorldVLA可以根据动作和图片来生成下一帧图片。

  据英国政府13日发表声明称:“今天的行动包括英国首次针对俄罗斯总统‘影子舰队’中的船只实施制裁,俄罗斯利用这些船只规避英国和七国集团(G7)的制裁,并继续不受限制地进行石油贸易。”这些新制裁还针对俄罗斯军方的弹药、机床、微电子和物流供应商,包括位于中国、以色列、吉尔吉斯斯坦和俄罗斯的实体。声明写道,英国首相苏纳克在意大利参加G7峰会时宣布了这些新的制裁措施,“这将削弱俄罗斯为其战争机器提供资金和装备的能力”。

责编:袁裕治编辑

伊朗火力全开

  经查,李鹏新丧失理想信念,背弃初心使命,培植个人势力,搞“七个有之”;无视中央八项规定精神,违规接受宴请和车辆司机服务安排;对组织不忠诚、不老实,在组织函询时不如实说明问题,违背组织原则,卖官鬻爵,严重污染地方政治生态;廉洁底线失守,长期违规收受礼品、礼金;腐化堕落;贪婪无度,政商勾连,大搞新型腐败,利用职务便利为他人在矿产开发、企业经营、干部选拔任用等方面谋利,并非法收受股权股份等巨额财物。

国产剧终于有了禁欲系古偶

  公器私用,将地质调查、矿产开发等权力作为敛财纳贿的工具,搞权钱交易,利用职务便利为他人在企业经营、项目承揽、矿权审批等方面谋利,并非法收受巨额财物;

伊朗浓缩铀材料还在

  “要完善科技创新体系,积极对接国家战略科技力量和资源,优化完善创新资源布局,努力攻克一批关键核心技术,着力打造西部地区创新高地。”

迪丽热巴东方美人

  新疆机场集团总经理吕辉斌表示,国泰航空开通乌鲁木齐至香港航线,标志着乌鲁木齐天山国际机场的航线网络又一次升级,满足了新疆及周边地区旅客日益增长的出行需求,不仅提升了乌鲁木齐机场的国际化水平,也将进一步增强新疆的区位优势和影响力,共同助力打造乌鲁木齐成为连接亚欧区域门户复合型国际航空枢纽目标。

鹅厂大剧片单

  “要完善科技创新体系,积极对接国家战略科技力量和资源,优化完善创新资源布局,努力攻克一批关键核心技术,着力打造西部地区创新高地。”

黄轩女友分享日常

  中国驻英国使馆发言人强调,在乌克兰问题上,中国的立场是劝和促谈,坚定不移,一以贯之。为此,中国和巴西最近联名发表了关于推动政治解决乌克兰危机的“六点共识”,强调遵守局势降温三原则,即战场不外溢、战事不升级、各方不拱火,同时呼吁各方坚持对话谈判、加大人道主义援助、反对使用核武器、反对攻击核电站、维护全球产业链供应链稳定等。/p>

吴邪私家笔记

  6月13日、14日,河南多地发布人工增雨公告。提醒:任何组织和个人若发现未爆炸或爆炸不完全弹头、弹药碎片或火箭弹残骸,切勿擅自移动、藏匿、拆解和损毁等,请立即报告当地政府或人工影响天气有关部门,或者立即拨打110向当地公安部门报警。/p>

酱园弄悬案王传君一人分饰角

  最近两起企业补税事件引起市场关注。一是湖北枝江酒业股份有限公司被要求补税8500万元,因这笔税款被追溯至1994年,使得税务“倒查30年”成为舆论焦点。二是宁波博汇化工科技股份有限公司3月份收到当地税务要求补税5亿元的通知,最近企业宣布停产。上述两起事件,引起了一些企业人士的担忧。这些担忧包括是否存在全国性查税,不少企业担忧如果倒查多年需要补税,这对于经营困难的当下无疑是“雪上加霜”。跟多位省级、市级税务人士交流得知,目前并没有全国性查税部署。一些地方根据当地税收大数据风险提示等对个别企业查税,是日常工作,也是税务部门正常履职。毕竟税务部门主要负责税收、社会保险费和有关非税收入的征收管理,发现偷逃税、少缴税行为,理应依法制止,否则就是渎职。(第一财经)