动作模型(融合) :全自回归模型WorldVLA;来了

2025-07-27 10:10:10      来源:巴州新闻网

岑俊,阿里巴巴达摩院具身智能大模型算法研究员,博士毕业于香港科技大学。研究方向主要是:具身智能VLA模型,世界模型。

阿里巴巴达摩院提出了WorldVLA,首次将世界模型(WorldModel)和动作模型(ActionModel/VLAModel)融合到了一个模型中。WorldVLA是一个统一了文本、图片、动作理解和生成的全自回归模型。

论文标题:WorldVLA:TowardsAutoregressiveActionWorldModel

代码地址:https://github.com/alibaba-damo-academy/WorldVLA

研究简介

近年来,视觉-语言-动作(Vision-Language-Action,VLA)模型的发展成为机器人动作建模研究的重要方向。这类模型通常是在大规模预训练的多模态大语言模型(MultimodalLargeLanguageModels,MLLMs)基础上,添加一个动作输出头或专门的动作模块,以实现对动作的生成。MLLMs在感知和决策方面表现出色,使得VLA模型在多种机器人任务中展现出良好的泛化能力。然而,这些模型存在一个显著的局限性:它们往往缺乏对动作本身的深入理解。在现有方法中,动作只是作为输出结果处理,并未被当作输入进行分析和建模。相比之下,世界模型(WorldModels)能够基于当前观测与动作预测未来的视觉状态,从而同时理解视觉信息和行为动态。尽管具备这一优势,世界模型却无法直接生成动作输出,这导致其在需要显式动作规划的应用场景中存在功能上的空白。

为了解决VLA模型与世界模型各自的局限,我们提出WorldVLA——一种基于自回归机制的统一动作与图像理解与生成模型。如下图所示,WorldVLA使用三个独立的编码器分别处理图像、文本和动作数据。不同模态的token被设计为共享相同的词表,从而使得在同一个语言模型架构下可以统一完成跨模态的理解与生成任务。

其中,世界模型部分通过输入动作来生成对应的视觉表示,从而学习环境中的物理动态规律。这种对动作的解读与物理世界的建模对于动作模型的决策至关重要。与此同时,嵌入在WorldVLA中的动作模型也反过来增强了对视觉信息的理解,进一步提升世界模型在图像生成方面的准确性。这种双向增强机制使整个系统在理解和生成图像与动作方面更加鲁棒和全面。

此外,已有研究表明,动作分块(actionchunking)和并行解码技术对动作模型的性能有显著影响。然而,我们在实验中发现,在自回归模型中连续生成多个动作时会导致性能下降。主要原因在于,预训练的多模态语言模型主要接触的是图像和文本,而对动作的学习较少,因此在动作生成任务中泛化能力有限。而在自回归模型中,后续动作的生成依赖于前面的预测结果,一旦出现错误,便会随时间不断传播放大。为了解决这一问题,我们提出了一种动作注意力掩码策略(actionattentionmaskingstrategy),在生成当前动作时选择性地屏蔽掉之前的动作信息。这种方法有效缓解了错误累积的问题,在动作分块生成任务中带来了显著的性能提升。

在LIBERO基准测试中,我们的WorldVLA相比使用相同主干网络的传统动作模型,在抓取成功率上提升了4%。相较于传统的世界模型,WorldVLA在视频生成质量上表现更优,FVD(FréchetVideoDistance)指标降低了10%。这些结果充分说明,将世界模型与动作模型融合所带来的协同增益,验证了图像与动作统一理解与生成框架的优势。在动作分块生成任务中,传统自回归方式会导致抓取成功率下降10%到50%。但引入我们的注意力掩码策略后,性能下降得到了明显缓解,抓取成功率提升了4%到23%。

研究方法

VLA模型可以根据图像理解生成动作;世界模型可以根据当前图像和动作生成下一帧图像;WorldVLA将将两者融合,实现图像与动作的双向理解和生成,如下图所示。

WorldVLA使用独立的编码器分别处理图像、文本和动作,并让这些模态共享同一个词汇表,从而在单一的大语言模型架构下实现跨模态的统一建模。这种设计不仅提升了动作生成的准确性,也增强了图像预测的质量。WorldVLA使用ActionModel数据和WorldModel数据来训练模型。ActionModel是根据图片输入和文本指令输入来输出动作,数据格式如下:

WorldModel根据当前帧图片和动作来生成下一帧图片,数据格式如下:

在一次性输出多个action时,使用默认的自回归范式会使得效果变差。原因是动作模态并不在原本多模态大模型的预训练中,因此泛化能力较差,这样生成多个动作时就会有误差累积的问题。为了解决这个问题,WorldVLA提出了一种attentionmask策略,使得生成动作时只能看见前面的图片而不能看见前面的动作,从而解决动作累计误差问题,如下图所示。

实验结果

在LIBERObenchmark上的实验结果如下图所示,在没有预训练的情况下超越了需要预训练的全自回归模型OpenVLA。

下图为actionmodel的消融实验结果。对比row2和row1以及row5和row4可以看出,worldmodel的加入可以给actionmodel带来更好的结果。Row3可以看出,使用默认的attentionmask会导致某些任务的成功率下降,但是从row4看出,我们提出的attentionmask可以全面大幅提升任务的成功率。

ActionModel可视化(Text+Image->Action)

下图可以看出WorldVLA可以根据指令完成对应的动作。

WorldModel可视化(Action+Image->Image)

下图可以看出WorldVLA可以根据动作和图片来生成下一帧图片。

  “积极管理你的核心业务,这真是一剂难吃的药。我们有很多艰苦的工作要做。”墨菲表示,虽然底特律汽车制造商需要重新思考在中国的经营方式,但美国电动汽车领导者特斯拉的情况略有不同,与传统的底特律汽车制造商相比,特斯拉在电动汽车零部件方面拥有大约1.7万美元的成本优势,这有助于该公司在中国市场的发展,使其有“更大的发展空间”。(汪品植)

责编:宗格编辑

白象携手姚冠宇实力宠粉提新车

  另外,近些年受经济下行、大规模减税降费、楼市土地市场低迷等影响,地方财政收入受到一定冲击,而刚性支出有增无减。在财政收支矛盾不断加大的背景下,地方政府也有更大的动力加强征管,查漏补缺,依法依规征收该征收的税费。当然,税务部门也要同时落实落细减税降费政策,坚守不收“过头税费”红线。

周杰伦强直性脊柱炎

  在会见国泰集团行政总裁林绍波时,自治区党委书记马兴瑞表示,希望国泰集团发挥优势,和新疆共同运行好直航航线,不断提升吸引力和可持续性。着眼更大范围、更宽领域拓展双方互利合作,助力新疆经济社会加快发展,打造亚欧黄金通道和向西开放桥头堡。用好新疆区位优势,积极开拓中亚等区域市场,实现更大发展。

广西女数学家解决世纪难题

  省应急管理、农业农村、水利等部门成立由25个厅级干部带队的工作组和27个专家组,分片包市深入一线、深入基层,对各地水源调度抗旱播种、抗旱保苗等工作进行督促指导,及时协调解决遇到的实际困难和问题。各地也积极采取行动,组织人员力量全面开展抗旱。

伊朗用美军基地地图回应美空袭威胁

  博汇股份被要求补税5亿元,则是因为公司生产的重芳烃衍生品被税务部门认定需要按照重芳烃缴纳消费税,博汇股份对此不认同,最终是否补税、如何补税等仍有待税企双方良性沟通。

王安宇光头照

  “当年李娜一度手握13个国内外知名品牌代言,而郑钦文在奥运夺冠之前已有10个代言品牌。”纪宁认为,网球目前在中国的热度已今非昔比,李娜时代已奠定的中国网球经济的热度,在郑钦文夺冠后会被逐渐引爆。纪宁还表示,网球作为全球顶级的职业体育和商业体育项目,正逐步释放巨大的产业经济空间。

王奥芊带哭音扑赵蕊蕊怀里

  世界经济论坛官网17日刊文称,中国已成为全球最大的电动汽车市场,中国车企生产的电动汽车占全球电动汽车总产量的一半以上。而在这一市场上,墨菲和其他分析师认为,美国车企当下很难抵挡中国自主品牌的实力。墨菲说,消费者现在对中国自主品牌的“忠诚度”很强,尤其是在美国对中国电动汽车征收超过100%的关税后,这种“忠诚度”可能会变得更加强烈。/p>

神仙都运不来的荔枝让我来

  中国煤矿文工团成立于1947年东北解放区,是国家级艺术院团中历史最悠久的单位之一。2005年,加挂了“中国安全生产艺术团”的牌子。2018年9月,转隶到文化和旅游部。/p>

买法拉利年提不了车退不了款

  2023年7月,中共中央总书记、国家主席、中央军委主席习近平在四川考察时指出,四川要发挥高校和科研机构众多、创新人才集聚的优势和产业体系较为完善、产业基础雄厚的优势,在科技创新和科技成果转化上同时发力。