作者简介:由来自北京大学、香港中文大学、北京智源研究院、智平方的老师同学联合研究,作者包括博士生陈浩、刘家铭、顾晨阳、刘卓洋,通讯作者为北京大学仉尚航。北京大学HMI实验室长期致力于具身智能和多模态学习领域的研究,欢迎关注。
快执行与慢思考:
在机器人操控领域,实现高频响应与复杂推理的统一,一直是一个重大技术挑战。近期,北京大学与香港中文大学的研究团队联合发布了名为Fast-in-Slow(FiS-VLA)的全新双系统视觉-语言-动作模型。不同之前的快慢系统VLA方法需要初始化/引入一个全新的快速执行模块,该方法通过将快速执行模块嵌入预训练视觉-语言模型(VLM)中,实现快慢系统一体化的设计。同时,针对双系统设计了异构模态输入与异步运行频率的策略,使得FiS-VLA既能实现快速动作生成,也具备慢思考能力。该方法在多个仿真与真机平台上取得了优异表现。最令人瞩目的是,FiS-VLA-7B可以实现高达117.7Hz的控制频率,大幅领先于现有主流方案,展示了其广阔的实际应用潜力。
论文链接:
项目主页:
https://fast-in-slow.github.io/
代码链接:
https://github.com/CHEN-H01/Fast-in-Slow
PKUHMI实验室主页:
https://pku-hmi-lab.github.io/HMI-Web/index.html
研究背景与挑战:
机器人操作系统的目标是在复杂环境中,依据传感器输入和语言指令,生成精确有效的控制信号。虽然近年来大规模的视觉-语言模型(VLMs)因其强大的预训练能力被引入到机器人领域,但其庞大的模型参数和较慢的推理速度,限制了其在高频控制任务中的实用性。
为此,一些研究引入Kahneman的“双系统理论”:系统1代表快速、直觉式的决策系统,系统2代表缓慢但深度推理的系统。在这一理论的启发下,已有方法尝试构建双系统结构,即使用VLM作为系统2进行任务级理解,再使用额外的策略头(系统1)进行动作预测。但现有设计中两个系统相对独立,无法充分共享系统2的预训练知识,导致协同效率低下,系统1缺乏对系统2语义推理结果的充分利用。
Fast-in-slowVLA(如何在慢系统中分化出执行模块)
FiS-VLA提出一种创新结构,将VLM的末端几层Transformer模块直接重构为系统1执行模块,嵌入原有系统2内部,形成一个统一的高效推理与控制模型。系统2以低频率处理2D图像和语言指令,输出指导特征;系统1以高频率响应实时感知输入(状态、图像和点云),实现高效动作生成。
此外,FiS-VLA采用双系统感知协同训练策略,一方面利用扩散建模增强系统1的动作生成能力,另一方面保留系统2的高维语义推理能力,确保整体推理执行的互补性。模型在超86万条轨迹的大规模机器人数据集上预训练,并在多个现实任务中微调优化,显著提升了任务完成率和控制频率。
1.架构设计:FiS-VLA基于PrismaticVLM架构,主要包括以下模块:视觉编码器(结合SigLIP与DINOv2两种视觉编码器)、轻量级3Dtokenizer(处理点云并共享视觉编码器提取空间特征)、大语言模型(使用LLaMA2-7B,并将其最后n层Transformer模块重用于系统1),以及若干MLP模块(用于模态融合和扩散建模)。系统1直接嵌入系统2中的高维表示空间,使其能继承预训练知识并实现高频执行,整个系统构成“快中有慢、慢中有快”的协同结构。
2.双系统协作:FiS-VLA的结构由两个组成部分构成:一个慢速的系统2和一个快速的系统1,这一设计灵感来源于Kahneman提出的双系统理论。在FiS-VLA中,系统2会处理与任务相关的视觉观测(如图像)和语言指令,并将其转化为高维特征,这些特征来自大语言模型(LLM)的中间层。借鉴“动作块化”的方法,FiS-VLA认识到在时间步t的输入可以为未来若干步的动作生成提供指导,因此FiS-VLA将系统2的中间层输出作为一个潜在的条件信号,为接下来的H步系统1的动作生成提供约束。相较而言,系统1专注于实时动作生成,它在每一个时间步上运行,接收当前的感知输入并输出动作,同时也利用周期性更新的来自系统2的高维语义理解结果。这样的行为模式类似于人类的直觉反应,使得系统1成为一个高频率的动作生成模块。为了使两个系统协同工作,FiS-VLA研究了它们之间的运行频率比例,并在消融实验中测试了不同的动作预测视野,实质上是在探索系统2每运行一次,系统1应连续运行多少步。在训练阶段,FiS-VLA采用异步采样的方式控制系统2的运行频率,使得系统1能够保持动作生成过程的时间一致性。
另外,FiS-VLA采用异构模态输入设计。由于系统1与系统2在职责上存在根本差异,FiS-VLA为其设计了异构的输入模态。系统2主要承担任务理解与语义推理的工作,作为一个在互联网上以图文数据大规模预训练而来的模型,它最适合接收语言指令与2D图像,以充分激发其语义建模能力。系统1则用于实时生成机器人动作,因此必须接收全面、低延迟的感知信息输入,包括当前时刻的2D图像、机器人的自身状态(如关节、位置等),以及通过相机参数从深度图还原出的3D点云信息。特别是3D信息对于识别空间关系与实现精细操作至关重要。最终,系统1会将这些输入模态与系统2输出的高维特征共同融合,作为条件输入进行动作生成。
3.FiS-VLA双系统协同训练:系统1以扩散建模为核心,注入带噪动作作为训练变量,实现连续性动作生成;系统2则采用自回归预测保留推理能力,这两个训练目标联合优化FiS-VLA。训练采用跨平台大规模轨迹数据(约860K条轨迹),并在微调阶段引入子任务语言指令增强任务适应性。
精度、速度、泛化!
1.仿真测试:FiS-VLA在RLBench仿真任务中平均成功率为69%,显著优于CogACT(61%)与π0(55%),在10项任务中8项居首。在控制频率上,其在动作块大小为1时达到21.9Hz,是CogACT的2倍以上。
2.真机测试:在真实机器人平台(Agilex与AlphaBot)中,FiS-VLA在8项任务中平均成功率分别为68%与74%,远超π0基线。在高精度操控任务如“倒水”、“擦黑板”、“折毛巾”等场景下展现显著优势。
3.泛化能力:在泛化测试中,面对未见物体、复杂背景与光照变化,FiS-VLA准确率下降幅度远小于π0,验证其双系统架构对视觉扰动的鲁棒性。
4.消融实验:消融实验表明,并非共享Transformer层数越多,系统1性能越强,在共享Transformer层数为2的时候,FiS-VLA实现最佳性能;系统1接收机器人状态、图像与点云三种输入模态效果最佳;系统1和系统2协作的最佳频率比为1:4;FiS-VLA在不同actionchunk值下性能稳定,而控制频率呈比例提升。特别当单步预测8个动作时,理论控制频率高达117.7Hz;同时最后作者还研究了FiS-VLA的一系列变体(模型输入的变体)。
5.真机实验可视化
总结与展望:
FiS-VLA通过在统一VLM中嵌入执行模块,创新性地融合推理与控制,实现了高频、高精度、强泛化的机器人操控能力。作者讨论到,未来若引入动态调整共享结构与协同频率策略,将进一步提升其在实际任务中的自适应性与鲁棒性。
西安咸阳机场T5,与北京大兴机场、成都天府机场航站楼面积相当。三座机场中规模最小的兰州中川机场T3,面积也相当于上海虹桥机场两座航站楼之和。