具身之脑:通往高阶智能的未来之路
发布时间:2025-12-11   信息来源:东方富海

导读:

东方富海博士后工作站秉承研究发现价值、研究引领投资的理念,对投资实务进行前瞻性研究。“富海洞察”专栏致力于发布工作站系列研究报告,供读者交流探讨。本文是具身智能算法模型相关研究,为工作站出品的第28篇报告。在人工智能向高阶形态演进的前沿,具身智能(Embodied Intelligence)正驱动根本性突破,其核心挑战在于构建能感知物理世界、完成复杂决策、精准执行任务并持续进化的智能体。当前技术演进的核心范式集中于“决策-执行”双系统架构:一个系统进行环境理解与高层规划,另一个系统实现实时运动控制与动作优化。围绕这一架构,行业形成两大技术路径:端到端(End-to-End)模型追求感知-决策-执行的一体化映射,以泛化性突破见长;分层决策(Hierarchical Decision-Making)架构则通过模块化解耦提升可解释性与工程可控性。本文系统剖析双系统架构的理论基础、技术实现(涵盖端到端与分层主流模型)、跨领域应用场景及核心挑战,为投资者和从业者提供关键趋势洞察。

 

1从“离身”到“具身”

在2018年以前,“智能”大多栖身于GPU服务器,以图像识别、机器翻译或围棋对弈的形态出现。彼时的算法只需处理高维统计分布,而不必真正“移动”一克质量。真正让研究界深刻意识到“身体”的不可或缺,源于两大现实冲击:一是2019年OpenAI用机械手解魔方的实验暴露了单纯强化学习在真实世界的脆弱性;二是2020年Covid-19导致实验室停摆,仿真到真实的鸿沟被急剧放大。于是,“具身”不再只是一个哲学隐喻,而成为数据效率和系统鲁棒性的硬约束。

具身智能算法必须同时回答三个问题:如何把高维感官流映射为连续控制信号,如何在部分可观测环境中进行长期决策,以及如何在一次部署后持续自我改进。围绕这三个问题,社区自发形成了两种组织范式:一端是端到端派,主张用大规模多模态预训练一次性解决感知、预测、决策和控制的耦合问题;另一端是分层决策派,强调把任务拆成可解释的层级模块,通过显式表征来缓解数据饥渴与误差累积。两条路线并非泾渭分明,却在交替竞争中塑造了今天模型家族的面貌。

 

2端到端架构

一般来说,将运动链路中的感知、决策、控制三大核心环节集成在同一模型完成的,称为端到端架构。这种模型架构追求极致的大一统整合能力,即依靠单一、复杂、高泛化的模型处理具身本体接受的所有指令,以及可能遇到的任何物理交互。端到端架构旨在构建从感知输入到控制指令的直接映射,打通从传感器到机械电机的一体化连接。

近年来,端到端架构最具标志性的起点是2022年12月Google团队发布的RT-1。如图1所示,它是首个完全基于transformer架构的机器人控制模型。该项工作把语言指令和历史图像分别独立编码,再进行特征融合,经过自注意力机制解码后直接输出动作token。这里的动作token实际是一个离散向量,共11个维度,每个维度再分为256个区间,分别对应不同的操作类型及具体的操作目标。为了训练RT-1,Google团队耗时17个月,收集了13台机器人的13万条演示轨迹,覆盖700多个任务场景。在模型表现上,RT-1的训练指令成功率达到97%,零样本新任务的成功率也有76%。可以说,RT-1通过统一Transformer架构和大规模多任务训练,显著提升了机器人控制的泛化性与鲁棒性,是具身智能领域的重要突破。

▲图1 RT-1模型架构示意图
(资料来源:Brohan, Anthony, et al. 《Rt-1: Robotics transformer for real-world control at scale》)

随后两年,端到端模型继续突飞猛进。2023年Google DeepMind发布RT-2,首次定义VLA模型(vision-language-action)。如图2所示,RT-2引入PaLI-X和PaLM-E视觉语言模型(vision-language-model),将机器人动作离散token化后与VLM输出对齐,再将二者联合训练,协同微调,在公开任务描述上刷新了SOTA。与RT-1采用100%真机轨迹数据进行纯模仿学习不同,RT-2按1:1掺入互联网数据进行混合共调优,显著提升了模型的泛化能力。此外,研究人员还成功在RT-2观察到了“涌现”能力,即得益于互联网知识,模型获得了独立于机器人数据的强大推理能力。该项工作中使用的基础模型PaLI-X和PaLM-E分别达到了550亿和120亿的参数量,是具身模型进行大规模预训练的重要探索。

▲图2 RT-2模型架构示意图 

(资料来源:Zitkovich, Brianna, et al.《Rt-2: Vision-language-action models transfer web knowledge to robotic control." Conference on Robot Learning》)

端到端模型的优势显而易见:架构简洁,梯度端到端流动,更容易从GPU算力的指数级增长中获益;同时它也暴露出三大痛点。首先是数据规模:RT-2的训练集包含13万条机器人轨迹,采集成本上千万美元,耗时17个月;其次是可解释性:当机器人把杯子放进洗衣机而非洗碗机时,工程师很难定位错误发生在“视觉定位”还是“动作解码”;最后是安全性与可控性:在真实产线部署时,模型黑盒中无时无刻不潜藏着让“轻拿轻放”指令变成“重拳出击”的风险。

 

3分层决策架构

面对端到端架构的“决策黑箱”与“数据黑洞”,分层决策试图回到经典机器人学“感知-规划-控制”的框架。2024年3月,Open AI联合Figure AI公司推出Figure 01机器人,号称全球首款商业化的智能人形机器人产品。Figure 01在公司发布的演示视频中展现了超强的交互能力和复杂任务处理能力,迅速引爆全网。Figure 01直接接入Open AI提供的多模态大模型(疑似GPT-4V),处理由摄像头捕获的图像和内置麦克风捕获的语音转换成的文本数据。该模型可以完成和用户在语言层面的实时互动,同时负责行为选择,将特定的神经网络参数加载到GPU上,并执行对应策略。这些策略会指导机器人本体完成具体的操作任务,借助视觉运动transformer,以200Hz的频率生成基于像素的24个自由度(手腕位置和手指角度)的低级动作指令。底层由全身控制器(WBC)以更高的1000Hz频率输出各个关节的扭矩指令,保障机器人动作的安全性和平衡性。

如图3所示,Figure 01展示了一种标准的分层架构,即感知交互、任务规划、运动控制三个环节清晰可分,但彼此之间紧密配合,形成严密闭环。分层架构的最大魅力在于模块化带来的可解释性和可迁移性:当机器人打不开门时,工程师可以逐层检查是符号目标错误、路径不可行还是控制增益过低;同时,上层语义解析模型和中间策略模型可以分别独立训练,具有一定的标准化特性,可以被不同机器人共享,形成跨平台的“技能市集”。例如,现在比较成熟的各类多模态大模型,甚至是大语言模型,理论上都可以直接用来作为分层架构的上层模型,这在一定程度上也降低了分层架构的开发门槛,更有利于商业落地。然而,分层架构也带来了新的难题:模块化的设计一定程度上造成了模型割裂,很难对模型整体进行全局优化;中间层的策略模型往往会把动作任务抽象成通用的技能模块后API化,以便于上层模型的调用,但这大大限制了模型对于若干无定义情景的泛化能力;此外,解耦式的分层架构天然存在模型间通信、对齐,以及误差传递的问题。 

▲图3 Figure 01机器人工作原理示意图
 

(资料来源:X平台Corey Lynch)
 

4融合进化的新范式
 

过去一段时间,端到端架构和分层架构都在各自的技术轨迹上取得了长足的发展。近年来,各界逐渐认识到端到端和分层这两条技术路线或许并非零和。2025年3月,Nvidia正式发布GR00T N1[3],这是全球首款应用于通用人形机器人的开源基础模型。如图4所示,GROOT N1采用双系统架构:系统2基于Eagle-2 VLM,以10Hz处理视觉和语言输入,生成环境语义理解结果;系统1采用扩散Transformer(DiT),以120Hz生成实时动作。两个系统通过交叉注意力机制紧密耦合,实现端到端联合优化。在最关键的动作生成部分,GR00T N1采用扩散模型结合流匹配(Flow-Matching)损失的策略,学习从高斯噪声映射到正确动作序列的概率分布的向量场。这里所说的动作序列是指未来若干时间步的动作指令,而不只是下一瞬间的动作,即模型具备一定程度上“预见未来”的能力。这在一定程度上缓解了机器人“短视”的问题,更重要的是极大地增强了机器人动作执行的连续性和平滑性。此外,由于DiT学习的是去噪向量场,可以理解为一种无关本体形态的抽象意图。即无论是一个人形机器人还是单独的机械臂,当它在执行同一个具体任务时,必然遵循相同的行为逻辑(如表现出相同轨迹)。另外,GR00T N1训练时有意加入了大量混合形态数据,这使其具备了原生的跨本体泛化能力。

▲图4 GR00T N1模型架构示意图

(资料来源:Bjorck, Johan, et al. 《Gr00t n1: An open foundation model for generalist humanoid robots))

2025年6月,Nvidia预发布了GROOT N1.5 [4]。这次发布的模型整体上沿用了N1模型采用的VLM+DiT组成的双系统架构,但在训练策略上有了新的调整。首先,相较于N1模型对VLM只在预训练阶段冻结VLM,微调阶段对视觉编码器部分解冻,参与DiT部分的梯度更新;N1.5对VLM进行全阶段冻结,尽管VLM仍然负责提取高维语义特征,由交叉注意力机制与DiT交互,但禁用参数更新,二者梯度完全隔离。其次,N1模型的训练机制是流匹配驱动的动作序列生成,以最小化预测动作与真实动作的逐帧误差为目标,要求精准复现关节角度、末端位姿等物理细节,本质是一种模仿学习;N1.5模型中引入FLARE(Future Latent Representation Alignment)技术,不再生成未来帧细节,而是尝试直接与“目标未来状态”对齐。因此,训练目标变成目标状态的潜在空间对齐,监督信号也由真实动作轨迹变为目标状态编码。这是一种纯粹结果导向的训练范式,即直接锚定一个抽象化的目标状态,而不受动作细节的束缚——不管黑猫白猫,抓到老鼠就是好猫。

仔细观察GROOT N1.5模型的技术细节,可以发现一些很有意思的现象。N1.5的双系统架构中对VLM进行了显式限制,使得VLM与动作模块在训练上进行隔离,二者只做耦合交互但彼此独立,这其实与“分层架构”的模块化思想一脉相承。值得注意的是,N1.5引入的FLARE训练机制,摒弃中间过程只看最终结果的技术构想,又和“端到端架构”的一体化思想遥相呼应。

 

5国内外主流具身大模型

当前全球具身智能大模型领域如火如荼,整体呈现双轨并行发展态势。北美以谷歌DeepMind RT、Physical Intelligence π、Figure AI Helix和英伟达GR00T系列为代表,聚焦视觉-语言-动作(VLA)架构创新。这些公司大都关注模型本身的技术研究,除Figure AI外,均没有推出实体机器人产品作为自有模型产品的载体。中国则以星动纪元ERA-42、银河通用GraspVLA、智元机器人GO-1和灵初智能Psi-R1为代表,推动技术落地与场景适配。这些公司在开展模型研究的同时,均已推出了面向市场的本体类产品,商业化决心凸显。

如表1所示,北美技术路线呈现出基础模型与工程实践深度耦合的特征。谷歌的RT-2模型开创性地通过动作Token化机制将机器人控制纳入自然语言生成框架,其核心在于使用256个专用动作标记建立语义-动作映射,例如在PaLI-X架构中直接将动作区间映射为整数标记。该模型通过混合网络数据(VQA、图像描述)与机器人轨迹数据联合微调,从泛化性能和涌现能力两方面显著拓展了能力边界。紧随其后的π0模型[5],首次采用双模块解耦架构:30亿参数PaliGemma VLM负责语义特征提取,3亿参数动作专家模块通过条件流匹配技术以50Hz生成连续动作。其创新性体现在预训练阶段采用跨本体数据集(7种机器人/68项任务),后训练阶段仅需少量真机数据即可实现叠衣服等高阶操作。Figure AI推出的Helix模型则直接采用专有GPU独立部署双系统:80M参数的S1系统以200Hz高频输出上半身控制指令,7B参数的S2系统以7-9Hz传递潜在向量指导决策。这种快慢系统独立部署GPU的设计,使两台搭载Helix的机器人在零样本条件下完成协同杂货存放,验证了跨本体协作的可能性。英伟达最新预披露的GR00T N1.5采用双系统耦合范式:Eagle-2VLM构成的系统2(10Hz)处理环境语义,扩散Transformer构建的系统1(120Hz)通过交叉注意力机制生成动作。其引入目标状态对齐概念,配合DreamGen快速生成的大量神经轨迹,解决了上一代N1模型在泛化能力和数据依赖上的瓶颈。

▲表1 北美主要具身智能大模型一览

如表2所示,中国创新力量更侧重工业场景适配与技术降本。星动纪元ERA-42的原型HiRT[6],通过潜在变量桥接技术连接7B参数InstructBLIP感知规划系统与底层动作解码网络。预训练阶段直接利用原始视频规避信息损耗,后训练引入强化学习优化策略。目前,该模型驱动的五指灵巧手可操作百余种工具,实现螺钉钻、取液枪等工业场景精准控制。银河通用GraspVLA[7]的创新在于合成数据驱动范式:基于SynGrasp-1B十亿级仿真数据集预训练VLM-动作专家架构,仅需少量真机微调即可实现七大泛化能力。其关键突破在于通过2D边界框标注与动作块生成机制,使模型在零样本条件下应对动态环境变化。智元机器人GO-1采用ViLLA三阶架构[8],可视作由VLM搭配MoE组成:InternVL-2B多模态模型完成环境感知,隐式规划器生成Latent Action Tokens规划链,动作专家最终解码为精细指令。该模型通过异构视频数据迁移动作知识,在工业场景实现了"感知→规划→执行"闭环。灵初智能Psi-R1[9]则通过强化学习框架突破长程任务瓶颈:因果VLM架构的慢脑S2系统完成场景抽象,DiT模块的快脑S1系统实现200Hz高精度控制。其Action Tokenizer机制可支持30分钟以上CoAT思维链,在国标麻将博弈中展现接近人类的实时策略能力。

▲表2 中国主要具身智能大模型一览

 

6结语
 

在科幻作家姜峯楠的中篇小说《软件体的生命周期》里,数码体的终极诉求直指“自主意识”和“身体自由”。或许此时,位于上海张江的数据采集工厂里,一台搭载最新具身大模型的人形机器人仍在独自练习:它把纸箱搬起又放下,模拟白天未曾遇到的重心偏移;它在黑暗中“想象”货架突然晃动,提前规划闪避路径。没有工程师为它编写新的脚本,也没有外部奖励函数,驱动这一切的只是模型在无监督梦境中生成的未来场景。此刻,具身大模型不再仅是一段可下载的权重,而是拥有了“身体自由”的第一次萌芽。

对于投资人而言,具身智能不是下一个风口,而是下一代基础设施;对于人类而言,这可能是继智能手机之后,最深刻的人机交互革命。在黎明真正到来之前,保持技术敏感与伦理审慎,将是整个社会共同的长期功课。