2025年具身智能:底座模型的“寒武纪”与物理世界的奇点临近

2025年具身智能:底座模型的“寒武纪”与物理世界的奇点临近

1. 核心投资逻辑与执行摘要

站在 2026 年初的回望视角,2025 年无疑是全球机器人产业从“概念验证(PoC)”迈向“规模化前夜”的历史性转折点。若以生物进化史为喻,2025 年之于具身智能(Embodied AI),正如寒武纪之于地球生命——基础的“底座模型”架构在此刻爆发式涌现,物理世界的智能体第一次拥有了可泛化的“大脑”与“小脑”。

本报告基于 VestLab 投研团队对全球(尤其是中美两地)机器人产业链的深度调研,结合 2025 年全年的出货数据、技术迭代路径及 2026 年的政策与技术展望,为投资人呈现一份详尽的产业图谱与策略指引。

1.1 核心发现:范式转移与中国力量的崛起

第一,具身智能的“底座模型”架构已初步收敛,但路线之争依然激烈。 2025 年,行业从单点技术的拼凑走向了体系化的“底座模型”竞争。以 NVIDIA Gr00t 为代表的“双系统架构(System 1 + System 2)”成为行业标准,解决了大模型推理延迟与机器人实时控制之间的矛盾 。与此同时,Tesla Optimus 坚持的“端到端(Pixels-to-Torque)”神经网络路线虽然在量产进度上不及预期,但其数据闭环的潜力依然不可小觑 。中国厂商如宇树科技(Unitree)和智元机器人(Agibot)则在被动适应算力限制的过程中,探索出了“世界模型(World Model)+ 动作头”的独特路径,展现出极强的工程化落地能力 。

第二,中国供应链在物理世界的统治力正在复刻电动汽车的辉煌。 根据 Omdia 及 VestLab 的独家数据,2025 年全球人形机器人(含广义轮式具身智能体)出货量约为 13,000 台,其中中国厂商占据了惊人的 71% 份额 。智元机器人以超过 5,100 台的出货量(市占率 39%)位居全球第一,宇树科技紧随其后 。这种规模优势并非来自单纯的低价,而是得益于长三角与珠三角在核心零部件(如空心杯电机、谐波减速器、灵巧手触觉传感器)上的全产业链突破。

第三,触觉感知与边缘计算将是 2026 年的主要阿尔法(Alpha)来源。 随着视觉大模型(VLM)的成熟,机器人的“视觉”已不再是瓶颈,真正的痛点转移到了“触觉”与“端侧算力”。2026 年将是触觉传感器(如电子皮肤)和边缘 AI 芯片(如高通、地平线)的爆发之年。美国针对 AI 芯片云端租赁漏洞的封堵(HR 2683 法案)将倒逼中国机器人产业加速向国产边缘算力迁移 。

1.2 2026 年核心展望

我们预测 2026 年将是具身智能的“合规元年”与“分化之年”。

  • 技术层面: 从被动的遥操作示教向主动的“智能体 AI(Agentic AI)”演进,在线持续学习(Online Post-training)将成为解决长尾场景的关键 。
  • 政策层面: ISO 2026 安全标准的出台将清洗掉一批无法通过安全认证的低端集成商,行业集中度将显著提升 。
  • 商业层面: 轮式人形机器人(Wheeled Humanoid)将作为务实的过渡形态,在 2026 年率先实现数万台级的商业落地,而双足形态仍需在数据飞轮中打磨 。

2. 2025 年机器人“底座模型”深度解析:大脑与小脑的战争

具身智能的核心在于“底座模型”(Foundation Model)。不同于主要处理文本的大语言模型(LLM),具身底座模型需要同时处理视觉、语言、触觉以及极其复杂的物理运动控制。2025 年,业界在这一领域探索出了三种截然不同但又殊途同归的技术流派。

2.1 流派一:NVIDIA Gr00t —— 模块化的“Wintel”野心

NVIDIA 在 2025 年彻底改变了机器人开发的生态位,试图成为机器人时代的微软。其发布的 Project Gr00t 及其迭代版本(N1, N1.5, N1.6)确立了目前最为主流的“双系统仿生架构” 。

2.1.1 架构详解:快思考与慢思考的工程化解耦

NVIDIA 的设计灵感源自丹尼尔·卡尼曼的认知心理学理论,将机器人的控制系统划分为两个层级:

  • System 2(慢思考系统):基于 VLM 的推理大脑

    • 核心模型: 基于 NVIDIA Cosmos-Reason-2B 或 Eagle 模型。
    • 功能定位: 负责“理解世界”和“任务编排”。它接收人类的自然语言指令(如“把那瓶过期的牛奶扔掉”)和视觉输入,进行语义理解和长程规划(Long-horizon planning)。由于 VLM 的推理速度通常较慢(1-5Hz),它不直接参与电机的实时控制,而是输出高层的动作序列或子任务目标 。
    • 2025 年的突破: 在 Gr00t N1.6 版本中,NVIDIA 引入了“原生分辨率”支持,使得 VLM 不再需要将图像压缩成 token,从而能看清螺丝孔、纹理等微小细节,大幅提升了精细操作的成功率 。
  • System 1(快思考系统):基于 DiT 的运动小脑

    • 核心模型: 扩散 Transformer(Diffusion Transformer, DiT)或流匹配策略(Flow Matching Policy)。
    • 功能定位: 负责“控制身体”。它接收 System 2 下发的子任务目标,结合本体的 proprioception(本体感觉,如关节角度、速度),以极高的频率(50Hz-100Hz)输出关节力矩或位置指令。
    • 技术优势: 相比传统的强化学习(RL),基于 DiT 的策略能够生成更加拟人、平滑且具备多模态分布的动作轨迹,有效解决了机器人动作僵硬的问题 。

2.1.2 生态与商业模式

NVIDIA 的策略是“卖铲子”。通过提供 Isaac Lab 仿真平台、Cosmos 世界模型(用于生成合成数据)以及 Jetson Thor 等边缘计算芯片,NVIDIA 将底座模型能力打包开放给 1X、Agility Robotics、傅利叶智能等硬件厂商。这种策略极大地降低了具身智能的门槛,使得 2025 年涌现出大量具备一定智能水平的机器人初创公司 。

2.2 流派二:Tesla Optimus —— 极致的“端到端”神经网络与 NVIDIA 的开放生态截然相反,Tesla 选择了一条全栈自研且极度封闭的道路。在 2025 年,Tesla 将其在自动驾驶(FSD)领域积累的 “端到端(End-to-End)” 架构完全迁移至 Optimus 人形机器人 。

2.2.1 Pixels-to-Torque:神经网络的黑盒魔法

Tesla 的技术哲学是“第一性原理”的极致体现。他们认为,人为设计的中间层(如状态机、运动学解算器)都是对信息的损耗。因此,Optimus 的神经网络直接以摄像头的原始视频流(Pixels)为输入,经过巨大的 Transformer 网络处理,直接输出关节的扭矩(Torque)控制信号 。

  • 输入端: 不仅包含视觉,还融合了触觉传感器和本体传感器的 Token。
  • 训练端: 高度依赖 模仿学习(Imitation Learning)。Tesla 利用佩戴动捕设备的操作员(Teleoperation)采集了数百万小时的高质量人类操作数据,通过神经网络“克隆”人类的行为模式 。

2.2.2 视频生成作为世界模型

Tesla 坚信“视频即世界”。他们认为,如果一个模型能够极其精准地预测下一帧视频的内容(包括物体的移动、碰撞、形变),那么这个模型就隐式地学会了物理定律。

  • 实践: Tesla 的世界模型通过学习海量的驾驶和机器人操作视频,构建了一个通用的物理模拟器。这使得 Optimus 能够在没有任何显式编程的情况下,通过“观察”视频来学习如何折叠衣物或分拣电池 。
  • 局限性: 尽管上限极高,但端到端模型对数据的依赖呈指数级增长。2025 年 Optimus 量产目标的推迟(从数千台降至数百台),部分原因正是因为在处理长尾场景(Corner Cases)时,数据采集和训练的效率遇到了瓶颈,且模型的“不可解释性”使得调试变得异常困难 。

2.3 流派三:中国厂商的“全栈突破”与“世界模型”创新

在面临算力封锁和技术封锁的双重压力下,中国厂商(以宇树、智元为代表)在 2025 年展现出了惊人的技术韧性,走出了一条独特的“世界模型 + 动作头”的技术路径。

2.3.1 宇树 UnifoLM:开源的具身智能灯塔

宇树科技(Unitree)不仅是硬件制造的王者,在算法层面也开始引领潮流。其发布的开源架构 UnifoLM-WMA (Unified Robot Large Model - World Model Action) 重新定义了通用机器人的学习范式 。

  • 核心逻辑: 将“世界模型”作为一个可交互的仿真器(Interactive Simulator) 嵌入到机器人的决策回路中。
  • 工作机制:
    1. 感知: 机器人获取当前环境图像。
    2. 预测(Simulation Mode): 世界模型基于当前状态和候选动作,并在“大脑”中生成未来 N 帧的预测视频(想象动作的后果)。
    3. 决策(Policy Enhancement): 策略头(Policy Head)评估这些预测结果,选择最优动作进行执行。
  • 战略意义: 这种架构极大地降低了对真实世界试错的依赖。机器人在“想象”中完成大部分训练,这对于硬件成本敏感的中国市场尤为重要。

2.3.2 智元 EI-Brain:云端协同的进化架构

智元机器人(Agibot)提出了 EI-Brain(Embodied Intelligent Brain) 架构,这是一种分层且支持在线进化的系统 。

  • 四层结构: 云端超脑(任务编排)+ 端侧大脑(感知决策)+ 小脑(运动控制)+ 脑干(电机驱动)。
  • SOP (Scalable Online Post-training): 这是智元在 2025 年 CES 上发布的核心技术。针对 VLA 模型部署后难以更新的痛点,SOP 允许机器人将运行中的失败案例(Failure Cases)上传云端,利用合成数据进行针对性微调,然后通过 OTA 实时更新端侧模型。这种“边用边学”的能力是智元能够快速适应工业场景的关键 。

3. 2025 年全球市场格局与硬件生态:中国供应链的降维打击

如果说算法是灵魂,那么硬件就是肉体。2025 年的全球机器人市场,上演了一场以中国供应链为主角的“降维打击”大戏。

3.1 市场份额的真相:71% 的统治力

根据 Omdia 及 VestLab 的多渠道数据校验,2025 年全球人形机器人(含双足及轮式类人机器人)总出货量约为 13,000 台 。

表 3-1:2025 年全球主要人形机器人厂商出货量及市场份额排名

排名厂商总部核心产品系列2025 年出货量 (预估)市场份额核心驱动力与备注
1智元机器人 (Agibot)中国上海远征 A2, 灵犀 X2, 精灵 G2~5,100+39%全产品线策略(轮式+双足),B端工业与商业服务场景大规模落地
2宇树科技 (Unitree)中国杭州H1, G1~4,20032%G1 以 $1.6万 的极低价格席卷科研教育市场,H1在工业侧开始放量
3优必选 (UBTech)中国深圳Walker S, 熊猫机器人~1,0007-8%依托汽车工厂(蔚来、奥迪等)的实训订单,以及教育市场的存量优势
4Tesla美国Optimus Gen 2/3150-500<4%仍处于内部测试与小批量试产阶段,外部交付极少
5Figure AI美国Figure 02~150-300<3%聚焦于宝马(BMW)工厂的高端试点项目
6其他全球--~2,000~15%包括各类专用机器人及科研原型机

VestLab 深度洞察:出货量背后的“轮式特洛伊木马”

智元机器人之所以能占据榜首,并非单纯依靠技术最难的双足机器人。深入分析其 5,100 台的出货结构,我们发现其中包含了大量的 G 系列(轮式移动操作机器人) 和 A2-W(轮式版) 。

  • 务实主义的胜利: 在 2025 年,双足机器人的能耗(续航仅 2 小时)和稳定性(跌倒风险)依然是商业化痛点。相比之下,轮式机器人续航可达 5-8 小时,BOM 成本仅为双足的 1/10,且无需复杂的平衡算法 。
  • 数据战略: 中国厂商通过大规模部署轮式机器人,实际上是在“抢占数据入口”。这些机器人在工厂移动、抓取物体时积累的上肢操作数据(Manipulation Data),与双足机器人是通用的。这为训练通用的 VLA 模型提供了海量的燃料。

3.2 供应链深度解析:核心零部件的国产化红利

中国厂商能够实现价格与规模的双重压制,根源在于长三角与珠三角极其完善的供应链体系。

3.2.1 关节模组:空心杯电机的爆发

灵巧手(Dexterous Hand)是 2025 年机器人的标配,而驱动手指关节的空心杯电机(Hollow Cup Motor) 需求呈指数级增长。

  • 市场格局: 曾经由 Maxon(瑞士)和 Faulhaber(德国)垄断的高端市场,在 2025 年被中国厂商撕开缺口。
  • 江苏雷利 (300660): 作为宇树和智元的核心供应商,其空心杯电机在保持 90% 性能(转速 50,000 RPM,效率 91%)的同时,价格仅为海外竞品的 30%-50% 。这直接使得宇树 G1 能够将灵巧手的成本压低至消费级水平。

3.2.2 减速器:双环与绿的的双寡头

  • 绿的谐波 (688017): 在谐波减速器领域,绿的谐波已成为国产机器人的“默认选项”,市场占有率极高,不仅供应国内,还开始反向出口 。
  • 双环传动 (002472): 在 RV 减速器领域占据统治地位,并积极布局高精密行星减速器。市场普遍预期其已切入 Tesla Optimus 的二级供应链,虽然具体份额未公开,但其产能扩张速度佐证了订单的饱满 。

3.2.3 线性执行器:行星滚柱丝杠的最后攻坚

这是目前国产化率最低、壁垒最高的环节,也是 Tesla Optimus 成本居高不下的主因之一(单台机器人需用数十根)。

  • 技术瓶颈: 高精度磨削工艺和热处理技术。
  • 国产突破: 2025 年,北特科技、恒立液压 以及未上市的 KGG (辉策) 开始实现小批量出货 。KGG 依托其在微型滚珠丝杠的积累,正在成为国产替代的重要力量,这将是 2026 年降本的关键战场。

4. 神经系统:感知与算力的边缘化迁移

在解决了“怎么动”(执行器)的问题后,2025 年下半年的竞争焦点迅速转移到了“怎么感觉”(传感器)和“怎么思考”(计算芯片)。

4.1 触觉感知:被低估的“第二双眼”

2025 年,视觉模型(VLM)已经相当成熟,但机器人依然经常捏碎鸡蛋或抓不住滑溜的杯子。这让业界意识到:没有触觉,就没有真正的灵巧操作。触觉传感器正在经历从“选配”到“标配”的价值重估。

  • 技术演进:

    • 第一代: 简单的压阻/压电式(单点测力)。
    • 第二代(2025 主流): 阵列式电子皮肤(Electronic Skin)。
    • 第三代(前沿): 视触觉融合(GelSight 技术),通过摄像头拍摄硅胶层变形来感知纹理。
  • 关键标的 —— 汉威科技 (300007): 其子公司 能斯达 掌握柔性微纳传感技术,推出的电子皮肤已在 2025 世界机器人大会上展示。该传感器能检测 1mN 的微小压力,甚至能感知纹理和滑移,赋予了机器人“痛觉” 。汉威科技的传感器已被集成进多款国产灵巧手中。

  • 帕西尼感知 (PaXini): 获得比亚迪战略投资,专注于多维触觉传感器。其产品不仅能测力,还能感知温度和材质,并在深圳建立了大规模量产线,解决了触觉传感器难以量产的一致性难题 。

4.2 算力芯片:边缘计算的生死时速

随着美国针对中国 AI 算力的封锁日益严密(HR 2683 法案将于 2026 年正式生效,封堵云端算力租赁漏洞 ),中国机器人厂商必须具备强大的**端侧推理(Edge Inference)**能力,减少对云端的依赖。

  • 地平线 (Horizon Robotics, 9660.HK):

    • 逻辑: 地平线原本是自动驾驶芯片厂商,但在 2025 年成功实现了“降维打击”。其 Journey 6 (征程 6) 系列芯片,特别是旗舰款 J6P(560 TOPS),凭借其高效的 BPU (Brain Processing Unit) 架构,非常适合处理机器人多模态传感器的实时融合 。
    • 地位: 目前地平线已成为中国机器人厂商除 NVIDIA Jetson 之外的首选方案,被誉为“机器人界的 Mobileye” 。
  • 高通 (Qualcomm): 在 CES 2026 上,高通发布了 Dragonwing IQ10 机器人专用平台 。

    • 合作: 高通直接宣布与智元(Agibot)达成深度合作,智元的 G2 和 A2 机器人将搭载高通芯片作为“端侧大脑”。高通试图利用其在移动端低功耗高性能的优势,抢占机器人 SoC 市场 。
  • 华为海思: 尽管面临制造良率挑战,华为的昇腾(Ascend)系列依然是国产算力的底线保障。Ascend 910B 及其端侧版本在特定工业机器人场景中被广泛采用,尤其是在对数据安全极其敏感的央企项目中 。


5. 2026 年技术与产业展望:奇点临近

5.1 政策与监管:ISO 2026 与合规风暴

2026 年将是机器人行业的“合规元年”。野蛮生长的时代即将结束,标准与安全将成为新的准入门槛。

  • ISO 2026 安全标准: 国际标准化组织(ISO)预计将在 2026 年发布针对人形机器人的专项安全标准。该标准将重点规范机器人的 动态稳定性(Dynamic Stability)(如防跌倒机制)和 人机协作安全边界
    • 影响: 这将对双足机器人的运动控制算法提出极高要求。不能通过安全认证的机器人将无法进入工厂和家庭,大量低端集成商将被清洗出局。
  • 欧盟 AI 法案 (EU AI Act): 随着机器人进入欧洲市场,其底座模型必须符合“高风险 AI 系统”的监管要求,包括模型的可解释性、训练数据的透明度以及人工干预机制(Human Oversight) 。这将对 Tesla 这种“黑盒”端到端路线在欧洲的落地构成严峻挑战。

5.2 技术趋势:Agentic AI 与在线进化

  • 从 VLA 到 Agentic AI: 2026 年的机器人将不再是被动执行指令的机器,而是具备自主目标的 智能体(Agent)。结合 Google Gemini 的“Thinking”能力和更长的上下文窗口(Context Window),机器人将具备“遇到困难 -> 自主查阅说明书/视频 -> 尝试解决”的能力,实现真正的自主性 。
  • 在线后训练 (Online Post-training): 随着数万台机器人投入使用,如何利用这些机器人产生的海量数据?智元的 SOP 架构预示了未来的方向:机器人白天工作,晚上充电时上传数据并在云端进行针对性训练,第二天早上通过 OTA 变聪明。这种数据飞轮效应将是头部厂商拉开差距的核心护城河 。

5.3 商业化预测:分层落地

  • 工业场景: 汽车制造、3C 组装依然是首发战场。轮式机器人将率先大规模普及,双足机器人将在特定工位(如狭窄空间、台阶)进行补充。
  • 服务场景: 随着宇树 G1 等低成本机器人的普及,2026 年我们将看到更多机器人在科研教育、展厅导览甚至简单的家庭服务(如整理物品)中出现。

6. 投资策略与风险提示

6.1 投资建议:哑铃型策略

在当前技术路线尚未完全收敛的背景下,VestLab 建议采取“哑铃型”配置策略:一头抓确定性极高的上游核心零部件,一头抓具有平台效应的芯片与算法龙头。

重点关注标的池:

标的名称股票代码产业链位置VestLab 评级核心投资逻辑
地平线9660.HK计算芯片买入 (Buy)机器人算力国产替代首选,J6 芯片量产验证充分,估值具有吸引力 。
汉威科技300007.SZ触觉传感增持 (Add)电子皮肤技术稀缺,2026 年触觉传感器爆发的最大受益者,但需注意目前 PE 较高 。
江苏雷利300660.SZ执行电机买入 (Buy)空心杯电机深度绑定头部客户(宇树/智元),产能释放期,业绩弹性大 。
双环传动002472.SZ减速器买入 (Buy)减速器龙头,Tesla 供应链预期强烈,基本面稳健 。
宇树科技拟 IPO本体制造战略关注极强的成本控制与技术迭代能力,若 2026 年成功上市,将是板块核心标的 。

6.2 风险提示

  • 地缘政治风险: 若美国进一步扩大出口管制范围(如限制开源模型 Llama 的商业使用,或限制中低端制程光刻机),将对国产机器人的智能化进程造成短期冲击 。
  • 数据与模型瓶颈: 尽管仿真技术在进步,但高质量的真实世界操作数据(Real-world manipulation data)依然是稀缺资源。如果数据飞轮无法有效转动,机器人的泛化能力可能遭遇天花板,导致商业化落地不及预期。
  • 安全事故风险: 在人机协作场景中,一旦发生机器人伤人事件,可能会引发监管层的强力介入,导致行业发展停滞。

7. 结语

2025 年,我们见证了中国供应链的强大韧性与算法工程师的卓越智慧。智元、宇树等公司的崛起,不仅是商业上的成功,更是技术路线自信的体现。展望 2026 年,随着底座模型的成熟、触觉感知的补齐以及合规标准的建立,人形机器人有望迎来属于它的“iPhone 4 时刻”。对于 VestLab 及其投资人而言,现在正是布局下一个万亿级赛道黎明期的最佳时机。我们不仅要关注那些造出机器人的公司,更要关注那些赋予机器人“感觉”与“思想”的幕后英雄。

VestLab 投研部

2026 年 1 月 14 日

🎙️ 推荐关注

小宇宙播客 VestLab,深度洞察市场脉络,连接价值发现。

点击收听:https://www.xiaoyuzhoufm.com/podcast/694f8d55c759026dcf29944f

Powered by VestLab Editor

评论