这届机器人火力全开,不止炫技更要落地

有人说这场大会没有共识,并非如此。算法与数据之争,真实与仿真数据之争,模型能力之争,机器人形态之争。这些争论恰好是构成机器人大乱斗时代的基础。 所有机器人公司所追求具身智能的先进形态、疯狂开屏的样子,恰恰是这场大会的绝妙之处。

机器人logo1-07.png「这不是机器人的春天,这是机器人的夏天」。

这可能是世界机器人大会举办 10 年以来最热闹、最有门道的一届。

一方面参展企业达到历史高峰,200 余家国内外机器人企业参展,1500 余件展品。

1.JPEG更最重要的是,这届机器人动起来了。

一位连续参加了 6 年大会的展会人员提到:「去年和今年变化很大,去年机器人都是被架起来的,今年都动起来了。」

世界机器人大会也是机器人产业链的众生相。聚集机器人本体的 B 馆人潮汹涌,一进门众擎、逐际动力、傅利叶镇场,魔法原子、维他动力、千寻智能、星海图齐齐排开,但凡展位有拳击比赛、跳舞表演,别想了,挤都挤不进去。

A 馆则聚集着宇树、优必选、智平方、越疆机器人等等明星机器人公司。

C 馆主要聚集着为机器人行业提供软硬件解决方案、核心零部件的供应商,比如禾赛科技、速腾聚创、灵心巧手、灵巧智能、傲意科技等等。

热闹背后,机器人正在从遥操、编程走向自主思考,从炫技表演走向场景化落地应用。但再往前走一步,食物链最顶端的人形机器人远未走到商业化落地,一台开发价格大几百万的人形机器人,要么靠融资,要么靠着公司卖配送机器人的盈利养活工程师团队。

每一家企业都非常用力想要自己看起来更性感。

当你看倦了机器人铲爆米花的时候,就会冷不丁瞅见有家长推着坐轮椅的孩子在了解下肢外骨骼机器人,这时候才会发现,技术滚滚向前,它并没有落下任何人。

2.jpeg有人说这场大会没有共识,并非如此。算法与数据之争,真实与仿真数据之争,模型能力之争,机器人形态之争。这些争论恰好是构成机器人大乱斗时代的基础。

所有机器人公司所追求具身智能的先进形态、疯狂开屏的样子,恰恰是这场大会的绝妙之处。

这一次我们试图从机器人大脑、芯片、本体、眼睛、手五大关键领域梳理行业初步共识。

1、机器人大脑:VLA 成万模之源,有思考能力才是完全进化形态

通用机器人=通用大脑+通用本体,这是行业内对于通用机器人基本的认知。

在逛完 WRC 之后,所有厂家的通用大脑可以分为三种能力等级:

  • 初级:机器人动作主要依靠遥操和编程,比如机器人背后站着一位神秘的黑衣人,这就是人类操作员在操控机器人。
  • 中级:能在部分场景内实现一定的自主思考能力,比如能够在快递场景自主分拣货物等。
  • 高级:具备高度跨场景泛化能力,在大部分场景都具备自主思考能力,而目前具备此能力的产品还尚未出现,主要是因为 VLA 模型仍然处于实验室阶段。

高级别能力可以理解为机器人大脑的临界点。王兴兴举例,机器人的临界点应该是即便机器人来到陌生的会场,只要跟它说把这瓶水带给观众,它就能完成独立完成。

而要达到这一等级的自主思考能力,业内主流方案是向 VLA 模型发展。这种模型可以将视觉感知、语言理解和物理动作融为一体,让机器人能够听懂人的指令看懂当前的环境,最终通过理解语言之后,有自我意识去完成任务。

WRC 最明显的趋势就是机器人大脑围绕 VLA 模型「万模齐开」,代表企业星动纪元、星海图、千寻智能、银河通用、灵初智能等等。

去年 12 月,清华大学唯一持股的企业星动纪元发布了强化学习训练具身大模型的算法框架 iRe-VLA。

将其融合到具身大模型 ERA-42 中,可以通过同一个端到端 VLA 模型,用语音控制高自由度人形机器人的全身灵巧操作,比如柔性物品分拣、扫码等等。

3.png在 WRC 上,星动纪元将具身智能大模型 ERA-42 应用到全尺寸人形机器人星动 L7 中,在现场物流模拟场景中,多台星动 L7 不依靠编程,就可以协同工作:一台负责智能分拣包裹,另一台负责智能扫码,即便遇到包裹的二维码在另一面,也能自主翻面,识别二维码,学习能力提升程度很高。

类似的,灵初智能在今年也基于强化学习(RL)的端到端具身 VLA 模型 Psi-R1。

Psi R1 模型提出了快慢脑分层架构,慢脑 S2 系统专注于推理,输入 VLA 模型中的殊绝语言以及动作信息,负责场景抽象理解、任务规划决策。另一个快脑 S1 专注于高精度的控制。

比较大的变化是,Psi R1 模型会结合历史动作与当前环境状态,理解动作的长期影响,最长可以完成时长 30 分钟以上的 CoAT 长线思维链。

在 WRC 上,灵初智能的麻将机器人「大秀特秀」,可以和现场观众完成一场 30 分钟以上的麻将对局,最惊艳的就是自主完成碰杠这类博弈决策,这类动作展示就是 VLA 模型动态构建决策链的能力。

4.png银河通用也采用了端到端具身抓取基础大模型 GraspVLA,在 WRC 上崭露头角。

GraspVLA 主要由 VLM 骨干网络模块+动作专家模块组成,其中 VLM 包括了一个 1.8B 的大语言模型,一个视觉编码器以及一个可训练投影器。

最终 VLM 模块负责视觉观察和文本指令,动作模块负责动作生成。

5.png银河通用强调的优势在于其模型训练采用通才+专才训练,通才就是利用十亿帧的仿真渲染数据来强化模型泛化能力,熟悉物体的环境变化,专才就在特定场景下进行真实数据的针对性场景训练。

银河通用专门面向零售行业开发了端到端具身大模型 GroceryVLA,在 WRC 展台上,银河通用为其人形机器人 Galbot 开辟了小超市,即便 SKU 和商品包装品类各不相同,Galbot 仍然可以分辨材质,根据订单精准识别、抓取商品,交给顾客。

6.png星海图此次也躬身入局 VLA 模型,在 WRC 上首次带来了「真端到端+真全身控制」的 VLA 模型 G0,这套模型已经可以通过语音让机器人独立在房间里整理床铺了。

即便 VLA 模型已经今年机器人大脑的热词,但同样是 VLA,各家的技能点也各不相同。

星动纪元创始人陈建宇认为,接下来决定机器人大脑能力有三点:

模型架构决定大脑能力上限、数据丰富度和数据质量决定动作的完成度,本体的好坏和负责都决定执行的上限。

因此,面向 VLA 的模型开发仍然是一场漫长的进修之路。

2、机器人芯片:英伟达、地瓜机器人齐刷脸

本届 WRC 无疑成为了各家机器人的「演武场」,芯片作为机器人「大脑」的关键组成部分,是决定机器人感知与决策能力的关键部件。

在众多机器人灵活大脑的背后,其实都有两位卖铲人的身影,一个是英伟达,一个是地瓜机器人。

两位卖铲人展现了截然不同的机器人算力路线,英伟达代表的是「高端通用算力+仿真/训练生态」,面向需要大模型感知、端侧高并发推理与复杂仿真的场景;地瓜机器人代表的是「低成本/定制化算控一体+开发者生态」,主攻消费级与结构化场景的规模化落地。

作为国内具身智能两家头部公司,宇树科技和银河通用成为了英伟达的客户

银河通用的 G1 Premium 人形机器人,是首批搭载 NVIDIA Jetson Thor 的人形机器人之一,在工业码垛、拆垛及物料箱搬运等复杂场景中展现出流畅性与作业速度。

7.png宇树科技则在其新型人形机器人 R1 上部署了英伟达全栈机器人技术,通过 Isaac Sim 高仿真平台优化运动与操控能力,并借助 Isaac Lab 系统实现快速策略迭代。

除此之外,像踢足球的加速进化 Booster T1,采用的是 Nvidia AGX Orin,提供 200 TOPS AI 算力;星海图公司的 R1 系列采用的都是 NVIDIA Jetson AGX Orin 32GB;众擎的 SE01 采用的是 NVIDIA Jetson Orin Nano。

地瓜机器人此次也展示了 5 家合作伙伴的落地应用,涵盖了从机械臂到四足机器人再到人形机器人

维他动力的全地形自主移动伴随机器人 Vbot 部署了地瓜机器人 RDK S100P 作为 AI 大脑,凭借 128TOPS 端侧算力和自动驾驶级传感器系统,能够实现「看得见、听得见、会思考、能对话」。

8.jpeg大象机器人的 myCobot 280 RDK X5 机械臂采用的是地瓜机器人 RDK X5 作为 AI 计算平台,具有 10TOPS 算力,支持 100+开源算法模型,覆盖 YOLO World、VSLAM、目标检测、语义交互等场景。

9.jpeg国地共建的青龙机器人则搭载地瓜机器人 RDK S100P 智能计算平台,凭借 128TOPS 端侧 AI 算力,实现「语音-视觉-抓取」全链路闭环。

从芯片应用上,也能发现「大小脑协同」将成为常态

把实时控制、低延迟决策放在本地的小脑如 MCU,把复杂感知与高层规划放到高算力的「大脑」例如 GPU、BPU、NPU 等,由此形成成本与能力兼顾的系统。

地瓜机器人在 RDK S100 的设计理念即主张这种异构协同,而采用英伟达的整机更多将「大脑」能力推到端侧以实现更强感知与在线泛化能力。

3、机器人本体:情感需求萌芽,关键部件全自研尚早

整个 WRC,最受关注的还是机器人本体企业。

第一个最明显的变化发生在形态上,机器人的尺寸变得更多元

人形机器人尺寸主要集中在两个范围,一类是轻量小尺寸机器人,如宇树 G1 等,身高集中在 120-130cm 区间,比如宇树第三款人形机器人 Unitree R1,身高 127cm,整机重量只有 25kg。

与之相对的是全尺寸机器人,身高动辄 170cm 以上,典型如特斯拉机器人擎天柱,身高 172cm,体重 73kg。再比如众擎机器人最新发布的 T800,就宛如巨人,身高 1.85 米,体重 85kg。

在 WRC 上多了很多 140cm—160cm 左右的中小尺寸人形机器人。魔法原子新推出的小个子人形机器人 MagicBot Z1,身高 140cm,体重 40kg,可以秒弹射起身。

这次鹿明机器人在 WRC 也展出的可一秒弹射起身的 Lumos LUS2,身高 160cm/55kg,外观上更接近人类。

鹿明联合创始人黄浩告诉星河频率,他们认为人形机器人行业会逐渐收敛到 160cm 机器人的形态

10.jpeg背后的原因跟稳定性和关节尺寸大小、成本有关。

最核心的原因是身高 160cm 机器人的重心高度比 120cm 机器人高出 33%,动态平衡时的稳定性阈值明显降低,稳定性更好。

甚至,鹿明机器人也在 WRC 上第一次展出了小型人形机器人 NIX,其身高跟 3 岁小孩相当。

第二个最大的变化在于,本体机器人有了更多元的情感表达。

传统人形机器人有两个方向,一种是仿真级别的机器人,把机器人脸部做得非常逼真,另一种则是外形具备科技感的机器人,其身体及五官形态更超人。

傅利叶在 WRC 最新发布的人形机器人 GR-3 开创了一种新的外观形态

从外观来看,传统机器人的脖子变成了厚围脖、原本冰冷的工程塑料上多了一层皮革,外观色调从主流的黑白灰变成了更加柔和的配色,从视觉上削弱了传统机器人的冰冷感。

从内主打全感交互,GR-3 身上搭载了 31 个传感器构成触觉感知阵列

呼唤、抚摸 GR-3,就能触发「快思考」反馈,快速转头对视或者轻晃脑袋回应,同一指令被多次触发就会启动「慢思考」模式。

由大模型推理引擎理解复杂语义、交互历史及触发特征,生成更自然且适配场景的应答。

11.jpeg这种结合皮肤触感的交互形态,给人形机器人的拟人化提供了一种新的思路。

第三个变化是自研成为主流方向,但全栈自研为时尚早。

本体机器人在大展拳脚时,背后是整个机器人产业链的深度融合。整个 WRC 观察下来,不少企业为了节约成本、掌握核心关键技术,有了尝试核心零部件自研的趋势。

目前鹿明机器人已经在自主研发机器人关节模组、触觉夹爪和七轴数据采集机械臂等核心零部件。

12.jpeg黄浩告诉星河频率,关节模组大概占整机成本 40%,他们选择自研的部分都属于成本高、技术要求高的部分

但他认为整个通用机器人行业其实都处于比较早期的过程,谈全栈自研为时尚早。

要先把整体供应链能力先建立起来,才有可能像汽车企业那样从芯片再到软硬件都趋向于全栈自研。

4、灵巧手:从单点演示过渡向场景化、可部署化

灵巧手,作为人形机器人的最后一厘米,决定了机器人作业能力的上限。随着机器人本体的稳定性上升、市场对机器人作业能力的要求提高,灵巧手也从入场试水的「单点演示」向场景化、可部署化发展

今年 WRC 上有 10 家以上灵巧手厂商参展,带来了超 20 款灵巧手产品,较去年有了很大的增长。

在技术路线上,传动方案呈现多元化,腱绳方案的上场率有了明显提高。

当下,市面上大部分的产品采用的还是连杆方案,自由度在 6-11 的区间。

腱绳方案能带来更高的自由度,同时在理论上最能突破灵巧手不可能三角。这次参展的两款新品灵巧手都采用的都是腱绳方案。

赛博格机器人 Cyborg-H01 通过腱绳方案和单电机驱动多关节结构,实现重量传较统方案降低 40%,成本下降 40% 以上。

曦诺未来 Xynova Flex 1 具备 25 个自由度,关节位置控制精度达 0.75°,较国际水平提升 25%。

此外,像灵巧智能这样全产品线采用腱绳方案的厂商,也展出了三指到五指灵巧手产品。

其中,DexHand021 Pro 作为高自由度灵巧手将在下半年正式发售

14.jpeg在 WRC 上,推出 Linker Hand L6 与 L20 工业版的灵心巧手公司,也展出了采用腱绳方案的、目前自由度最高的灵巧手一一 Linker Hand L30 科研版

其次,感知与触觉在「决策环」里的权重上升,高密度触觉传感器逐渐成为一种标配。手的灵巧度不能跟自由度的多少挂钩,触觉传感、力控与多模态视觉的深度融合才是真正的衡量标准,换言之,要让机器人理解「怎么抓、抓多紧、该不该调整」

大寰机器人 DH-5-6 灵巧手在指腹与手掌布设离子活性层触觉阵列,可以实时捕捉压力分布、纹理特征及滑动趋势,支持自适应抓取和异常触碰识别。

优必选的 Walker S2 搭载其自研灵巧手,使用双目视觉+阵列触觉,可识别不同材质的滑动摩擦系数,抓取易碎物品时施加的力波动控制在±0.5N 以内。

过去,不少灵巧手厂商偏重于硬件研发,忽略了软件与算法的协同。但机器人要在复杂场景中精准作业,必须「软硬兼施」。

如今,已有厂商开始构建「硬件 + 算法」的生态体系

中科硅纪在 WRC 上展示了多款智能灵巧手与具身智能整机,展现出了一条路径:将机械手的物理能力与大模型、多模态感知算法结合,机器人能根据不同场景动态调整抓取策略,让同一套「手臂+手」可以覆盖更多应用场景,降低集成与现场调试成本。

傲意科技联合艾欧智能、英伟达打造的「灵巧手+数据+场景」开放实验室在WRC首次亮相。基于 NVIDIA VSS 多模态视觉大模型,傲意科技的灵巧手在现场演示了复杂抓取、精密装配及康复辅助的实时交互。

16.png除此之外,也能明显感受到灵巧手正在向模块化和标准化发展

各家厂商正努力把「手」做成可插拔、可复用的模块,便于在不同品牌机械臂或整机上快速替换与集成,从而缩短落地时间与工程成本

5、机器人眼睛:「眼、脑、手」进入升维协同

去年 WRC 上,他山科技 CEO 马扬表示,机器人执行复杂动作需要统一体完成视觉与触觉的融合

这一观点在今年大会上已成为现实,多传感器融合已从技术理想进化为产品核心架构

机器人的「眼睛」正与「大脑」、「手」形成更高效的协同。

过去,人形机器人的视觉功能多停留在「炫技」或概念展示,而今年视觉技术的「生产力属性」更为明显,比如多台机器人协作完成物料分拣、跨区域配送等实际任务。

机器人不再只是「看得见」,而是在真实场景中「看得懂、用得上」。

单靠一种传感器已无法满足复杂场景需求,多源数据的时空融合成为视觉系统的底层逻辑。

速腾聚创推出的 Active Camera 平台,采用多传感器一体化集成,单硬件即可提供色彩信息、深度信息与运动状态信息,并实现三类信息的时空融合,突破了传统 3D 视觉「看不清、看不准、反应慢」的技术瓶颈。

奥比中光的 3D 激光雷达 Pulsar ME450 支持三种扫描模式自由切换,是行业首款「一机多模」3D 激光雷达,可动态切换以适应避障、测绘等场景,适配物流、户外作业等复杂场景。

17.jpeg这种融合的本质,是让机器人从「看见物体」升级为「理解环境」。

在硬件层面,视觉设备正朝着「体积更小、性能更强」的方向发展。

禾赛科技的 JT 系列激光雷达,体积仅台球大小,支持行业最广的 360°×189°超半球视野和 256 线分辨率,发布 5 个月交付量达 10 万台。

其纯固态雷达 FTX 体积较上一代减少 66%,点频高达 49.2 万点/秒,可隐蔽嵌入服务机器人机体,实现「无感化」感知升级。

18.png此外,与去年 WRC 讨论「感知分离」,即视觉在脑端处理、触觉在边缘端处理不同,今年呈现明显的「端-边-云协同」趋势。硬件厂商不再只卖传感器,而是构建全栈开发生态

像速腾聚创的 AI-Ready 生态就提供了开源工具、预训练算法库及数据集,吸引场景和算法两类开发者,推动产品落地应用以及反向推动硬件迭代。

同时,机器人视觉的不断发展,让鲁棒性成为了产品落地的大前提

人形、陪伴类机器人在今年展出数量大幅增加,尤其是在餐饮、零售、家庭等场景演示越发频繁。

相比去年偏静态的展示,今年的机器人能在展馆这种复杂环境中保持稳定工作,例如维他动力的 Vbot 在场馆里「自由活动」,天工机器人自主「遛弯」到工位。

这要求感知系统必须经过更苛刻的工程验证,这种需求迫使厂商在算法降噪、抗干扰设计、软硬件协同上持续优化。

这次 WRC 像一面棱镜,折射出机器人发展的核心脉络:市场不再满足单点炫技,而在寻找「真有用、能落地」的系统级进化

无论是手的灵巧进化、视觉的感知跃迁,还是大脑的智能赋能、本体的稳定支撑,最终的关键都藏在技术的协同里。

  • 大脑的决策需要眼睛提供精准的环境感知
  • 眼睛的观察需要手和本体去执行验证;
  • 手的灵巧操作依赖本体的稳定支撑和大脑的精细控制;
  • 本体的运动效能更离不开大脑的全局规划和眼睛的实时反馈。

王兴兴预测,未来几年,全行业人形机器人出货量每年翻番都是有保证的,如果有更大的技术突破,甚至可能未来 2-3 年突然一年出货几十万台,甚至上百万台也有可能。

当技术从单点爆破走向多维协同,机器人终将撕掉「Demo」的标签,以真正的智能体身份走入各行各业。

毕竟,评判一个机器人的终极标准,从来不是「能转多少圈」、「识别多少物体」,而是它是否能真正「接住」人类的需求


格隆汇声明:文中观点均来自原作者,不代表格隆汇观点及立场。特别提醒,投资决策需建立在独立思考之上,本文内容仅供参考,不作为实际操作建议,交易风险自担。

相关阅读

评论