"机器人保姆"时代来临？银河通用TrackVLA大模型实现零样本自主导航

来源：中国日报网 2025-06-02 13:35

分享到微信

在儿童节到来之际，一段机器狗在超市里灵活跟随母子、躲避人流的视频，在社交平台悄然走红。许多网友惊叹：“它怎么知道谁是妈妈，谁是孩子？” “不靠遥控也能自己找人？！”

这不是摆拍，而且海淀企业北京银河通用机器人有限公司在儿童节当天发布的其自主研发的产品级端到端导航大模型——TrackVLA。据工作人员介绍，这款具备纯视觉感知、强泛化推理和零样本（Zero-Shot）能力的具身大模型，正在将“机器人自主跟随移动”从实验场景真正带入日常生活。

一双眼睛+一个大脑：重新定义机器人导航范式

据介绍，TrackVLA大模型拥有“从听见到看懂再到行走”的完整闭环能力、靠一双眼睛看世界、靠一个“大脑”做决策，无需提前建地图、不依赖遥控控制，就能实现自主感知、自主推理、自主行动，属于典型的视觉-语言-动作（Vision-Language-Action, VLA）模型。

与传统机器人分开处理“视觉感知→目标识别→路径规划”相比，TrackVLA把这些能力通过一个统一模型整合。更重要的是，TrackVLA不依赖特定硬件形态，具有极强的跨本体应用能力。

“TrackVLA大模型不仅可以部署在四足机器人上，也可以部署在轮式机器人、双足机器人甚至飞行机器人上。换句话说，只要有“眼睛”和“腿”，它就能工作。”银河通用产品总监朱辉告诉记者，很多人第一次听到“端到端大模型（End-to-End Model）”这个词时，会觉得陌生。简单理解，它就像一个一体化的大脑系统，从“输入图像”直接推理出“怎么走”，中间不需要人为拆分多个步骤。

八大核心能力：从认妈找娃到宠物跟随

在超市中穿梭于人流和货架之间，准确跟随母子；根据语音指令切换目标，并在儿童玩耍时发出提醒；从电梯进入陌生商场，完成连续跟随任务；在人群密集的服装店中稳定识别并避让他人干扰；在目标消失后迅速分析并重新定位……

在官方发布的公开测试视频中，TrackVLA展现了令人惊艳的实用能力。机械狗通过"跟着妈妈""换成孩子"等自然语言指令切换跟随目标，在服装店中准确追踪特定顾客，即使对方更换外套仍能识别，当目标短暂消失后，能通过运动轨迹预测重新定位，不仅能跟人，还能识别并跟随宠物狗等非刚性运动目标，在儿童游乐区自动识别玩具、水渍等风险并规划安全路径。

“八大核心能力的协同作用，使TrackVLA成为目前最具实用价值的机器人自主导航解决方案，将为智能陪伴、安防巡检等多个领域带来革命性变化。随着技术的持续迭代，未来这些能力还将在更多应用场景中展现价值。”朱辉表示。

未来已至，温暖可感

在这个儿童节，我们看到了一个不一样的“机器人陪伴者”。他不只是一个冰冷的机器，而是一个能看、能懂、能守护的智能伙伴。

TrackVLA 不是孤立的技术突破，而是银河通用立足海淀，推进“通用具身智能机器人”落地过程中的重要一环。接下来，TrackVLA 将出现在更多的不同形态的机器人本体上，驱动具身智能迈向更加广阔的行业场景应用。（中国日报北京记者站杜娟）

【责任编辑：程慧海】

专题

"机器人保姆"时代来临？银河通用TrackVLA大模型实现零样本自主导航

"机器人保姆"时代来临？银河通用TrackVLA大模型实现零样本自主导航

2025 RCEP区域发展媒体智库论坛

新闻奖国际传播初评公示

中国超有young

“人类命运共同体”国际漫画插画大展2025征稿启事