“他们焦虑内卷，我却感到兴奋”：一个机器人创业者的指数思维

咨询电话：400-007-9000，13501208501（马老师）

中文

ENG

首页

关于我们

华夏动态

业务动态

论坛活动

新闻/通告

产品与服务

案例

商学

传媒

专家风采

思想与著作

经典活动

联系我们

您所在位置：首页 > 产品和服务 > 特色模块 > 传媒平台 > E洞察 > 2026年 >

“他们焦虑内卷，我却感到兴奋”：一个机器人创业者的指数思维

发布时间：2026-05-21 14:25　　文章来源：华夏基石e洞察　　作者:张巍　　点击：次

▪   文 / 张巍，逐际动力创始人、南方科技大学教授
▪   来源：华夏基石e洞察（ID：chnstonewx）
▪   根据2026年4月22日至23日基石资本峰会分享整理，文章仅代表作者本人观点

4月22至23日，由基石资本主办的“2026中国深圳企业家峰会”在深圳成功举行。本次峰会以“开启AI纪元，共赴星际征程”为主题，聚焦人工智能、算力、自动驾驶、具身智能、商业航天、量子科技、可控核聚变等关键前沿领域，逐际动力创始人、南方科技大学教授张巍发表了“让通用人工智能触达物理世界”的主题演讲。以下为详细内容。

感谢张维董事长的邀请，非常荣幸能跟大家做一些分享。

我主要分享一下对这个行业的理解：从个人角度、从公司发展角度，尤其是一些比较奇特的、非共识的观点。

我从2005年开始，一直在研究算法相关的工作，尤其是2017年之后，我们专注研究人形机器人的算法。2022年，我们公司成立以后，当时内部有一些争论：为什么要做两条腿的人形机器人？我当时是正方，觉得人形一定要有两条腿。但虽然我是正方，强烈推崇人形机器人，但我还是低估了它的发展速度，远远超过我个人的想象。究其原因：我们不能用当前看到的困难和技术瓶颈，去预测未来行业的发展。我们处在一个指数发展的赛道，不能用线性推演的方式去看，线性思维不适用于指数变革。因为在任何指数发展的过程中，我们在每一天、每一刻是感觉不到的，只有跳出当下看整个曲线的时候，才发现原来发展这么快。

举个简单的例子，比尔·盖茨经常说，从90年代开始，他大概用了30年时间做人机交互、语言交流，但一直没搞明白到底应该怎么做才能做到最好。大模型出来以后，这个问题半年就解决了。所以，不能用当下技术的瓶颈去衡量行业未来的发展时间，很多技术是在指数变革中不断涌现的。

通用人工智能AGI，我觉得已经过了起点，是典型指数级增长。现在的调用量、使用AI的能力都已经非常强。而人形机器人，我认为处于起点之前，马上就要经过起点进行指数变革的阶段。因此，我个人认为，变革的曲线是我们评判这整件事情最本质的一个点。

那么，在指数变革里，我们如何去做人形机器人，怎么做出一个好的人形机器人？

我曾经跟团队交流，发现他们遇到的问题是不知道为啥要做它，这是“Why”的问题。我们往往不知道“Why”，所以不知道“How”。因此，我要先讲一讲，为啥我们非得死磕这个东西。第二个问题是“So What”，做完了能怎样。

我跟别人交流的时候，被问到的第一个问题，往往都是：到底什么场景，一定需要两条腿的人形机器人？我想说的是，这是个错误的问题，千万不要回答。什么场景一定需要人形？不好意思，没有任何一个场景一定需要人形，答案非常明确，但不能用它来判断人形机器人的生命力，这是我的观点。

为什么？因为这种提问的方式，是用我们传统衡量专机（单功能专机）的方式，去评判一个新物种。专机的本质是什么？是单一场景、极致化的效率、单一任务，它追求的是规模化的效益。所以，哪怕我不停地爬楼梯，也不需要两条腿，我们一定能找出更好的、更适合那个形态的方案。用这个方式去衡量人形，就有问题。人形的本质是多功能，而单一功能都打不过专机。如果接着追问一个问题：不需要改变构型，就能满足我们90%海量、分散、个性化需求的平台是什么？它就只能是两条腿、两只手的人形。从第一性原理我可以推出来，不可能多一条腿，也不可能少一个胳膊。所以，人形是不确定性中的一个确定性。

那么，我们在承认最终形态是人形的情况下，是不是可以先做点取舍？比如在舞台上，是不是用轮子就可以？

第一，工具的变化。我说一个反共识的观点：我们觉得前沿技术成本太高，不好干，但这在本质上需要重新思考。因为AI时代，一件事的难和易，取决于你手里的工具。AI工具的出现，让很多难的东西变简单了，让简单的东西在大家心中的排序发生变化。就像大模型出来以后，写C++程序的难度，可能比一个好的秘书整理文档的难度还要低，职业优先级会瞬间发生改变。AI技术变革，让腿这件事不比轮子难很多，甚至在纯AI的驱动下还要更简单。为什么？因为轮子反而难以精确建模。

第二，成本因素。由于人形可以通用，不需要这儿布一个、楼下再布一个，我们用一个通用的形态，就可以规模化，成本会急剧降低，边际效应才会出来。我觉得这是第一性原理，也是人形机器人的底层商业逻辑，即一个通用的本体，是一个不断叠加APP的过程。单一的本体、单一的APP，比如跳个舞，感觉没什么用，但一旦它既能跳舞，又能接待你，还能拿个盒饭，功能在不断往上叠加，且你不需要重新造机器人，只需要通过OTA升级的时候，我们就会发现有一个时刻，我称之为“吸星大法时刻”。只要过了那个点，所有的东西都会往它的身上靠，就不会再要别的东西了。其中的道理跟手机一样，早年我们有大哥大、商务通，如果单纯打电话，大哥大就够了，但一旦能把很多功能叠加在统一的平台上，这个东西就会涌现。这就是我认为人形机器人未来商业化的底层逻辑。

第三，发展趋势。沿着指数发展的曲线、APP功能叠加，正好是AI发展的趋势，我不需要改硬件，因为硬件的迭代速度很慢。

那怎么做出一个好的人形机器人？我们先了解一下到底什么才是核心技术。

第一个非共识观点是，制造人形机器人本身比较简单，其制造难度肯定比造车、造飞机要简单。不知道怎么造人形机器人的原因，是不知道怎么用，它缺的是AI，而不是制造能力。所以，真正的变革方式是，我觉得需要一个“人形的物理AI系统”。

现在是AI快速发展、百家争鸣的时代。很多人觉得这是焦虑和内卷，但在我看来这是兴奋。为什么？因为现在的技术领先和行业前瞻性，会带来一些行业范式的定义权，初创企业尚有机会。

分享一下我的观点：我不觉得存在一个端到端的物理系统。

我们有三层架构，跟Figure有点类似，但从细节上，又有非常显著的不同。我们有System 0、System 1和System 2，对应到人身上，可以理解为前额叶、视觉皮层、小脑的运动控制。比如我要去拿遥控器，第一层，我要进行“想”，即做决策——我要去拿它，这是由System 2决定；第二层，我知道它在哪里，我要看它，并产生全身的运动轨迹，过去拿它，这是System 1的VLA Skill，是一种技能；第三层，我去执行VLA给出的参考轨迹，也就是我们底层的全身运控能力，这是System 0。

关于System 0，我举个视频上跳舞的例子。视频上跳舞不等于System 0，这是第一个反共识。本质上，那就是一个单一策略，是事先录好的轨迹，把它重播一遍就可以。所以，光看能不能跳舞，并不能反映System 0能力。什么是System 0的能力？就是不事先录好，随时随地有什么需求，就能执行什么运动的能力，也就是抗干扰能力。我觉得这个是小脑运控的基础模型能力。

最关键的一个行业小秘密，就是System 1。在人形机器人里，连接感知到感知环境并指导全身运动的能力，是极其稀缺的。Humanoid VLA本质的先决条件，是得有个System 0，要不然做不好它。

简单说一下没有感知和有感知的区别。没有感知的时候，本质上就是正常的机械性地踱步，只是不倒。而有了感知，就能根据感知到的情况去识别地形，并根据地形来实时调整自己的身体运动，这是基本智能最核心的点。我们称之为“感知指导的高阶技能”。

我们去年10月参加广州塔挑战赛，因为有了感知能力，拿了世界冠军。能做这类事情的机器人现在比较少。这不光是地形的适应能力，同时还要能感知到物体，能指导全身蹲下来抓起物体，我们管这种叫“基于主动感知的全身运控”，这个目前比较稀缺。我们经常看到的是腿不动，只有上肢在摆弄咖啡，而全身协同、带感知的运动控制，我认为这是大脑非常需要的一项关键技能。如果具备这项技能，我才能称之为“打通了任督二脉”——能捡网球了，自然也就可以捡袜子、捡鞋、捡所有东西。但具体能稳定地干多少活，这就需要去积累技能和数据。在这方面，无论是视频数据还是仿真数据，我们都有很多积累，核心要义就是：具身智能不能复制大模型“先通用再落地”的发展模式。因此，我们坚持，必须在具备一定的泛化能力时，就去做场景的落地。在具身智能里，后训练比预训练更重要。

逐际动力全尺寸人形机器人Oli基于实时主动感知捡网球

基于这个思路，我们构建了很多后训练的能力，最近我们开源了如何高效训练VLA模型的技术框架，希望全行业的人都能加入进来，一起把这件事做好。

再讲一个我认为最重要的非共识：System 2。我认为，堆数据是堆不出大脑的。首先，大脑不是一个模型，大脑是个操作系统，它会对多个模型进行调度。我们现在理解的大语言模型或者各种模型，它本身不是大脑。我们的System 2可以理解为大脑，而只有System 2却没有底层的运控，就像是全身瘫痪的病人，躺在病床上，他什么都能想，什么都感觉会，但就是动不了。但他有大脑，大脑就是System 2。这是我们最大的一个非共识。我们是最早定义Agentic OS，也就是真正大脑的公司。

逐际动力具身 Agentic OS 系统COSA

所以，这三层抽象起来，我觉得每一层都有公司在做，基于不同形态的机器人在做。但真正的难点不在于单独把一层做好，而在于三层之间如何联合优化，并达到毫秒级的配合。人类大概花了700万年才进化到目前这个程度，我们现在需要在短时间内，在AI的辅助下达成这个能力，我把这叫做“大小脑融合”技术。这也是我们投入最多的地方。它需要对每一层都有深刻的理解，需要软硬协同设计和算法创新能力结合起来，才能做好。

最后，我简单说一下我们逐际动力公司与技术相匹配的商业化路径。

首先，定位自己在整个行业的格局：即想清楚自己在行业的定位是什么。我认为未来大概有以下几类公司：做核心零部件的；做技术解决方案的，像VLA这类，包括数据，都可能成为技术解决方案的提供商；OEM、ODM，以及人形整机厂商；但人形和其他不太一样，还会有应用层的公司，比如专门做接待的APP、专门做表演的APP，这些APP公司没准还会更赚钱，这是它跟所有专机不太一样的地方；当然，还有销售公司。整机厂商比较难，因为占比也比较大，它需要同时具备这几方面的能力。

我们认为，中国的这个行业绝对可以领先世界，这跟纯人工智能不太一样。因为它涉及到物理，我觉得中国会有极大的能力去引领智能时代。

我们逐际动力最早提出过一句话：这是一个用户选择，不是个技术选择。我们认为两条腿的人形机器人，没必要进工厂，其本质上是做泛化。我们有具身data recipe，所以会有多元的数据集。

我们的一个Slogan是“Serve people not process”，我们的机器人是服务于人的。即在一个环境里，比如它能在楼下接你上来，帮你拿东西，就必须是两条腿人形的，这才是人形机器人发挥最大价值的地方。我们并不希望它去服务于生产流程。

在推动变革的过程中，我们觉得最重要的就是大小脑融合技术，这是以我们研发的能力为主。因为最终要替掉遥控器，目前全靠遥控器不可能真正落地。这是我们逐际动力一直关注，并且有突出成果的地方。

2026年并不是一个泡沫破裂的年，而是场景落地、POC的元年。承载具身智能发展有多种形态，人形是其中一种。我们还有一个非常独创的平台，叫TRON 2。TRON 2是多形态的，可以通过配置更换末端，达到腿和胳膊的组合。也就是同一个机器人，只要更换末端，既能做操作又能做行走，组合起来成为人形，或者成为“人头马”等各种形态。所以，全场景通用的，或是针对单一场景，都可以通过TRON 2来完成。

逐际动力多形态具身机器人TRON 2

我们逐际动力秉持开放原则，支持开发者在我们的平台上做各种应用开发。我觉得，这是场景POC规模化的前夜，也是元年。所以，我们希望以一流的本体运控、小脑的基础模型，而不是单一策略，再加上相对领先的大小脑融合技术和特有的操作系统，推动具身智能的场景落地。

谢谢各位！

阅读最多

聚焦核心竞争优势，就是最好的降本增效

日韩企业靠什么夺回“失落的30年”

从“要我干”到“我要干”，中间差了些什么

未来十年，组织一定要有价值管理能力

不完成数智化改革，你可能等不来春天

民营企业，一定要赚这4种钱