咨询电话:400-007-9000,13501208501(马老师)
取消
“他们焦虑内卷,我却感到兴奋”:一个机器人创业者的指数思维
发布时间:2026-05-21 14:25  文章来源: 华夏基石e洞察   作者:张巍   点击:次
▪   文 / 张巍, 逐际动力创始人、南方科技大学教授
▪   来源:华夏基石e洞察(ID:chnstonewx)
▪   根据2026年4月22日至23日基石资本峰会分享整理,文章仅代表作者本人观点

 
 
4月22至23日,由基石资本主办的“2026中国深圳企业家峰会”在深圳成功举行。本次峰会以“开启AI纪元,共赴星际征程”为主题,聚焦人工智能、算力、自动驾驶、具身智能、商业航天、量子科技、可控核聚变等关键前沿领域,逐际动力创始人、南方科技大学教授张巍发表了“让通用人工智能触达物理世界”的主题演讲。以下为详细内容。

感谢张维董事长的邀请,非常荣幸能跟大家做一些分享。
 
我主要分享一下对这个行业的理解:从个人角度、从公司发展角度,尤其是一些比较奇特的、非共识的观点。
 
我从2005年开始,一直在研究算法相关的工作,尤其是2017年之后,我们专注研究人形机器人的算法。2022年,我们公司成立以后,当时内部有一些争论:为什么要做两条腿的人形机器人?我当时是正方,觉得人形一定要有两条腿。但虽然我是正方,强烈推崇人形机器人,但我还是低估了它的发展速度,远远超过我个人的想象。究其原因:我们不能用当前看到的困难和技术瓶颈,去预测未来行业的发展。我们处在一个指数发展的赛道,不能用线性推演的方式去看,线性思维不适用于指数变革。因为在任何指数发展的过程中,我们在每一天、每一刻是感觉不到的,只有跳出当下看整个曲线的时候,才发现原来发展这么快。
 
举个简单的例子,比尔·盖茨经常说,从90年代开始,他大概用了30年时间做人机交互、语言交流,但一直没搞明白到底应该怎么做才能做到最好。大模型出来以后,这个问题半年就解决了。所以,不能用当下技术的瓶颈去衡量行业未来的发展时间,很多技术是在指数变革中不断涌现的。
 
通用人工智能AGI,我觉得已经过了起点,是典型指数级增长。现在的调用量、使用AI的能力都已经非常强。而人形机器人,我认为处于起点之前,马上就要经过起点进行指数变革的阶段。因此,我个人认为,变革的曲线是我们评判这整件事情最本质的一个点。
 
那么,在指数变革里,我们如何去做人形机器人,怎么做出一个好的人形机器人?
 
我曾经跟团队交流,发现他们遇到的问题是不知道为啥要做它,这是“Why”的问题。我们往往不知道“Why”,所以不知道“How”。因此,我要先讲一讲,为啥我们非得死磕这个东西。第二个问题是“So What”,做完了能怎样。
 
我跟别人交流的时候,被问到的第一个问题,往往都是:到底什么场景,一定需要两条腿的人形机器人?我想说的是,这是个错误的问题,千万不要回答。什么场景一定需要人形?不好意思,没有任何一个场景一定需要人形,答案非常明确,但不能用它来判断人形机器人的生命力,这是我的观点。
 
为什么?因为这种提问的方式,是用我们传统衡量专机(单功能专机)的方式,去评判一个新物种。专机的本质是什么?是单一场景、极致化的效率、单一任务,它追求的是规模化的效益。所以,哪怕我不停地爬楼梯,也不需要两条腿,我们一定能找出更好的、更适合那个形态的方案。用这个方式去衡量人形,就有问题。人形的本质是多功能,而单一功能都打不过专机。如果接着追问一个问题:不需要改变构型,就能满足我们90%海量、分散、个性化需求的平台是什么?它就只能是两条腿、两只手的人形。从第一性原理我可以推出来,不可能多一条腿,也不可能少一个胳膊。所以,人形是不确定性中的一个确定性。
 
那么,我们在承认最终形态是人形的情况下,是不是可以先做点取舍?比如在舞台上,是不是用轮子就可以?
 
第一,工具的变化。我说一个反共识的观点:我们觉得前沿技术成本太高,不好干,但这在本质上需要重新思考。因为AI时代,一件事的难和易,取决于你手里的工具。AI工具的出现,让很多难的东西变简单了,让简单的东西在大家心中的排序发生变化。就像大模型出来以后,写C++程序的难度,可能比一个好的秘书整理文档的难度还要低,职业优先级会瞬间发生改变。AI技术变革,让腿这件事不比轮子难很多,甚至在纯AI的驱动下还要更简单。为什么?因为轮子反而难以精确建模。
 
第二,成本因素。由于人形可以通用,不需要这儿布一个、楼下再布一个,我们用一个通用的形态,就可以规模化,成本会急剧降低,边际效应才会出来。我觉得这是第一性原理,也是人形机器人的底层商业逻辑,即一个通用的本体,是一个不断叠加APP的过程。单一的本体、单一的APP,比如跳个舞,感觉没什么用,但一旦它既能跳舞,又能接待你,还能拿个盒饭,功能在不断往上叠加,且你不需要重新造机器人,只需要通过OTA升级的时候,我们就会发现有一个时刻,我称之为“吸星大法时刻”。只要过了那个点,所有的东西都会往它的身上靠,就不会再要别的东西了。其中的道理跟手机一样,早年我们有大哥大、商务通,如果单纯打电话,大哥大就够了,但一旦能把很多功能叠加在统一的平台上,这个东西就会涌现。这就是我认为人形机器人未来商业化的底层逻辑。
 
第三,发展趋势。沿着指数发展的曲线、APP功能叠加,正好是AI发展的趋势,我不需要改硬件,因为硬件的迭代速度很慢。
 
那怎么做出一个好的人形机器人?我们先了解一下到底什么才是核心技术。
 
第一个非共识观点是,制造人形机器人本身比较简单,其制造难度肯定比造车、造飞机要简单。不知道怎么造人形机器人的原因,是不知道怎么用,它缺的是AI,而不是制造能力。所以,真正的变革方式是,我觉得需要一个“人形的物理AI系统”。
 
现在是AI快速发展、百家争鸣的时代。很多人觉得这是焦虑和内卷,但在我看来这是兴奋。为什么?因为现在的技术领先和行业前瞻性,会带来一些行业范式的定义权,初创企业尚有机会。
 
分享一下我的观点:我不觉得存在一个端到端的物理系统。
 
我们有三层架构,跟Figure有点类似,但从细节上,又有非常显著的不同。我们有System 0、System 1和System 2,对应到人身上,可以理解为前额叶、视觉皮层、小脑的运动控制。比如我要去拿遥控器,第一层,我要进行“想”,即做决策——我要去拿它,这是由System 2决定;第二层,我知道它在哪里,我要看它,并产生全身的运动轨迹,过去拿它,这是System 1的VLA Skill,是一种技能;第三层,我去执行VLA给出的参考轨迹,也就是我们底层的全身运控能力,这是System 0。
 
关于System 0,我举个视频上跳舞的例子。视频上跳舞不等于System 0,这是第一个反共识。本质上,那就是一个单一策略,是事先录好的轨迹,把它重播一遍就可以。所以,光看能不能跳舞,并不能反映System 0能力。什么是System 0的能力?就是不事先录好,随时随地有什么需求,就能执行什么运动的能力,也就是抗干扰能力。我觉得这个是小脑运控的基础模型能力。
 
最关键的一个行业小秘密,就是System 1。在人形机器人里,连接感知到感知环境并指导全身运动的能力,是极其稀缺的。Humanoid VLA本质的先决条件,是得有个System 0,要不然做不好它。
 
简单说一下没有感知和有感知的区别。没有感知的时候,本质上就是正常的机械性地踱步,只是不倒。而有了感知,就能根据感知到的情况去识别地形,并根据地形来实时调整自己的身体运动,这是基本智能最核心的点。我们称之为“感知指导的高阶技能”。
 
我们去年10月参加广州塔挑战赛,因为有了感知能力,拿了世界冠军。能做这类事情的机器人现在比较少。这不光是地形的适应能力,同时还要能感知到物体,能指导全身蹲下来抓起物体,我们管这种叫“基于主动感知的全身运控”,这个目前比较稀缺。我们经常看到的是腿不动,只有上肢在摆弄咖啡,而全身协同、带感知的运动控制,我认为这是大脑非常需要的一项关键技能。如果具备这项技能,我才能称之为“打通了任督二脉”——能捡网球了,自然也就可以捡袜子、捡鞋、捡所有东西。但具体能稳定地干多少活,这就需要去积累技能和数据。在这方面,无论是视频数据还是仿真数据,我们都有很多积累,核心要义就是:具身智能不能复制大模型“先通用再落地”的发展模式。因此,我们坚持,必须在具备一定的泛化能力时,就去做场景的落地。在具身智能里,后训练比预训练更重要。
 
 
 
逐际动力全尺寸人形机器人Oli基于实时主动感知捡网球
 
基于这个思路,我们构建了很多后训练的能力,最近我们开源了如何高效训练VLA模型的技术框架,希望全行业的人都能加入进来,一起把这件事做好。
 
再讲一个我认为最重要的非共识:System 2。我认为,堆数据是堆不出大脑的。首先,大脑不是一个模型,大脑是个操作系统,它会对多个模型进行调度。我们现在理解的大语言模型或者各种模型,它本身不是大脑。我们的System 2可以理解为大脑,而只有System 2却没有底层的运控,就像是全身瘫痪的病人,躺在病床上,他什么都能想,什么都感觉会,但就是动不了。但他有大脑,大脑就是System 2。这是我们最大的一个非共识。我们是最早定义Agentic OS,也就是真正大脑的公司。
 
 
 
逐际动力具身 Agentic OS 系统COSA
 
所以,这三层抽象起来,我觉得每一层都有公司在做,基于不同形态的机器人在做。但真正的难点不在于单独把一层做好,而在于三层之间如何联合优化,并达到毫秒级的配合。人类大概花了700万年才进化到目前这个程度,我们现在需要在短时间内,在AI的辅助下达成这个能力,我把这叫做“大小脑融合”技术。这也是我们投入最多的地方。它需要对每一层都有深刻的理解,需要软硬协同设计和算法创新能力结合起来,才能做好。
 
最后,我简单说一下我们逐际动力公司与技术相匹配的商业化路径。
 
首先,定位自己在整个行业的格局:即想清楚自己在行业的定位是什么。我认为未来大概有以下几类公司:做核心零部件的;做技术解决方案的,像VLA这类,包括数据,都可能成为技术解决方案的提供商;OEM、ODM,以及人形整机厂商;但人形和其他不太一样,还会有应用层的公司,比如专门做接待的APP、专门做表演的APP,这些APP公司没准还会更赚钱,这是它跟所有专机不太一样的地方;当然,还有销售公司。整机厂商比较难,因为占比也比较大,它需要同时具备这几方面的能力。
 
我们认为,中国的这个行业绝对可以领先世界,这跟纯人工智能不太一样。因为它涉及到物理,我觉得中国会有极大的能力去引领智能时代。
 
我们逐际动力最早提出过一句话:这是一个用户选择,不是个技术选择。我们认为两条腿的人形机器人,没必要进工厂,其本质上是做泛化。我们有具身data recipe,所以会有多元的数据集。
 
我们的一个Slogan是“Serve people not process”,我们的机器人是服务于人的。即在一个环境里,比如它能在楼下接你上来,帮你拿东西,就必须是两条腿人形的,这才是人形机器人发挥最大价值的地方。我们并不希望它去服务于生产流程。
 
在推动变革的过程中,我们觉得最重要的就是大小脑融合技术,这是以我们研发的能力为主。因为最终要替掉遥控器,目前全靠遥控器不可能真正落地。这是我们逐际动力一直关注,并且有突出成果的地方。
 
2026年并不是一个泡沫破裂的年,而是场景落地、POC的元年。承载具身智能发展有多种形态,人形是其中一种。我们还有一个非常独创的平台,叫TRON 2。TRON 2是多形态的,可以通过配置更换末端,达到腿和胳膊的组合。也就是同一个机器人,只要更换末端,既能做操作又能做行走,组合起来成为人形,或者成为“人头马”等各种形态。所以,全场景通用的,或是针对单一场景,都可以通过TRON 2来完成。
 
 
 
逐际动力多形态具身机器人TRON 2
 
我们逐际动力秉持开放原则,支持开发者在我们的平台上做各种应用开发。我觉得,这是场景POC规模化的前夜,也是元年。所以,我们希望以一流的本体运控、小脑的基础模型,而不是单一策略,再加上相对领先的大小脑融合技术和特有的操作系统,推动具身智能的场景落地。
 
谢谢各位!
 
自媒体
备案信息
工业和信息化部域名信息备案
全国公安机关互联网站安全备案
电话
400-007-9000
010-82659965
010-82873036
地址
地址:北京市海淀区海淀大街8号中钢国际广场A座6层
邮编:100081
E-mail: service@chnstone.com.cn
Copyright @chnstone.com.cn All Right Reserved.北京华夏基石企业管理咨询有限公司