咨询电话:400-007-9000,13501208501(马老师)
取消
揭秘Token经济学:一个Token如何引爆万亿智能工厂?
发布时间:2026-05-21 14:33  文章来源: 华夏基石e洞察   作者:洪洲   点击:次
▪   文 / 洪洲,壁仞科技联合创始人、首席技术官
▪   来源:华夏基石e洞察(ID:chnstonewx)
▪   根据2026年4月22日至23日基石资本峰会分享整理,文章仅代表作者本人观点

 
4月22至23日,由基石资本主办的“2026中国深圳企业家峰会”在深圳成功举行。本次峰会以“开启AI纪元,共赴星际征程”为主题,聚焦人工智能、算力、自动驾驶、具身智能、商业航天、量子科技、可控核聚变等关键前沿领域,壁仞科技联合创始人、首席技术官洪洲发表了“Agent时代的Token工厂”的主题演讲。以下为详细内容。

大家好,我带来的话题是“Agent时代的Token工厂”,这也是今年最热的话题之一。
 
我们知道,AGI大致被描述为一条五级的发展路径。
 
往前两年,大家还在讲怎么做提示词工程,考虑怎样用好生成式模型,让它能更好地回答我们的问题。到了前年,我们在讨论处于生成式的问答时代。再到了去年,我们讨论的是上下文工程,也就是怎样编排好提示词,让模型能做更多的事情。这个阶段标志性的模型,比如DeepSeek的R1,它不仅能回答问题,还能帮我们做一些推理和规划,协助解决问题。
 
但从去年下半年开始,情况发生了天翻地覆的变化。我们不光能让现在的模型帮助解决单个问题,更可以把整套问题交给它,只要我们提供计算环境,它就能自动解决问题,也就是所谓的进入了智能体时代,也就是Agent时代。在甚至不到一年的时间里,以Claude Code为代表的通用智能体,已经能帮我们解决很多问题了。我们已经从怎么做上下文、怎么编排上下文,转变为了怎么提供环境、怎么做约束工程。这就是智能体时代的一个标志。
 
后面的阶段,比如模型能不能帮我们做新发现、做创造,达到所谓的AGI?我们还不知道什么时候能实现,但已经看到现在的应用能帮我们解决很多问题。至少在我们公司,百分之七八十的工程师已经在用智能体来帮助解决各方面的问题。我想这不是个别的,而是很普遍的现象。无论是芯片公司还是大模型公司,利用Agent已经成为主流。
 
今天的话题是Token。什么是Token?比较形象的解释,一种叫词元,一种叫智元。总之,Token是一个不可分割的信息单元,一个智能的基本单元。
 
无论是工业革命、信息革命,还是现在所谓的智能革命,本质上都在制造不同形态的核心资源。工业革命通过煤炭和蒸汽来推动机器、火车前进;信息时代通过电力来创造比特,提供信息;而在智能时代,我们通过算力来制造Token,提供智能。所以,Token是一种承载智能的语言单元。所谓的Token工厂,就是能够消耗资源来创造Token,进而生成智能的东西。
 
Agent时代非常有代表性的一个变化,就是Token的消耗模式彻底不同了。
 
原来通过生成式推理,每次一个问答,基本也就消耗几百个Token,直到前年甚至去年上半年,大家还觉得我们处在“实验室时代”,在做训练,还认为这个东西不太可用,没有真正进入大规模推理的阶段。
 
但Agent时代完全不同,很多事情能够自动去完成,Token的消耗已经不是几百、几千,而是几万、几百万、几千万。Agent时代一个标志性的动作,就是人不用去干预,不用做实时反馈,只需要提供一个环境、一个目标,剩下的由机器自动运作。在这种情况下,我们会看到Token的消耗每年都有两三百percent的增长。
 
去年上半年,大家还在怀疑,AI到底能有多大用处,AI时代的承诺能不能兑现?但现在我们可以非常明确地说,AI的落地已经发生了,特别是在Coding这个场景。Coding本身已经是一个非常大的应用。在智能体时代,不是计算机科学专业的工程师才能写代码,而是每个人都能写代码。标志性的事件就是Openclaw,即所谓的“养小龙虾”——现在每个人都可以“养小龙虾”。至少在我们公司,我就愿意用——我不需要像以前看论文花很多时间,良莠不齐都得看,因为没法选择。现在有了这些工具,我可以通过各种意图描述,让它们帮我整理各种各样的工作。这也能说明,人工智能已经实质性地进入了各行各业,AI爆发的时代确实已经来了。
 
今天之所以讲Token工厂,就是因为Token消费的爆炸性增长,而且需求非常大,我们需要一条专门的“流水线”,能够真正低成本地去创造Token。因此,值得我们关注的是,什么样的基础设施能让智能生产更高效?用什么来评判智能生产效率?有没有必要?我认为非常有必要。原因在于,Token的生产和消耗,已经进入各行各业。任何操作电脑的人——无论是智能工作者、大学老师,还是各种白领,都跟它有关。在Agent时代,每个人都可以编程,都可以通过开发工具来解决问题。对中国来说,整个服务业,特别是数字行业,Token的消耗实际上代表了一种GDP,代表着智能生产的价值,而这些价值就是在Token工厂里产生的。所以,Token工厂的效率,我们必须高度关注。
 
今年的股市,比如美国的标普500,如果刨去与AI Token工厂相关的股票,其他股票基本上都在跌。这充分说明,我们必须弄清楚,整个智能行业的生产系统,怎样才是高效的,应该是什么样的。
 
我把智能生产分成五个层次——
 
最底层:能源层,即电力。今年大家都在抢蒸汽轮机,国外很多大厂都在说要建核电站。为什么?因为数据中心需要非常稳定且巨大的电力供应。我们传统的电力生产,有很大比例消耗在传输上,如果在数据中心旁边能够直接生产电力,效率会非常高。问题是,核电的建设周期至少三四年,烧天然气的蒸汽轮机可能两三个月就能上,可我们根本没有那么多蒸汽轮机。
 
第二层:芯片层。现在GPU的制程还能生产,但发现HBM不够了。智能体时代,上下文都特别长,不仅存储不够,甚至连DRAM、Flash内存都不够了。所以,现在这些东西都在涨价,但光涨价没用,供应没有弹性,因为产能周期需要两三年。
 
第三层:基础设施层。Token工厂需要很多整机柜,它们之间需要连接,需要光,OCS光交换是最好的选择。但材料不行,衬底不够。比如今年,凡是涉及光的股票都在涨。这些都含在基础设施层里,存储、交换、电力都在其中。
 
第四层:模型层。现在模型已经走在前面。很多模型确实能带来生产力,但每天都在爆发式使用。爆掉的原因,一是存储不够,上下文太长;二是用户太多,根本接不过来。像一些头部公司完全缺算力,国内大模型厂家也缺算力。总的来说,模型层在突飞猛进。
 
最上层:应用层。应用层将发生天翻地覆的变化。现在手机上有几十上百个应用,将来大部分都可以不要了,并且很多软件界面都需要彻底改变。原来的软件是为人操作设计,有图形界面、各种交互界面。在Agent时代,这些软件反而没法操作,因为没有相应的接口。过去的软件,很多是“表格逻辑”,如人事管理、库存管理等,逻辑本身并不复杂,大部分都是固定的输入和查询,能做一些简单的计算。但现在发现,很多这类软件用处不大,不够通用。因为这些软件能看到的信息太少,没有上下文,没有关于个人和环境的信息,只能靠固定逻辑来判断该做什么。
 
而今天的AI则善于从结构化和非结构化信息中推导出最佳策略。所谓的智能,就是要给它各种各样的信息,让它根据上下文,而不是固定逻辑来判断。这就导致整个计算范式在应用层发生了根本性的变化,进而带动了全局的变化。
 
那么,我们所谓的AI工厂的判断标准是什么?——AI工厂到底应该长什么样,什么样的AI工厂才是好的?
 
比较简单的一个标准,一个系统主要看两部分:一是采购成本,二是运作成本。运作成本的核心是电力成本,设备在运作时主要消耗的就是电,当然也包括折旧这些,都算在资本开支里。一个比较好的衡量指标,就是每瓦能产出多少Token。
 
当然,Token并不都一样,有的Token质量好,有的相对差一些,质量通常用延迟来代表。总的来说,衡量Token工厂的效率,我们需要一系列指标来判断。
 
现在整个Token工厂,其实是在做大模型的推理。在生产Token的时候,到底需要什么样延迟的Token?整个软件环境、硬件环境都非常复杂。而且部署本身也很复杂,我们怎么能提高灵活性?也就是说,这个系统不光要能初始部署,还必须能非常简单、灵活地去调配和更新。
 
大家知道,Token并不是一个固定的东西,不同的Token确实有优劣之分,这跟Token的生产直接相关。它的延迟和吞吐之间大概是这样一种关系:一般来讲,要求的延迟越短,吞吐就越少。我们慢慢会发现,这里面需要做一个平衡,这就归结到了Token的经济学。我们看到,各大厂商拿TTPS,也就是每秒钟的Token产生速度,来定价。如果以非常高的速度,比如每秒400K Token的TPS,一百万Token可以定价150美元;如果只有30 TPS,那一百万Token可能只能定价5块钱。这对我们做计算、做GPU来说非常重要。
 
工厂本身有很多条“流水线”,我们到底怎么选择,怎么突破,怎么切入Token工厂?最终要从哪条流水线切入?
 
归根结底,Token工厂到底长什么样?
 
第一,可大可小。可能是一个几百兆瓦的工厂,也可能是1吉瓦级别的Token工厂。可能由几百个机柜构成,也可能是几千个机柜。用英伟达的话来说,里面需要六七种芯片,大部分芯片用来做数据搬移。需要很多通道,需要大量的光交换,才能在那么大、那么多机柜里,让数据合理地流动。
 
第二,需要一个非常灵活、可配置的光交换系统。我们已经看到,AI工厂里真正的交换系统,特别是南向交换系统,应该是一个OCS光交换系统,因为它可编程,并且延迟比较低。
 
第三,CPU越来越重要。在Agent时代大家会发现,CPU变得越来越重要了。传统的CPU和GPU的比例会发生变化,会发现它可能是一个异构系统。因为这个东西实际上是千变万化的,流水线就有好几条。比如说,可能有一条低延迟流水线,能提供1000 Token TPS;有的则是30 Token TPS。这就可能既需要类似LPU或3D堆叠芯片来提供高带宽、低延迟的能力,也需要别的架构。
 
第四,存储级别越来越大。一个Token工厂需要的是PB级别的存储。因为很多情况下,为了更高的效率,往往会以存代算,或者在存储里做缓存计算。比如当用户来问一个问题时,往往可以先去已经回答过的问题里找一找,看是不是有一部分计算已经做过,可以直接从存储里拿出来用。这非常有效,在传统互联网时代也有类似的情况。任何一个瞬间,社会的热点问题,很多已经计算过的东西都可以复用。
 
所以,我们会发现,整个系统本身非常复杂。为了让它实现高效率,它一定得是一个液冷系统。
 
我们可能会问,生产Token,为什么一定要搞一个Token工厂?我弄一台手机、一台服务器,随便弄个什么东西,自己养养“小龙虾”不也行吗?但我们说的这个工厂,可是几亿美元、几十亿甚至上百亿美元的投入。从Token经济学的角度来看,大规模工厂的效率才是最高。因为真正实行规模化和高效生产,在这样一个大系统里,可以同时部署几个甚至几十个模型,存储了大量已经计算过、可以复用的数据和结果,批量生产的效率天然才是最高。而且,因为硬件始终在运转,利用率非常高,能源利用效率也高,部署的地点也可以优化。所以,我们认为,只有Token工厂这种形式,拥有几百到几千个机柜、PB级别的存储、EFlops级别的计算能力,再加上可编程的光互联,特别是OCS光交换,才能够非常高效地生产Token。
 
大家常说,我们中国希望向国外输出Token,因为我们电力富裕,这本身是一件很美好的事。但我们会发现,真正决定效率的,不光是硬件层面单位成本下的Token生产速度,更重要的是模型和智能体的设计——能不能在回答同样一个问题时,消耗更少的Token?这里面涉及两个问题:一是我们单位Token的生产成本是多少;第二,真正解决一个实际问题,整个系统实际消耗的Token要尽量少。
 
我们从硬件层面谈论Token工厂,当然是聚焦在单位成本的Token产出上。但更重要的是整体,即Token工厂运作时,模型本身的设计、智能体的设计,也就是所谓的“约束工程”,怎么保证上层的设计能够用更少的Token去完成同样的事情。只要做到这一点,我们确实可以去输出Token。
 
我的分享就到这里。谢谢大家。

 
自媒体
备案信息
工业和信息化部域名信息备案
全国公安机关互联网站安全备案
电话
400-007-9000
010-82659965
010-82873036
地址
地址:北京市海淀区海淀大街8号中钢国际广场A座6层
邮编:100081
E-mail: service@chnstone.com.cn
Copyright @chnstone.com.cn All Right Reserved.北京华夏基石企业管理咨询有限公司