揭秘Token经济学：一个Token如何引爆万亿智能工厂？_北京华夏基石企业管理咨询有限公司

咨询电话：400-007-9000，13501208501（马老师）

中文

ENG

首页

关于我们

华夏动态

业务动态

论坛活动

新闻/通告

产品与服务

案例

商学

传媒

专家风采

思想与著作

经典活动

联系我们

您所在位置：首页 > 产品和服务 > 特色模块 > 传媒平台 > E洞察 > 2026年 >

揭秘Token经济学：一个Token如何引爆万亿智能工厂？

发布时间：2026-05-21 14:33　　文章来源：华夏基石e洞察　　作者:洪洲　　点击：次

▪   文 / 洪洲，壁仞科技联合创始人、首席技术官
▪   来源：华夏基石e洞察（ID：chnstonewx）
▪   根据2026年4月22日至23日基石资本峰会分享整理，文章仅代表作者本人观点

4月22至23日，由基石资本主办的“2026中国深圳企业家峰会”在深圳成功举行。本次峰会以“开启AI纪元，共赴星际征程”为主题，聚焦人工智能、算力、自动驾驶、具身智能、商业航天、量子科技、可控核聚变等关键前沿领域，壁仞科技联合创始人、首席技术官洪洲发表了“Agent时代的Token工厂”的主题演讲。以下为详细内容。

大家好，我带来的话题是“Agent时代的Token工厂”，这也是今年最热的话题之一。

我们知道，AGI大致被描述为一条五级的发展路径。

往前两年，大家还在讲怎么做提示词工程，考虑怎样用好生成式模型，让它能更好地回答我们的问题。到了前年，我们在讨论处于生成式的问答时代。再到了去年，我们讨论的是上下文工程，也就是怎样编排好提示词，让模型能做更多的事情。这个阶段标志性的模型，比如DeepSeek的R1，它不仅能回答问题，还能帮我们做一些推理和规划，协助解决问题。

但从去年下半年开始，情况发生了天翻地覆的变化。我们不光能让现在的模型帮助解决单个问题，更可以把整套问题交给它，只要我们提供计算环境，它就能自动解决问题，也就是所谓的进入了智能体时代，也就是Agent时代。在甚至不到一年的时间里，以Claude Code为代表的通用智能体，已经能帮我们解决很多问题了。我们已经从怎么做上下文、怎么编排上下文，转变为了怎么提供环境、怎么做约束工程。这就是智能体时代的一个标志。

后面的阶段，比如模型能不能帮我们做新发现、做创造，达到所谓的AGI？我们还不知道什么时候能实现，但已经看到现在的应用能帮我们解决很多问题。至少在我们公司，百分之七八十的工程师已经在用智能体来帮助解决各方面的问题。我想这不是个别的，而是很普遍的现象。无论是芯片公司还是大模型公司，利用Agent已经成为主流。

今天的话题是Token。什么是Token？比较形象的解释，一种叫词元，一种叫智元。总之，Token是一个不可分割的信息单元，一个智能的基本单元。

无论是工业革命、信息革命，还是现在所谓的智能革命，本质上都在制造不同形态的核心资源。工业革命通过煤炭和蒸汽来推动机器、火车前进；信息时代通过电力来创造比特，提供信息；而在智能时代，我们通过算力来制造Token，提供智能。所以，Token是一种承载智能的语言单元。所谓的Token工厂，就是能够消耗资源来创造Token，进而生成智能的东西。

Agent时代非常有代表性的一个变化，就是Token的消耗模式彻底不同了。

原来通过生成式推理，每次一个问答，基本也就消耗几百个Token，直到前年甚至去年上半年，大家还觉得我们处在“实验室时代”，在做训练，还认为这个东西不太可用，没有真正进入大规模推理的阶段。

但Agent时代完全不同，很多事情能够自动去完成，Token的消耗已经不是几百、几千，而是几万、几百万、几千万。Agent时代一个标志性的动作，就是人不用去干预，不用做实时反馈，只需要提供一个环境、一个目标，剩下的由机器自动运作。在这种情况下，我们会看到Token的消耗每年都有两三百percent的增长。

去年上半年，大家还在怀疑，AI到底能有多大用处，AI时代的承诺能不能兑现？但现在我们可以非常明确地说，AI的落地已经发生了，特别是在Coding这个场景。Coding本身已经是一个非常大的应用。在智能体时代，不是计算机科学专业的工程师才能写代码，而是每个人都能写代码。标志性的事件就是Openclaw，即所谓的“养小龙虾”——现在每个人都可以“养小龙虾”。至少在我们公司，我就愿意用——我不需要像以前看论文花很多时间，良莠不齐都得看，因为没法选择。现在有了这些工具，我可以通过各种意图描述，让它们帮我整理各种各样的工作。这也能说明，人工智能已经实质性地进入了各行各业，AI爆发的时代确实已经来了。

今天之所以讲Token工厂，就是因为Token消费的爆炸性增长，而且需求非常大，我们需要一条专门的“流水线”，能够真正低成本地去创造Token。因此，值得我们关注的是，什么样的基础设施能让智能生产更高效？用什么来评判智能生产效率？有没有必要？我认为非常有必要。原因在于，Token的生产和消耗，已经进入各行各业。任何操作电脑的人——无论是智能工作者、大学老师，还是各种白领，都跟它有关。在Agent时代，每个人都可以编程，都可以通过开发工具来解决问题。对中国来说，整个服务业，特别是数字行业，Token的消耗实际上代表了一种GDP，代表着智能生产的价值，而这些价值就是在Token工厂里产生的。所以，Token工厂的效率，我们必须高度关注。

今年的股市，比如美国的标普500，如果刨去与AI Token工厂相关的股票，其他股票基本上都在跌。这充分说明，我们必须弄清楚，整个智能行业的生产系统，怎样才是高效的，应该是什么样的。

我把智能生产分成五个层次——

最底层：能源层，即电力。今年大家都在抢蒸汽轮机，国外很多大厂都在说要建核电站。为什么？因为数据中心需要非常稳定且巨大的电力供应。我们传统的电力生产，有很大比例消耗在传输上，如果在数据中心旁边能够直接生产电力，效率会非常高。问题是，核电的建设周期至少三四年，烧天然气的蒸汽轮机可能两三个月就能上，可我们根本没有那么多蒸汽轮机。

第二层：芯片层。现在GPU的制程还能生产，但发现HBM不够了。智能体时代，上下文都特别长，不仅存储不够，甚至连DRAM、Flash内存都不够了。所以，现在这些东西都在涨价，但光涨价没用，供应没有弹性，因为产能周期需要两三年。

第三层：基础设施层。Token工厂需要很多整机柜，它们之间需要连接，需要光，OCS光交换是最好的选择。但材料不行，衬底不够。比如今年，凡是涉及光的股票都在涨。这些都含在基础设施层里，存储、交换、电力都在其中。

第四层：模型层。现在模型已经走在前面。很多模型确实能带来生产力，但每天都在爆发式使用。爆掉的原因，一是存储不够，上下文太长；二是用户太多，根本接不过来。像一些头部公司完全缺算力，国内大模型厂家也缺算力。总的来说，模型层在突飞猛进。

最上层：应用层。应用层将发生天翻地覆的变化。现在手机上有几十上百个应用，将来大部分都可以不要了，并且很多软件界面都需要彻底改变。原来的软件是为人操作设计，有图形界面、各种交互界面。在Agent时代，这些软件反而没法操作，因为没有相应的接口。过去的软件，很多是“表格逻辑”，如人事管理、库存管理等，逻辑本身并不复杂，大部分都是固定的输入和查询，能做一些简单的计算。但现在发现，很多这类软件用处不大，不够通用。因为这些软件能看到的信息太少，没有上下文，没有关于个人和环境的信息，只能靠固定逻辑来判断该做什么。

而今天的AI则善于从结构化和非结构化信息中推导出最佳策略。所谓的智能，就是要给它各种各样的信息，让它根据上下文，而不是固定逻辑来判断。这就导致整个计算范式在应用层发生了根本性的变化，进而带动了全局的变化。

那么，我们所谓的AI工厂的判断标准是什么？——AI工厂到底应该长什么样，什么样的AI工厂才是好的？

比较简单的一个标准，一个系统主要看两部分：一是采购成本，二是运作成本。运作成本的核心是电力成本，设备在运作时主要消耗的就是电，当然也包括折旧这些，都算在资本开支里。一个比较好的衡量指标，就是每瓦能产出多少Token。

当然，Token并不都一样，有的Token质量好，有的相对差一些，质量通常用延迟来代表。总的来说，衡量Token工厂的效率，我们需要一系列指标来判断。

现在整个Token工厂，其实是在做大模型的推理。在生产Token的时候，到底需要什么样延迟的Token？整个软件环境、硬件环境都非常复杂。而且部署本身也很复杂，我们怎么能提高灵活性？也就是说，这个系统不光要能初始部署，还必须能非常简单、灵活地去调配和更新。

大家知道，Token并不是一个固定的东西，不同的Token确实有优劣之分，这跟Token的生产直接相关。它的延迟和吞吐之间大概是这样一种关系：一般来讲，要求的延迟越短，吞吐就越少。我们慢慢会发现，这里面需要做一个平衡，这就归结到了Token的经济学。我们看到，各大厂商拿TTPS，也就是每秒钟的Token产生速度，来定价。如果以非常高的速度，比如每秒400K Token的TPS，一百万Token可以定价150美元；如果只有30 TPS，那一百万Token可能只能定价5块钱。这对我们做计算、做GPU来说非常重要。

工厂本身有很多条“流水线”，我们到底怎么选择，怎么突破，怎么切入Token工厂？最终要从哪条流水线切入？

归根结底，Token工厂到底长什么样？

第一，可大可小。可能是一个几百兆瓦的工厂，也可能是1吉瓦级别的Token工厂。可能由几百个机柜构成，也可能是几千个机柜。用英伟达的话来说，里面需要六七种芯片，大部分芯片用来做数据搬移。需要很多通道，需要大量的光交换，才能在那么大、那么多机柜里，让数据合理地流动。

第二，需要一个非常灵活、可配置的光交换系统。我们已经看到，AI工厂里真正的交换系统，特别是南向交换系统，应该是一个OCS光交换系统，因为它可编程，并且延迟比较低。

第三，CPU越来越重要。在Agent时代大家会发现，CPU变得越来越重要了。传统的CPU和GPU的比例会发生变化，会发现它可能是一个异构系统。因为这个东西实际上是千变万化的，流水线就有好几条。比如说，可能有一条低延迟流水线，能提供1000 Token TPS；有的则是30 Token TPS。这就可能既需要类似LPU或3D堆叠芯片来提供高带宽、低延迟的能力，也需要别的架构。

第四，存储级别越来越大。一个Token工厂需要的是PB级别的存储。因为很多情况下，为了更高的效率，往往会以存代算，或者在存储里做缓存计算。比如当用户来问一个问题时，往往可以先去已经回答过的问题里找一找，看是不是有一部分计算已经做过，可以直接从存储里拿出来用。这非常有效，在传统互联网时代也有类似的情况。任何一个瞬间，社会的热点问题，很多已经计算过的东西都可以复用。

所以，我们会发现，整个系统本身非常复杂。为了让它实现高效率，它一定得是一个液冷系统。

我们可能会问，生产Token，为什么一定要搞一个Token工厂？我弄一台手机、一台服务器，随便弄个什么东西，自己养养“小龙虾”不也行吗？但我们说的这个工厂，可是几亿美元、几十亿甚至上百亿美元的投入。从Token经济学的角度来看，大规模工厂的效率才是最高。因为真正实行规模化和高效生产，在这样一个大系统里，可以同时部署几个甚至几十个模型，存储了大量已经计算过、可以复用的数据和结果，批量生产的效率天然才是最高。而且，因为硬件始终在运转，利用率非常高，能源利用效率也高，部署的地点也可以优化。所以，我们认为，只有Token工厂这种形式，拥有几百到几千个机柜、PB级别的存储、EFlops级别的计算能力，再加上可编程的光互联，特别是OCS光交换，才能够非常高效地生产Token。

大家常说，我们中国希望向国外输出Token，因为我们电力富裕，这本身是一件很美好的事。但我们会发现，真正决定效率的，不光是硬件层面单位成本下的Token生产速度，更重要的是模型和智能体的设计——能不能在回答同样一个问题时，消耗更少的Token？这里面涉及两个问题：一是我们单位Token的生产成本是多少；第二，真正解决一个实际问题，整个系统实际消耗的Token要尽量少。

我们从硬件层面谈论Token工厂，当然是聚焦在单位成本的Token产出上。但更重要的是整体，即Token工厂运作时，模型本身的设计、智能体的设计，也就是所谓的“约束工程”，怎么保证上层的设计能够用更少的Token去完成同样的事情。只要做到这一点，我们确实可以去输出Token。

我的分享就到这里。谢谢大家。

阅读最多

聚焦核心竞争优势，就是最好的降本增效

日韩企业靠什么夺回“失落的30年”

从“要我干”到“我要干”，中间差了些什么

未来十年，组织一定要有价值管理能力

不完成数智化改革，你可能等不来春天

民营企业，一定要赚这4种钱