Token:智能时代的标准化「集装箱」

1956年,美国商人麦克莱恩发明了集装箱。在集装箱出现之前,货物出口依赖人力散装,一件一件靠叉车、吊机搬运,一艘船要装卸好几天,运输成本中有一半是装卸费。集装箱的出现彻底改变了这一局面——任何货物只要装进箱子,就能被任何港口的吊车装卸、被任何货轮运输、被任何买家接收。

这个简单的发明带来了非凡的效益:它让全球贸易的摩擦成本大幅下降。当中国成为「世界工厂」后,中国产能借着集装箱渗透到了全球的每一个角落。

七十年后,一个新的「集装箱」出现了——这就是 Token

Token 是大语言模型处理文字的最小单位,大致相当于半个中文字。但它的意义不在于这个技术定义,而在于它做到了和集装箱一样的事:把原本难以计量、难以交易的东西——智能服务——装进了一个标准化的容器。

一个问题、一段代码、一篇文章,背后消耗了多少算力,全部可以用 Token 来计量、定价、交易。就像集装箱让任何货物都能被吊车装卸,Token 让任何智能服务都能被 API 调用、被计费、被出口

中国第一次有机会大规模出口脑力,而不是体力、矿产、能源。美国人掀起了这场 AI 浪潮,定义了规则,炒高了价格,却没想到,Token 这门生意的霸主,正在悄悄换人


什么是 Token?

Token,翻译过来叫词元,是大语言模型处理文本的最小单位。

「我喜欢吃苹果」,对人类来说是一个完整的句子。对 AI 来说,它是「我」「喜欢」「吃」「苹果」四个 Token。英文更复杂,「ChatGPT」会被拆成「Chat」「G」「PT」三个 Token。

这种拆分看起来琐碎,但它让智能服务第一次变得可以量化、可以被公平地计算。就像集装箱一般,Token 让任何智能服务都能被计量、被交易、被出口

一个印度的创业者打开电脑,调用 DeepSeek 的 API,让它帮忙写一段 Python 代码。他等了不到一秒,代码出现了。他付了几分钱,关上电脑。

这个动作很简单,但背后发生的事情却改写了游戏规则:他的请求通过光纤传到了中国某个数据中心,数百块 GPU 同时启动,开始逐字生成那段代码。每生成一个字,就要消耗若干 Token,而每个 Token 背后却是真实的电力消耗。甘肃的风电、青海的光伏、云南的水电,在这一刻以 Token 的形式打包跨越国境,变成印度程序员眼前的一行代码。

中印之间没有特高压输电线路,但中国的电力却实实在在被国外消费了。

这就是 Token 出口的本质:数据中心烧电,GPU 运算,产出 Token,卖给全球用户。电力和算力被隐形地打包进每一个 Token,随着 API 调用流向世界各地。买家买到的是智能服务,但他们实际上消费的,是中国的电力、算力和工程师的智识积累。

这个机制有一个关键特性:它不需要买家在地理上靠近中国,不需要铺设任何物理管道,只需要一根网线。 这是传统电力出口永远做不到的事。


中国电力的「老问题」与「新解法」

中国电力之强大,天下人所共知。2025年,中国光伏装机突破 3.15 亿千瓦,占全国新增发电装机的 57%。但装机越快,消纳越难。全国新能源消纳监测预警中心的数据显示:2025 年上半年,全国光伏弃电率升至 6.6%,风电弃电率 5.7%,比 2024 年同期几乎翻倍。

西部省份的困境尤其严重:

  • 2025 年 1 至 11 月,西藏光伏发电利用率仅 65.8%
  • 甘肃 89.6%
  • 青海 83.5%
  • 西藏风电利用率更只有 69.3%

大量可再生能源发出来,却没有地方消纳,白白浪费。其实浪费了都算好的,带来的电网波动才是真的棘手。面对这些过剩的电,最直觉的想法是:**直接出口出去不就行了?**答案是:没那么简单。

电不能装箱,不能储存,只能靠实体电网点对点输送。中国西部弃风弃光最严重的地方——西藏、甘肃、内蒙古——偏偏与电网基础设施最薄弱的国家接壤。放眼中国周围,基本上没几个国家拥有全国性的靠谱电网。云南通过 21 条输电线路与越南、缅甸、老挝联网,「十三五」期间累计跨境交易电量 176 亿千瓦时——相比中国每年数万亿千瓦时的总发电量,这个数字几乎可以忽略不计。

再说了,穷国也是有主权的,没有人愿意让本国电力依赖邻国供应。一度电出口也就五毛钱左右,扣除损耗和交易成本,根本赚不到几个钱。

因此,传统电力出口的天花板清晰可见,而且几乎无解。

但是,如果我们能把电力换个皮,那情况就好办得多了。

这就是 Token 的出口——不需要物理电网,不受电力主权约束,价格不被大宗商品市场锚定。这是一条真正可以规模化的新路。数据中心对电价敏感、对位置不敏感——光纤可以跨越千山万水。西藏、甘肃、青海的过剩绿电,可以通过数据中心转化为 Token,出口到全球。


Token 出口的市场趋势

这一点,在 ToC 的市场上尤其意义重大。ToC 的意义在于它是最敏感的风向标。

中国个人用户的 AI 使用习惯正在发生结构性转变:从「问答」转向「干活」。编程、写作、长文档处理,每一类场景的 Token 消耗都远高于简单对话。加上深度推理模式的普及,单个用户单次调用的 Token 量在快速膨胀——业界把这个现象称为「Token 通胀」。

数字印证了这个趋势:

  • 2024 年初,中国日均 Token 消耗量为 1000 亿

  • 2025 年 6 月底已突破 30 万亿

  • 一年半时间增长了 300 倍

  • 2025 年上半年,中国公有云大模型调用总量达到 537 万亿 Token

  • 较 2024 年全年增长近 400%

这个增速,远超任何一个传统行业的成长曲线。土壤已经肥沃,种子正在发芽。

中国的澎湃电力,正在套上 Token 外皮,被国内外市场无形却又疯狂购买。


Token 出口: 一门暴利生意

其实,「电力换皮出口」这事儿,中国早有先例。

中国是全球最大的电解铝生产国,但铝土矿本身大量依赖进口——几内亚、澳大利亚、印度尼西亚的矿石,漂洋过海运到中国,在西南、西北的电解铝工厂里经过高耗电的冶炼工序,变成铝锭,再出口到全球。矿石是进口的,铝锭是出口的,而最耗电的那个环节留在了国内。

也就是说,中国出口的铝锭里,有相当一部分是电力在换皮出售。只是这种方式增值倍数不高,一度电变成铝锭,大约只能增值 2 到 3 倍

产品 每吨耗电 每吨价格 1度电增值倍数
电解铝 ~13,500度 ~2万元 3-5倍
多晶硅 ~57,000度 ~4万元 2倍(过剩时期)

但是,如果把电力换皮成 Token 卖出去,那情况可就完全不同了。

GPU 在推理场景下,每 Token 约消耗 0.39 焦耳,一度电则是 360 万焦耳,理论上可产出约 920 万 Token。考虑到散热、网络、冗余等损耗,保守估算 一度电实际产出约 550 万 Token

Token 卖多少钱?

  • DeepSeek 输出定价:每百万 Token 约 2 元
  • OpenAI 的 GPT-4o 定价:每百万 Token 约 70 元
出口形式 1度电产出 售价 增值倍数
直接卖电 - ~0.5元 1倍
炼成铝锭 ~73克 ~1.5元 3倍
跑 AI 推理 ~550万Token ~11元 (DeepSeek) 22倍

一度电直接出口卖 0.5 元,炼成铝锭卖 1.5 元,而喂给数据中心跑推理,按 DeepSeek 的定价能卖出约 11 元,是直接卖电的 22 倍。

更重要的是,铝锭和多晶硅的工艺早已固定,早就碰到天花板了,但 AI 还年轻。

Token,是中国迄今为止电力增值效率最高的出口形态。

甚至,这看似暴利的「22倍」系数,还是中国厂商竞争过于激烈、主动压价的结果,不是能力天花板。

DeepSeek 在打市场、抢份额,定价是战略选择。DeepSeek-V3 的训练成本仅约 3900 万元,用的是 H800 芯片——国产模型的真实成本比这个定价还要低得多。即使把价格压到 OpenAI 的 1/20,中国模型依然有利润空间。 这就是便宜背后的底气。


为什么中国只能卖 22 倍,美国能卖 785 倍?

说完了中国这边的账,再看看美国那边的账。

如果说中国 Token 出口是暴利,那么美国 Token 的出口则堪称是「无本万利」。

  • DeepSeek 用一度电转化出的 Token 可以卖 11 元
  • 如果换成 OpenAI 的定价,同样能卖约 385 元
  • 增值倍数来到了恐怖的 「785 倍」

22 倍和 785 倍之间,差着一个数量级。

为什么中国模型的定价只有美国模型的 1/20 到 1/30

1. 品牌溢价缺失

这就好比同样是矿泉水,农夫山泉卖 2 块,依云卖 30 块——不是因为依云的水分子更高级,而是因为它卖的是阿尔卑斯山泉这个故事。

OpenAI 也是同样的道理——它卖的不只是 Token,卖的是「全球最强 AI」这个认知。这个认知本身值钱,而且能让人愿意为之多付钱。

Claude Sonnet 输出定价每百万 Token 约 105 元,MiniMax M2.5 只要约 8 元,相差 13 倍。用户愿意为 Claude 买单,不只是因为 Claude 测试结果优异,还因为他们相信 Claude 确实更好。

你怎么样是一回事,领导怎么看你,是另外一回事。

中国模型厂商目前还处于「农夫山泉」的阶段,价格透明、童叟无欺,但品牌故事还没讲出来。

2. 模型能力的差距

DeepSeek 在数学、编程的基准测试上已经追平甚至超越 OpenAI,但基准测试是考场,生产环境是战场

在实际的企业应用里,稳定性、指令遵循的精确度、边缘情况的处理才是核心。实际的能力差距直接影响定价天花板——你能解决别人解决不了的问题,才有资格开更高的价。

中国模型目前还在追赶高端场景,这个差距缩小一分,定价空间就能打开一分。

3. 生态和信任的缺失

企业客户选 AI 供应商,就像选银行——不只看利率,还要看这家银行会不会突然倒闭、出了问题有没有人接电话。

OpenAI 和微软 Azure 背后有完整的企业服务体系——SLA 保障、合规支持、技术文档、售后响应,这套东西是多年积累下来的信任背书。中国模型在工程能力上完全不输,但这套售后体系还在建设中。

毕竟,欧美在 SaaS 这块可是玩了几十年的,熟练程度和我们在珠三角找五金厂一个感觉。

4. 地缘政治折扣

简单说就是,很多客户想用但不敢用,或者用了也要压价,因为心里有顾虑——今天能调的 API,明天会不会被自己国家的监管叫停?

美国联邦机构禁用 DeepSeek,德国要求下架,这些新闻每出一条,都会让潜在客户的决策再迟疑一下。迟疑折算成价格,就是折扣。


四个原因叠加,形成了一种结构性的定价压制。

22 倍是现在的成绩,不是终点。但从 22 倍走向更高,靠的不是更猛的降价,而是品牌、能力、生态、信任一点一点地积累。


面临的挑战

短期障碍:价格战与封禁

短期内,最明显的障碍有两个:

一是西方封禁。 欧美对中国高科技的打压始终没停过——今天一个法案,明天一个禁令,早就虱子多了不嫌咬了。

但说实话,这些封禁更像是在门口立了个牌子,而不是真的堵死了路。

中国 Token 出口的主战场从来不是西方发达国家,而是印度、东南亚、拉美、中东——也就是全球南方。DeepSeek 在印度、东南亚的扩张没有受到太大影响。封禁反而帮中国模型做了广告:被美国封杀的产品,一定有点东西。

二是国内价格战。

2024 年,字节豆包报价低到每千 Token 不到 0.006 元,阿里通义千问 GPT-4 级主力模型降价 97%,智谱把上一代 GLM-4-Plus 砍了 90%。这场价格战打得像菜市场收摊前甩卖,赢得了用户,却亏掉了利润,压缩了再投资能力。

好在 2025 年情况开始逆转:智谱 GLM-5 发布当天宣布涨价 30%,Kimi K2.5 发布不到一个月,海外收入首次超过国内。涨价能成功,说明需求是真实的,市场在成熟。 但价格战留下的诸多后遗症却需要时间消化。

长期挑战:算力天花板与数据本地化

长期来看,有两个结构性问题悬在中国 AI 的头顶:

第一是算力天花板。

芯片禁令不会消失,美国必然会管得越来越严。DeepSeek 用 H800 训练出了顶级模型,这是一次了不起的工程奇迹,但奇迹不能当战略。就像一支球队赢了一场经典战役,不代表它永远能以少胜多。下一代模型如果需要十万张 H100,而中国只能拿到性能打折的替代品,训练成本优势就会被侵蚀。

不过,现在情况应该好了不少——老黄(黄仁勋)这次来国内拜访一圈,结果好像一张 H200 都没卖出去。

第二是数据本地化压力。

各国对数据主权的限制也在越发收紧,欧盟的 GDPR、印度数据本地化法案、中东的合规要求,都在往同一个方向推。

目前中国 Token 出口依赖的是纯境外 API 调用模式,一旦各国要求数据不能出境,就得在当地建数据中心。可若是在本地建中心,那么土地、电力、运维全部按当地标准来,成本结构就完全变了,也就不那么「便宜」了。

Token 出口的终极形态,可能不是简单的 API 调用,而是中国技术加本地部署——这对商业模式和运营能力,都是更高的要求。


结语

不论如何,还是要感谢美国 AI——感谢他们用真金白银和大喇叭宣传,帮中国找到了电力出口的正确姿势。

OpenAI、Anthropic 把 Token 价格锚定在高位,教育了市场,激活了需求,却让更多企业用不起。中国模型以 1/20 的价格提供 80% 的能力,填补了这块空白。

从卖电到卖 Token,中国完成了从体力活到脑力活的跃迁——不需要密集劳动、不需要污染环境、不需要物理电网,不受地缘政治的电力主权约束,价格也不再被大宗商品市场锚定,这是一条真正意义上可以规模化的新路。

美国负责把 Token 价格炒上去,中国负责把 Token 价格打下来。

「西数东算」的博弈,才刚刚开始。