1956年,美国商人麦克莱恩发明了集装箱。在集装箱出现之前,货物出口依赖人力散装,一件一件靠叉车、吊机搬运,一艘船要装卸好几天,运输成本中有一半是装卸费。集装箱的出现彻底改变了这一局面——任何货物只要装进箱子,就能被任何港口的吊车装卸、被任何货轮运输、被任何买家接收。
这个简单的发明带来了非凡的效益:它让全球贸易的摩擦成本大幅下降。当中国成为「世界工厂」后,中国产能借着集装箱渗透到了全球的每一个角落。
七十年后,一个新的「集装箱」出现了——这就是 Token。
Token 是大语言模型处理文字的最小单位,大致相当于半个中文字。但它的意义不在于这个技术定义,而在于它做到了和集装箱一样的事:把原本难以计量、难以交易的东西——智能服务——装进了一个标准化的容器。
一个问题、一段代码、一篇文章,背后消耗了多少算力,全部可以用 Token 来计量、定价、交易。就像集装箱让任何货物都能被吊车装卸,Token 让任何智能服务都能被 API 调用、被计费、被出口。
中国第一次有机会大规模出口脑力,而不是体力、矿产、能源。美国人掀起了这场 AI 浪潮,定义了规则,炒高了价格,却没想到,Token 这门生意的霸主,正在悄悄换人。
什么是 Token?
Token,翻译过来叫词元,是大语言模型处理文本的最小单位。
「我喜欢吃苹果」,对人类来说是一个完整的句子。对 AI 来说,它是「我」「喜欢」「吃」「苹果」四个 Token。英文更复杂,「ChatGPT」会被拆成「Chat」「G」「PT」三个 Token。
这种拆分看起来琐碎,但它让智能服务第一次变得可以量化、可以被公平地计算。就像集装箱一般,Token 让任何智能服务都能被计量、被交易、被出口。
一个印度的创业者打开电脑,调用 DeepSeek 的 API,让它帮忙写一段 Python 代码。他等了不到一秒,代码出现了。他付了几分钱,关上电脑。
这个动作很简单,但背后发生的事情却改写了游戏规则:他的请求通过光纤传到了中国某个数据中心,数百块 GPU 同时启动,开始逐字生成那段代码。每生成一个字,就要消耗若干 Token,而每个 Token 背后却是真实的电力消耗。甘肃的风电、青海的光伏、云南的水电,在这一刻以 Token 的形式打包跨越国境,变成印度程序员眼前的一行代码。
中印之间没有特高压输电线路,但中国的电力却实实在在被国外消费了。
这就是 Token 出口的本质:数据中心烧电,GPU 运算,产出 Token,卖给全球用户。电力和算力被隐形地打包进每一个 Token,随着 API 调用流向世界各地。买家买到的是智能服务,但他们实际上消费的,是中国的电力、算力和工程师的智识积累。
这个机制有一个关键特性:它不需要买家在地理上靠近中国,不需要铺设任何物理管道,只需要一根网线。 这是传统电力出口永远做不到的事。
中国电力的「老问题」与「新解法」
中国电力之强大,天下人所共知。2025年,中国光伏装机突破 3.15 亿千瓦,占全国新增发电装机的 57%。但装机越快,消纳越难。全国新能源消纳监测预警中心的数据显示:2025 年上半年,全国光伏弃电率升至 6.6%,风电弃电率 5.7%,比 2024 年同期几乎翻倍。
西部省份的困境尤其严重:
- 2025 年 1 至 11 月,西藏光伏发电利用率仅 65.8%
- 甘肃 89.6%
- 青海 83.5%
- 西藏风电利用率更只有 69.3%
大量可再生能源发出来,却没有地方消纳,白白浪费。其实浪费了都算好的,带来的电网波动才是真的棘手。面对这些过剩的电,最直觉的想法是:**直接出口出去不就行了?**答案是:没那么简单。
电不能装箱,不能储存,只能靠实体电网点对点输送。中国西部弃风弃光最严重的地方——西藏、甘肃、内蒙古——偏偏与电网基础设施最薄弱的国家接壤。放眼中国周围,基本上没几个国家拥有全国性的靠谱电网。云南通过 21 条输电线路与越南、缅甸、老挝联网,「十三五」期间累计跨境交易电量 176 亿千瓦时——相比中国每年数万亿千瓦时的总发电量,这个数字几乎可以忽略不计。
再说了,穷国也是有主权的,没有人愿意让本国电力依赖邻国供应。一度电出口也就五毛钱左右,扣除损耗和交易成本,根本赚不到几个钱。
因此,传统电力出口的天花板清晰可见,而且几乎无解。
但是,如果我们能把电力换个皮,那情况就好办得多了。
这就是 Token 的出口——不需要物理电网,不受电力主权约束,价格不被大宗商品市场锚定。这是一条真正可以规模化的新路。数据中心对电价敏感、对位置不敏感——光纤可以跨越千山万水。西藏、甘肃、青海的过剩绿电,可以通过数据中心转化为 Token,出口到全球。
Token 出口的市场趋势
这一点,在 ToC 的市场上尤其意义重大。ToC 的意义在于它是最敏感的风向标。
中国个人用户的 AI 使用习惯正在发生结构性转变:从「问答」转向「干活」。编程、写作、长文档处理,每一类场景的 Token 消耗都远高于简单对话。加上深度推理模式的普及,单个用户单次调用的 Token 量在快速膨胀——业界把这个现象称为「Token 通胀」。
数字印证了这个趋势:
2024 年初,中国日均 Token 消耗量为 1000 亿
2025 年 6 月底已突破 30 万亿
一年半时间增长了 300 倍
2025 年上半年,中国公有云大模型调用总量达到 537 万亿 Token
较 2024 年全年增长近 400%
这个增速,远超任何一个传统行业的成长曲线。土壤已经肥沃,种子正在发芽。
中国的澎湃电力,正在套上 Token 外皮,被国内外市场无形却又疯狂购买。
Token 出口: 一门暴利生意
其实,「电力换皮出口」这事儿,中国早有先例。
中国是全球最大的电解铝生产国,但铝土矿本身大量依赖进口——几内亚、澳大利亚、印度尼西亚的矿石,漂洋过海运到中国,在西南、西北的电解铝工厂里经过高耗电的冶炼工序,变成铝锭,再出口到全球。矿石是进口的,铝锭是出口的,而最耗电的那个环节留在了国内。
也就是说,中国出口的铝锭里,有相当一部分是电力在换皮出售。只是这种方式增值倍数不高,一度电变成铝锭,大约只能增值 2 到 3 倍。
| 产品 | 每吨耗电 | 每吨价格 | 1度电增值倍数 |
|---|---|---|---|
| 电解铝 | ~13,500度 | ~2万元 | 3-5倍 |
| 多晶硅 | ~57,000度 | ~4万元 | 2倍(过剩时期) |
但是,如果把电力换皮成 Token 卖出去,那情况可就完全不同了。
GPU 在推理场景下,每 Token 约消耗 0.39 焦耳,一度电则是 360 万焦耳,理论上可产出约 920 万 Token。考虑到散热、网络、冗余等损耗,保守估算 一度电实际产出约 550 万 Token。
Token 卖多少钱?
- DeepSeek 输出定价:每百万 Token 约 2 元
- OpenAI 的 GPT-4o 定价:每百万 Token 约 70 元
| 出口形式 | 1度电产出 | 售价 | 增值倍数 |
|---|---|---|---|
| 直接卖电 | - | ~0.5元 | 1倍 |
| 炼成铝锭 | ~73克 | ~1.5元 | 3倍 |
| 跑 AI 推理 | ~550万Token | ~11元 (DeepSeek) | 22倍 |
一度电直接出口卖 0.5 元,炼成铝锭卖 1.5 元,而喂给数据中心跑推理,按 DeepSeek 的定价能卖出约 11 元,是直接卖电的 22 倍。
更重要的是,铝锭和多晶硅的工艺早已固定,早就碰到天花板了,但 AI 还年轻。
Token,是中国迄今为止电力增值效率最高的出口形态。
甚至,这看似暴利的「22倍」系数,还是中国厂商竞争过于激烈、主动压价的结果,不是能力天花板。
DeepSeek 在打市场、抢份额,定价是战略选择。DeepSeek-V3 的训练成本仅约 3900 万元,用的是 H800 芯片——国产模型的真实成本比这个定价还要低得多。即使把价格压到 OpenAI 的 1/20,中国模型依然有利润空间。 这就是便宜背后的底气。
为什么中国只能卖 22 倍,美国能卖 785 倍?
说完了中国这边的账,再看看美国那边的账。
如果说中国 Token 出口是暴利,那么美国 Token 的出口则堪称是「无本万利」。
- DeepSeek 用一度电转化出的 Token 可以卖 11 元
- 如果换成 OpenAI 的定价,同样能卖约 385 元
- 增值倍数来到了恐怖的 「785 倍」
22 倍和 785 倍之间,差着一个数量级。
为什么中国模型的定价只有美国模型的 1/20 到 1/30?
1. 品牌溢价缺失
这就好比同样是矿泉水,农夫山泉卖 2 块,依云卖 30 块——不是因为依云的水分子更高级,而是因为它卖的是阿尔卑斯山泉这个故事。
OpenAI 也是同样的道理——它卖的不只是 Token,卖的是「全球最强 AI」这个认知。这个认知本身值钱,而且能让人愿意为之多付钱。
Claude Sonnet 输出定价每百万 Token 约 105 元,MiniMax M2.5 只要约 8 元,相差 13 倍。用户愿意为 Claude 买单,不只是因为 Claude 测试结果优异,还因为他们相信 Claude 确实更好。
你怎么样是一回事,领导怎么看你,是另外一回事。
中国模型厂商目前还处于「农夫山泉」的阶段,价格透明、童叟无欺,但品牌故事还没讲出来。
2. 模型能力的差距
DeepSeek 在数学、编程的基准测试上已经追平甚至超越 OpenAI,但基准测试是考场,生产环境是战场。
在实际的企业应用里,稳定性、指令遵循的精确度、边缘情况的处理才是核心。实际的能力差距直接影响定价天花板——你能解决别人解决不了的问题,才有资格开更高的价。
中国模型目前还在追赶高端场景,这个差距缩小一分,定价空间就能打开一分。
3. 生态和信任的缺失
企业客户选 AI 供应商,就像选银行——不只看利率,还要看这家银行会不会突然倒闭、出了问题有没有人接电话。
OpenAI 和微软 Azure 背后有完整的企业服务体系——SLA 保障、合规支持、技术文档、售后响应,这套东西是多年积累下来的信任背书。中国模型在工程能力上完全不输,但这套售后体系还在建设中。
毕竟,欧美在 SaaS 这块可是玩了几十年的,熟练程度和我们在珠三角找五金厂一个感觉。
4. 地缘政治折扣
简单说就是,很多客户想用但不敢用,或者用了也要压价,因为心里有顾虑——今天能调的 API,明天会不会被自己国家的监管叫停?
美国联邦机构禁用 DeepSeek,德国要求下架,这些新闻每出一条,都会让潜在客户的决策再迟疑一下。迟疑折算成价格,就是折扣。
四个原因叠加,形成了一种结构性的定价压制。
22 倍是现在的成绩,不是终点。但从 22 倍走向更高,靠的不是更猛的降价,而是品牌、能力、生态、信任一点一点地积累。
面临的挑战
短期障碍:价格战与封禁
短期内,最明显的障碍有两个:
一是西方封禁。 欧美对中国高科技的打压始终没停过——今天一个法案,明天一个禁令,早就虱子多了不嫌咬了。
但说实话,这些封禁更像是在门口立了个牌子,而不是真的堵死了路。
中国 Token 出口的主战场从来不是西方发达国家,而是印度、东南亚、拉美、中东——也就是全球南方。DeepSeek 在印度、东南亚的扩张没有受到太大影响。封禁反而帮中国模型做了广告:被美国封杀的产品,一定有点东西。
二是国内价格战。
2024 年,字节豆包报价低到每千 Token 不到 0.006 元,阿里通义千问 GPT-4 级主力模型降价 97%,智谱把上一代 GLM-4-Plus 砍了 90%。这场价格战打得像菜市场收摊前甩卖,赢得了用户,却亏掉了利润,压缩了再投资能力。
好在 2025 年情况开始逆转:智谱 GLM-5 发布当天宣布涨价 30%,Kimi K2.5 发布不到一个月,海外收入首次超过国内。涨价能成功,说明需求是真实的,市场在成熟。 但价格战留下的诸多后遗症却需要时间消化。
长期挑战:算力天花板与数据本地化
长期来看,有两个结构性问题悬在中国 AI 的头顶:
第一是算力天花板。
芯片禁令不会消失,美国必然会管得越来越严。DeepSeek 用 H800 训练出了顶级模型,这是一次了不起的工程奇迹,但奇迹不能当战略。就像一支球队赢了一场经典战役,不代表它永远能以少胜多。下一代模型如果需要十万张 H100,而中国只能拿到性能打折的替代品,训练成本优势就会被侵蚀。
不过,现在情况应该好了不少——老黄(黄仁勋)这次来国内拜访一圈,结果好像一张 H200 都没卖出去。
第二是数据本地化压力。
各国对数据主权的限制也在越发收紧,欧盟的 GDPR、印度数据本地化法案、中东的合规要求,都在往同一个方向推。
目前中国 Token 出口依赖的是纯境外 API 调用模式,一旦各国要求数据不能出境,就得在当地建数据中心。可若是在本地建中心,那么土地、电力、运维全部按当地标准来,成本结构就完全变了,也就不那么「便宜」了。
Token 出口的终极形态,可能不是简单的 API 调用,而是中国技术加本地部署——这对商业模式和运营能力,都是更高的要求。
结语
不论如何,还是要感谢美国 AI——感谢他们用真金白银和大喇叭宣传,帮中国找到了电力出口的正确姿势。
OpenAI、Anthropic 把 Token 价格锚定在高位,教育了市场,激活了需求,却让更多企业用不起。中国模型以 1/20 的价格提供 80% 的能力,填补了这块空白。
从卖电到卖 Token,中国完成了从体力活到脑力活的跃迁——不需要密集劳动、不需要污染环境、不需要物理电网,不受地缘政治的电力主权约束,价格也不再被大宗商品市场锚定,这是一条真正意义上可以规模化的新路。
美国负责把 Token 价格炒上去,中国负责把 Token 价格打下来。
「西数东算」的博弈,才刚刚开始。