Token：智能时代的标准化「集装箱」

1956年，美国商人麦克莱恩发明了集装箱。在集装箱出现之前，货物出口依赖人力散装，一件一件靠叉车、吊机搬运，一艘船要装卸好几天，运输成本中有一半是装卸费。集装箱的出现彻底改变了这一局面——任何货物只要装进箱子，就能被任何港口的吊车装卸、被任何货轮运输、被任何买家接收。

这个简单的发明带来了非凡的效益：它让全球贸易的摩擦成本大幅下降。当中国成为「世界工厂」后，中国产能借着集装箱渗透到了全球的每一个角落。

七十年后，一个新的「集装箱」出现了——这就是 Token。

Token 是大语言模型处理文字的最小单位，大致相当于半个中文字。但它的意义不在于这个技术定义，而在于它做到了和集装箱一样的事：把原本难以计量、难以交易的东西——智能服务——装进了一个标准化的容器。

一个问题、一段代码、一篇文章，背后消耗了多少算力，全部可以用 Token 来计量、定价、交易。就像集装箱让任何货物都能被吊车装卸，Token 让任何智能服务都能被 API 调用、被计费、被出口。

中国第一次有机会大规模出口脑力，而不是体力、矿产、能源。美国人掀起了这场 AI 浪潮，定义了规则，炒高了价格，却没想到，Token 这门生意的霸主，正在悄悄换人。

什么是 Token？

Token，翻译过来叫词元，是大语言模型处理文本的最小单位。

「我喜欢吃苹果」，对人类来说是一个完整的句子。对 AI 来说，它是「我」「喜欢」「吃」「苹果」四个 Token。英文更复杂，「ChatGPT」会被拆成「Chat」「G」「PT」三个 Token。

这种拆分看起来琐碎，但它让智能服务第一次变得可以量化、可以被公平地计算。就像集装箱一般，Token 让任何智能服务都能被计量、被交易、被出口。

一个印度的创业者打开电脑，调用 DeepSeek 的 API，让它帮忙写一段 Python 代码。他等了不到一秒，代码出现了。他付了几分钱，关上电脑。

这个动作很简单，但背后发生的事情却改写了游戏规则：他的请求通过光纤传到了中国某个数据中心，数百块 GPU 同时启动，开始逐字生成那段代码。每生成一个字，就要消耗若干 Token，而每个 Token 背后却是真实的电力消耗。甘肃的风电、青海的光伏、云南的水电，在这一刻以 Token 的形式打包跨越国境，变成印度程序员眼前的一行代码。

中印之间没有特高压输电线路，但中国的电力却实实在在被国外消费了。

这就是 Token 出口的本质：数据中心烧电，GPU 运算，产出 Token，卖给全球用户。电力和算力被隐形地打包进每一个 Token，随着 API 调用流向世界各地。买家买到的是智能服务，但他们实际上消费的，是中国的电力、算力和工程师的智识积累。

这个机制有一个关键特性：它不需要买家在地理上靠近中国，不需要铺设任何物理管道，只需要一根网线。 这是传统电力出口永远做不到的事。

中国电力的「老问题」与「新解法」

中国电力之强大，天下人所共知。2025年，中国光伏装机突破 3.15 亿千瓦，占全国新增发电装机的 57%。但装机越快，消纳越难。全国新能源消纳监测预警中心的数据显示：2025 年上半年，全国光伏弃电率升至 6.6%，风电弃电率 5.7%，比 2024 年同期几乎翻倍。

西部省份的困境尤其严重：

2025 年 1 至 11 月，西藏光伏发电利用率仅 65.8%
甘肃 89.6%
青海 83.5%
西藏风电利用率更只有 69.3%

大量可再生能源发出来，却没有地方消纳，白白浪费。其实浪费了都算好的，带来的电网波动才是真的棘手。面对这些过剩的电，最直觉的想法是：**直接出口出去不就行了？**答案是：没那么简单。

电不能装箱，不能储存，只能靠实体电网点对点输送。中国西部弃风弃光最严重的地方——西藏、甘肃、内蒙古——偏偏与电网基础设施最薄弱的国家接壤。放眼中国周围，基本上没几个国家拥有全国性的靠谱电网。云南通过 21 条输电线路与越南、缅甸、老挝联网，「十三五」期间累计跨境交易电量 176 亿千瓦时——相比中国每年数万亿千瓦时的总发电量，这个数字几乎可以忽略不计。

再说了，穷国也是有主权的，没有人愿意让本国电力依赖邻国供应。一度电出口也就五毛钱左右，扣除损耗和交易成本，根本赚不到几个钱。

因此，传统电力出口的天花板清晰可见，而且几乎无解。

但是，如果我们能把电力换个皮，那情况就好办得多了。

这就是 Token 的出口——不需要物理电网，不受电力主权约束，价格不被大宗商品市场锚定。这是一条真正可以规模化的新路。数据中心对电价敏感、对位置不敏感——光纤可以跨越千山万水。西藏、甘肃、青海的过剩绿电，可以通过数据中心转化为 Token，出口到全球。

Token 出口的市场趋势

这一点，在 ToC 的市场上尤其意义重大。ToC 的意义在于它是最敏感的风向标。

中国个人用户的 AI 使用习惯正在发生结构性转变：从「问答」转向「干活」。编程、写作、长文档处理，每一类场景的 Token 消耗都远高于简单对话。加上深度推理模式的普及，单个用户单次调用的 Token 量在快速膨胀——业界把这个现象称为「Token 通胀」。

数字印证了这个趋势：

2024 年初，中国日均 Token 消耗量为 1000 亿
2025 年 6 月底已突破 30 万亿
一年半时间增长了 300 倍
2025 年上半年，中国公有云大模型调用总量达到 537 万亿 Token
较 2024 年全年增长近 400%

这个增速，远超任何一个传统行业的成长曲线。土壤已经肥沃，种子正在发芽。

中国的澎湃电力，正在套上 Token 外皮，被国内外市场无形却又疯狂购买。

Token 出口：一门暴利生意

其实，「电力换皮出口」这事儿，中国早有先例。

中国是全球最大的电解铝生产国，但铝土矿本身大量依赖进口——几内亚、澳大利亚、印度尼西亚的矿石，漂洋过海运到中国，在西南、西北的电解铝工厂里经过高耗电的冶炼工序，变成铝锭，再出口到全球。矿石是进口的，铝锭是出口的，而最耗电的那个环节留在了国内。

也就是说，中国出口的铝锭里，有相当一部分是电力在换皮出售。只是这种方式增值倍数不高，一度电变成铝锭，大约只能增值 2 到 3 倍。

产品	每吨耗电	每吨价格	1度电增值倍数
电解铝	~13,500度	~2万元	3-5倍
多晶硅	~57,000度	~4万元	2倍（过剩时期）

但是，如果把电力换皮成 Token 卖出去，那情况可就完全不同了。

GPU 在推理场景下，每 Token 约消耗 0.39 焦耳，一度电则是 360 万焦耳，理论上可产出约 920 万 Token。考虑到散热、网络、冗余等损耗，保守估算 一度电实际产出约 550 万 Token。

Token 卖多少钱？

DeepSeek 输出定价：每百万 Token 约 2 元
OpenAI 的 GPT-4o 定价：每百万 Token 约 70 元

出口形式	1度电产出	售价	增值倍数
直接卖电	-	~0.5元	1倍
炼成铝锭	~73克	~1.5元	3倍
跑 AI 推理	~550万Token	~11元 (DeepSeek)	22倍

一度电直接出口卖 0.5 元，炼成铝锭卖 1.5 元，而喂给数据中心跑推理，按 DeepSeek 的定价能卖出约 11 元，是直接卖电的 22 倍。

更重要的是，铝锭和多晶硅的工艺早已固定，早就碰到天花板了，但 AI 还年轻。

Token，是中国迄今为止电力增值效率最高的出口形态。

甚至，这看似暴利的「22倍」系数，还是中国厂商竞争过于激烈、主动压价的结果，不是能力天花板。

DeepSeek 在打市场、抢份额，定价是战略选择。DeepSeek-V3 的训练成本仅约 3900 万元，用的是 H800 芯片——国产模型的真实成本比这个定价还要低得多。即使把价格压到 OpenAI 的 1/20，中国模型依然有利润空间。 这就是便宜背后的底气。

为什么中国只能卖 22 倍，美国能卖 785 倍？

说完了中国这边的账，再看看美国那边的账。

如果说中国 Token 出口是暴利，那么美国 Token 的出口则堪称是「无本万利」。

DeepSeek 用一度电转化出的 Token 可以卖 11 元
如果换成 OpenAI 的定价，同样能卖约 385 元
增值倍数来到了恐怖的 「785 倍」

22 倍和 785 倍之间，差着一个数量级。

为什么中国模型的定价只有美国模型的 1/20 到 1/30？

1. 品牌溢价缺失

这就好比同样是矿泉水，农夫山泉卖 2 块，依云卖 30 块——不是因为依云的水分子更高级，而是因为它卖的是阿尔卑斯山泉这个故事。

OpenAI 也是同样的道理——它卖的不只是 Token，卖的是「全球最强 AI」这个认知。这个认知本身值钱，而且能让人愿意为之多付钱。

Claude Sonnet 输出定价每百万 Token 约 105 元，MiniMax M2.5 只要约 8 元，相差 13 倍。用户愿意为 Claude 买单，不只是因为 Claude 测试结果优异，还因为他们相信 Claude 确实更好。

你怎么样是一回事，领导怎么看你，是另外一回事。

中国模型厂商目前还处于「农夫山泉」的阶段，价格透明、童叟无欺，但品牌故事还没讲出来。

2. 模型能力的差距

DeepSeek 在数学、编程的基准测试上已经追平甚至超越 OpenAI，但基准测试是考场，生产环境是战场。

在实际的企业应用里，稳定性、指令遵循的精确度、边缘情况的处理才是核心。实际的能力差距直接影响定价天花板——你能解决别人解决不了的问题，才有资格开更高的价。

中国模型目前还在追赶高端场景，这个差距缩小一分，定价空间就能打开一分。

3. 生态和信任的缺失

企业客户选 AI 供应商，就像选银行——不只看利率，还要看这家银行会不会突然倒闭、出了问题有没有人接电话。

OpenAI 和微软 Azure 背后有完整的企业服务体系——SLA 保障、合规支持、技术文档、售后响应，这套东西是多年积累下来的信任背书。中国模型在工程能力上完全不输，但这套售后体系还在建设中。

毕竟，欧美在 SaaS 这块可是玩了几十年的，熟练程度和我们在珠三角找五金厂一个感觉。

4. 地缘政治折扣

简单说就是，很多客户想用但不敢用，或者用了也要压价，因为心里有顾虑——今天能调的 API，明天会不会被自己国家的监管叫停？

美国联邦机构禁用 DeepSeek，德国要求下架，这些新闻每出一条，都会让潜在客户的决策再迟疑一下。迟疑折算成价格，就是折扣。

四个原因叠加，形成了一种结构性的定价压制。

22 倍是现在的成绩，不是终点。但从 22 倍走向更高，靠的不是更猛的降价，而是品牌、能力、生态、信任一点一点地积累。

面临的挑战

短期障碍：价格战与封禁

短期内，最明显的障碍有两个：

一是西方封禁。 欧美对中国高科技的打压始终没停过——今天一个法案，明天一个禁令，早就虱子多了不嫌咬了。

但说实话，这些封禁更像是在门口立了个牌子，而不是真的堵死了路。

中国 Token 出口的主战场从来不是西方发达国家，而是印度、东南亚、拉美、中东——也就是全球南方。DeepSeek 在印度、东南亚的扩张没有受到太大影响。封禁反而帮中国模型做了广告：被美国封杀的产品，一定有点东西。

二是国内价格战。

2024 年，字节豆包报价低到每千 Token 不到 0.006 元，阿里通义千问 GPT-4 级主力模型降价 97%，智谱把上一代 GLM-4-Plus 砍了 90%。这场价格战打得像菜市场收摊前甩卖，赢得了用户，却亏掉了利润，压缩了再投资能力。

好在 2025 年情况开始逆转：智谱 GLM-5 发布当天宣布涨价 30%，Kimi K2.5 发布不到一个月，海外收入首次超过国内。涨价能成功，说明需求是真实的，市场在成熟。 但价格战留下的诸多后遗症却需要时间消化。

长期挑战：算力天花板与数据本地化

长期来看，有两个结构性问题悬在中国 AI 的头顶：

第一是算力天花板。

芯片禁令不会消失，美国必然会管得越来越严。DeepSeek 用 H800 训练出了顶级模型，这是一次了不起的工程奇迹，但奇迹不能当战略。就像一支球队赢了一场经典战役，不代表它永远能以少胜多。下一代模型如果需要十万张 H100，而中国只能拿到性能打折的替代品，训练成本优势就会被侵蚀。

不过，现在情况应该好了不少——老黄（黄仁勋）这次来国内拜访一圈，结果好像一张 H200 都没卖出去。

第二是数据本地化压力。

各国对数据主权的限制也在越发收紧，欧盟的 GDPR、印度数据本地化法案、中东的合规要求，都在往同一个方向推。

目前中国 Token 出口依赖的是纯境外 API 调用模式，一旦各国要求数据不能出境，就得在当地建数据中心。可若是在本地建中心，那么土地、电力、运维全部按当地标准来，成本结构就完全变了，也就不那么「便宜」了。

Token 出口的终极形态，可能不是简单的 API 调用，而是中国技术加本地部署——这对商业模式和运营能力，都是更高的要求。

结语

不论如何，还是要感谢美国 AI——感谢他们用真金白银和大喇叭宣传，帮中国找到了电力出口的正确姿势。

OpenAI、Anthropic 把 Token 价格锚定在高位，教育了市场，激活了需求，却让更多企业用不起。中国模型以 1/20 的价格提供 80% 的能力，填补了这块空白。

从卖电到卖 Token，中国完成了从体力活到脑力活的跃迁——不需要密集劳动、不需要污染环境、不需要物理电网，不受地缘政治的电力主权约束，价格也不再被大宗商品市场锚定，这是一条真正意义上可以规模化的新路。

美国负责把 Token 价格炒上去，中国负责把 Token 价格打下来。

「西数东算」的博弈，才刚刚开始。