果然财经|从无限算力到Token末日，大模型涨价潮来了

果然财经 | 2026-06-15 14:51:53 原创

魏银科来源：齐鲁晚报·齐鲁壹点客户端

微信扫码扫码下载客户端

近日，字节跳动旗下AI产品豆包推出付费订阅方案，在中文互联网引发广泛热议。标准版68元/月、加强版200元/月、专业版500元/月的三档定价，表面上引发了普通用户“收费就卸载”的直观情绪，本质上却是AI行业“补贴换增长”时代彻底走向终结的标志性信号。

而如果把镜头从C端拉到B端，从应用层沉到基础设施层，你会发现这并非一家公司的商业选择。一条贯穿GPU芯片、HBM内存、数据中心电力、API调用的完整成本传导链路已然成型，正在强硬改写AI产业延续数年的粗放式增长规则。

一千倍增长之后，“烧不动Token了”

据火山引擎公开数据，截至2026年3月，豆包大模型日均Token使用量已突破120万亿级别。而在2024年5月模型首发时，这一数值仅为1000多亿，两年时间暴涨1000倍，算力消耗增速堪称指数级爆发。

海量Token调用背后，是成本巨大的算力开支。按照每百万Token2至4元的输入成本测算，字节跳动每日仅GPU机房算力消耗就高达数亿元，年度算力采购开支保守突破300亿元。财报压力进一步加剧了商业化刚需：字节2025年净利润同比下滑超70%，主要原因在于2025年三、四季度大幅增加AI算力采购、模型研发与基础设施投入。高昂的资本开支已难以通过原有的补贴模式维系，这也直接促使豆包等核心产品加速向付费订阅转型，试图在“烧钱”与“造血”之间寻找新的平衡点。

“传统互联网的边际成本趋近于零，但大模型时代的边际成本恒定不变，甚至会随着上下文长度增加持续递增。”这一业内共识，彻底推翻了互联网行业的增长逻辑。AI成本攀升的核心症结，不止是用户规模的扩张，更是使用模式的迭代：当AI从简单的一问一答对话工具，升级为可自主完成数十轮调用的智能体（Agent），单次复杂任务的Token消耗，是普通聊天场景的数十倍甚至上百倍。

在此背景下，曾被全行业奉为增长金科玉律的“Token最大化（Token-maxxing）”，仅用半年时间就彻底变味，从企业数字化增长口号，沦为需要严格管控的财务风险，业界将这一行业剧变定义为“Token末日（Tokenpocalypse）”。

从模型API到硬件算力的全面通胀

豆包的定价调整，只是行业涨价潮的冰山一角。近半年来，全球AI赛道调价节奏大幅提速，甚至以“周”为单位刷新，全产业链成本通胀态势愈演愈烈。

在国内模型赛道，涨价潮全面铺开：OpenAI GPT-5.5输入定价达5美元/百万Token、输出30美元/百万Token，较上一代产品价格翻倍；智谱GLM系列API历经三轮提价，累计涨幅超60%，涨价后调用量逆势暴涨400%，年化API收入12个月内飙升60倍至17亿元；Kimi将API输入价格涨幅推至58%，腾讯云混元系列部分模型涨价幅度更是高达463%，阿里云、百度智能云等主流厂商的AI算力产品也普遍上调5%-50%。

海外市场同样如此。谷歌云AI计算实例提价20%-50%，亚马逊AWS训练实例涨价15%。算力租赁成本更是一路飙升，英伟达H100芯片小时租赁价格从2025年10月的1.7美元涨至2026年3月的2.35美元，涨幅近40%；更先进的B200芯片租赁费用直接翻倍，逼近6美元/小时。

硬件端的供需失衡，是AI成本持续走高的深层地基。全球95%以上的高端内存产能被三星、SK海力士、美光三家企业垄断，芯片与内存扩产周期长达24至36个月，产能短期难以释放。2025年下半年至今，HBM高端内存价格涨幅超50%，普通DDR5服务器内存半年暴涨300%，单条256G内存售价突破4万元。一台8卡英伟达B300服务器，报价从不足400万元飙升至700万元，现货依旧供不应求。

Epoch AI的测算数据直指行业核心矛盾：全球顶级Blackwell芯片算力年均增速仅3.4倍，但全球AI Token需求年均增速高达10倍，算力供给与需求的差距正在持续拉大，成本上涨的长期压力已然固化。

成本失控倒逼行业限额管控

疯狂增长的Token账单，已经让一众全球巨头的AI预算濒临枯竭，倒逼企业从“无限制试用”转向“限额化管控”。

出行巨头Uber的困境极具代表性，其为2026年预留的34亿美元AI预算，仅4月份一个月就彻底耗尽。核心原因在于，公司向5000名工程师开放Claude Code编码助手后，工具月活使用率飙升至85%-95%，人均每月API消耗成本高达500至2000美元。为遏制成本失控，Uber管理层紧急出台管控政策，将员工单人每月AI工具消费上限严控为1500美元。

微软也面临同样的成本难题，其内部全员开放的Claude Code集体许可，上线仅六个月就因Token账单超预期严重，被迫叫停，要求工程师退回使用成本更低的GitHub Copilot CLI。不仅如此，微软自2026年6月1日起，对GitHub Copilot全面重构定价体系，切换为精准的按Token计费模式，不同模型的单Token成本差距最高达60倍。有用户测算，原本每月39美元的Copilot Pro+套餐，在新计费规则下，单月账单或将暴涨至800美元以上。

这就是“Token末日”的真正内核：AI行业不再有模糊的打包低价、无感知的免费补贴，每一次调用、每一段生成、每一轮推理，都有清晰、精准、可量化的成本价格，所有企业和个人用户都必须直面AI使用的真实成本。

DeepSeek们引发的“K型分化”

全行业涨价并非唯一市场主线。在头部厂商集体提价的同时，AI模型市场正在告别“大一统定价”幻想，走出清晰的K型分化格局。

一侧是以DeepSeek为代表的普惠模型阵营。这类玩家依托MoE混合专家架构等技术优化，大幅压缩单位Token计算成本，再通过规模化部署进一步摊薄边际成本，主打“高质低价”。2026年5月底，DeepSeek将旗舰模型V4-Pro的API价格永久下调至2.5折，输入价格更是降至首发价的十分之一，创下全球大模型价格新低。此类模型完美适配内容改写、文本摘要、批量数据处理等常规场景，多家美国初创企业将业务负载迁移至国产开源低价模型后，场景算力成本降幅达95%，且生成质量对标高价模型，性价比优势极致凸显。

另一侧是以OpenAI GPT、Claude Opus、智谱GLM为代表的高端模型阵营。这类模型深耕复杂逻辑推理、长链路自主任务、高稳定性落地场景，筑牢技术壁垒，坚持溢价定价策略。对金融分析、高端科研、精密研发等专业领域的客户而言，模型单价并非核心考量，能否全天候自主完成高精度复杂任务、保障结果可靠性，才是核心需求。这也让高价高端模型在专业场景中拥有不可替代的市场地位。

业内开发者直言，当下市场的筛选逻辑已然清晰：廉价但高质的模型会凭借性价比抢占市场，廉价但劣质的模型终将被淘汰。在这场成本博弈中，行业正在用真实订单投票，筛选出真正具备可持续算力供给能力的玩家。

算力成本将重塑一切

全行业严控Token账单的背后，是AI产业底层逻辑的彻底颠覆。不同于传统互联网“用户越多、边际成本越低”的递减模式，大模型的成本具备刚性递增属性：新增用户、更长的对话上下文、Agent多轮自主调用，都会线性甚至超线性消耗GPU算力与HBM带宽。而芯片、内存的长周期扩产特性，决定了算力供给弹性长期受限，供需失衡成为行业常态。

至此，一条完整的AI成本传导链彻底闭环：HBM内存涨价→GPU服务器涨价→算力租赁成本攀升→云厂商服务提价→模型API定价上调→终端应用开启付费、限额模式。

行业人士表示，成本刚性上涨会在一定程度上抑制粗放式AI滥用，降温行业盲目狂热，但不会逆转AI替代的长期趋势。传统人工主导的低效工作流程，正在被AI24小时不间断的自主作业替代，AI工具的渗透广度与使用深度只会持续提升，Token需求与算力消耗的长期增长确定性无法撼动。

这也意味着，AI行业彻底告别了烧钱换规模、补贴换用户的野蛮生长时代。未来的行业竞争，不再是单纯的规模竞赛，而是成本控制、技术壁垒、场景适配、盈利效率的综合比拼，精细化、商业化、可持续化，将成为AI产业下一阶段的核心主旋律。

大众新闻·齐鲁壹点魏银科

责任编辑：魏银科