果然财经|从无限算力到Token末日,大模型涨价潮来了

果然财经 |  2026-06-15 14:51:53 原创

魏银科来源:齐鲁晚报·齐鲁壹点客户端

微信扫码扫码下载客户端

近日,字节跳动旗下AI产品豆包推出付费订阅方案,在中文互联网引发广泛热议。标准版68元/月、加强版200元/月、专业版500元/月的三档定价,表面上引发了普通用户“收费就卸载”的直观情绪,本质上却是AI行业“补贴换增长”时代彻底走向终结的标志性信号。

而如果把镜头从C端拉到B端,从应用层沉到基础设施层,你会发现这并非一家公司的商业选择。一条贯穿GPU芯片、HBM内存、数据中心电力、API调用的完整成本传导链路已然成型,正在强硬改写AI产业延续数年的粗放式增长规则。

一千倍增长之后,“烧不动Token了”

据火山引擎公开数据,截至2026年3月,豆包大模型日均Token使用量已突破120万亿级别。而在2024年5月模型首发时,这一数值仅为1000多亿,两年时间暴涨1000倍,算力消耗增速堪称指数级爆发。

海量Token调用背后,是成本巨大的算力开支。按照每百万Token2至4元的输入成本测算,字节跳动每日仅GPU机房算力消耗就高达数亿元,年度算力采购开支保守突破300亿元。财报压力进一步加剧了商业化刚需:字节2025年净利润同比下滑超70%,主要原因在于2025年三、四季度大幅增加AI算力采购、模型研发与基础设施投入。高昂的资本开支已难以通过原有的补贴模式维系,这也直接促使豆包等核心产品加速向付费订阅转型,试图在“烧钱”与“造血”之间寻找新的平衡点。

“传统互联网的边际成本趋近于零,但大模型时代的边际成本恒定不变,甚至会随着上下文长度增加持续递增。”这一业内共识,彻底推翻了互联网行业的增长逻辑。AI成本攀升的核心症结,不止是用户规模的扩张,更是使用模式的迭代:当AI从简单的一问一答对话工具,升级为可自主完成数十轮调用的智能体(Agent),单次复杂任务的Token消耗,是普通聊天场景的数十倍甚至上百倍。

在此背景下,曾被全行业奉为增长金科玉律的“Token最大化(Token-maxxing)”,仅用半年时间就彻底变味,从企业数字化增长口号,沦为需要严格管控的财务风险,业界将这一行业剧变定义为“Token末日(Tokenpocalypse)”。

从模型API到硬件算力的全面通胀

豆包的定价调整,只是行业涨价潮的冰山一角。近半年来,全球AI赛道调价节奏大幅提速,甚至以“周”为单位刷新,全产业链成本通胀态势愈演愈烈。

在国内模型赛道,涨价潮全面铺开:OpenAI GPT-5.5输入定价达5美元/百万Token、输出30美元/百万Token,较上一代产品价格翻倍;智谱GLM系列API历经三轮提价,累计涨幅超60%,涨价后调用量逆势暴涨400%,年化API收入12个月内飙升60倍至17亿元;Kimi将API输入价格涨幅推至58%,腾讯云混元系列部分模型涨价幅度更是高达463%,阿里云、百度智能云等主流厂商的AI算力产品也普遍上调5%-50%。

海外市场同样如此。谷歌云AI计算实例提价20%-50%,亚马逊AWS训练实例涨价15%。算力租赁成本更是一路飙升,英伟达H100芯片小时租赁价格从2025年10月的1.7美元涨至2026年3月的2.35美元,涨幅近40%;更先进的B200芯片租赁费用直接翻倍,逼近6美元/小时。

硬件端的供需失衡,是AI成本持续走高的深层地基。全球95%以上的高端内存产能被三星、SK海力士、美光三家企业垄断,芯片与内存扩产周期长达24至36个月,产能短期难以释放。2025年下半年至今,HBM高端内存价格涨幅超50%,普通DDR5服务器内存半年暴涨300%,单条256G内存售价突破4万元。一台8卡英伟达B300服务器,报价从不足400万元飙升至700万元,现货依旧供不应求。

Epoch AI的测算数据直指行业核心矛盾:全球顶级Blackwell芯片算力年均增速仅3.4倍,但全球AI Token需求年均增速高达10倍,算力供给与需求的差距正在持续拉大,成本上涨的长期压力已然固化。

成本失控倒逼行业限额管控

疯狂增长的Token账单,已经让一众全球巨头的AI预算濒临枯竭,倒逼企业从“无限制试用”转向“限额化管控”。

出行巨头Uber的困境极具代表性,其为2026年预留的34亿美元AI预算,仅4月份一个月就彻底耗尽。核心原因在于,公司向5000名工程师开放Claude Code编码助手后,工具月活使用率飙升至85%-95%,人均每月API消耗成本高达500至2000美元。为遏制成本失控,Uber管理层紧急出台管控政策,将员工单人每月AI工具消费上限严控为1500美元。

微软也面临同样的成本难题,其内部全员开放的Claude Code集体许可,上线仅六个月就因Token账单超预期严重,被迫叫停,要求工程师退回使用成本更低的GitHub Copilot CLI。不仅如此,微软自2026年6月1日起,对GitHub Copilot全面重构定价体系,切换为精准的按Token计费模式,不同模型的单Token成本差距最高达60倍。有用户测算,原本每月39美元的Copilot Pro+套餐,在新计费规则下,单月账单或将暴涨至800美元以上。

这就是“Token末日”的真正内核:AI行业不再有模糊的打包低价、无感知的免费补贴,每一次调用、每一段生成、每一轮推理,都有清晰、精准、可量化的成本价格,所有企业和个人用户都必须直面AI使用的真实成本。

DeepSeek们引发的K型分化

全行业涨价并非唯一市场主线。在头部厂商集体提价的同时,AI模型市场正在告别“大一统定价”幻想,走出清晰的K型分化格局。

一侧是以DeepSeek为代表的普惠模型阵营。这类玩家依托MoE混合专家架构等技术优化,大幅压缩单位Token计算成本,再通过规模化部署进一步摊薄边际成本,主打“高质低价”。2026年5月底,DeepSeek将旗舰模型V4-Pro的API价格永久下调至2.5折,输入价格更是降至首发价的十分之一,创下全球大模型价格新低。此类模型完美适配内容改写、文本摘要、批量数据处理等常规场景,多家美国初创企业将业务负载迁移至国产开源低价模型后,场景算力成本降幅达95%,且生成质量对标高价模型,性价比优势极致凸显。

另一侧是以OpenAI GPT、Claude Opus、智谱GLM为代表的高端模型阵营这类模型深耕复杂逻辑推理、长链路自主任务、高稳定性落地场景,筑牢技术壁垒,坚持溢价定价策略。对金融分析、高端科研、精密研发等专业领域的客户而言,模型单价并非核心考量,能否全天候自主完成高精度复杂任务、保障结果可靠性,才是核心需求。这也让高价高端模型在专业场景中拥有不可替代的市场地位。

业内开发者直言,当下市场的筛选逻辑已然清晰:廉价但高质的模型会凭借性价比抢占市场,廉价但劣质的模型终将被淘汰。在这场成本博弈中,行业正在用真实订单投票,筛选出真正具备可持续算力供给能力的玩家。

算力成本将重塑一切

全行业严控Token账单的背后,是AI产业底层逻辑的彻底颠覆。不同于传统互联网“用户越多、边际成本越低”的递减模式,大模型的成本具备刚性递增属性:新增用户、更长的对话上下文、Agent多轮自主调用,都会线性甚至超线性消耗GPU算力与HBM带宽。而芯片、内存的长周期扩产特性,决定了算力供给弹性长期受限,供需失衡成为行业常态。

至此,一条完整的AI成本传导链彻底闭环:HBM内存涨价→GPU服务器涨价→算力租赁成本攀升→云厂商服务提价→模型API定价上调→终端应用开启付费、限额模式。

行业人士表示,成本刚性上涨会在一定程度上抑制粗放式AI滥用,降温行业盲目狂热,但不会逆转AI替代的长期趋势。传统人工主导的低效工作流程,正在被AI24小时不间断的自主作业替代,AI工具的渗透广度与使用深度只会持续提升,Token需求与算力消耗的长期增长确定性无法撼动。

这也意味着,AI行业彻底告别了烧钱换规模、补贴换用户的野蛮生长时代。未来的行业竞争,不再是单纯的规模竞赛,而是成本控制、技术壁垒、场景适配、盈利效率的综合比拼,精细化、商业化、可持续化,将成为AI产业下一阶段的核心主旋律。

大众新闻·齐鲁壹点 魏银科

责任编辑:魏银科