果然财经|Token调用量再次碾压美国!中国大模型凭什么领跑
果然财经 | 2026-03-16 17:18:25 原创
魏银科来源:齐鲁晚报·齐鲁壹点客户端

全球AI算力版图,正迎来历史性拐点。根据在线AI托管平台OpenRouter发布的最新数据,在刚刚过去的一周(3月9日至3月15日),中国AI大模型的周调用量飙升至4.69万亿Token,环比大涨11.83%;而同期美国大模型调用量则下滑9.33%,降至3.294万亿Token。
这是中国大模型连续第二周在调用量这一核心指标上超越美国。如果说第一周的超越是“偶然突围”,那么第二周的持续扩大优势,则标志着全球AI应用的重心正在发生实质性的“算力东移”。
更亮眼的是,全球调用量前三被中国模型“清场式”霸榜:MiniMax M2.5以1.75万亿Token五连冠,阶跃星辰Step3.5Flash摘得榜眼,DeepSeek V3.2以1.04万亿Token稳居第三;3月11日刚上线的神秘模型Hunter Alpha,更以0.666万亿Token冲进全球第七。Token调用量的此消彼长,不仅是数据更迭,更标志着全球AI产业从“技术炫技”转向“商用落地”,中国大模型正凭借应用渗透与成本优势,重塑全球AI权力格局。
Token调用量飙升:
从“炫技”到“真金白银”的繁荣信号
Token调用量的核心价值,在于它是生产环境的真实工作量,而非实验室的测试数据。OpenRouter平台数据显示,其用户中美国开发者占比高达47.17%,而中国开发者仅占6.01%。这意味着,中国大模型是在由海外开发者主导的“客场”环境中,纯粹凭借产品力赢得了市场认可。
“当前数万亿Token级别的调用量,已不再主要由测试性场景构成,而是由一批高频、规模化、可持续付费的商业应用所支撑。”弗若斯特沙利文(Frost & Sullivan)中国业务主管合伙人兼董事总经理陆景表示。这些调用高度集中在企业级应用(如智能客服、代码开发、办公自动化)、互联网生成式内容服务以及AIGC生产工具三大核心场景,深度覆盖金融、跨境电商、游戏及短视频等行业。这标志着AI已彻底告别“聊天玩具”的标签,正式进化为企业的核心生产工具。
调用量的爆发,直接拉动了国产算力产业链的全面繁荣。从AI芯片、服务器到数据中心、云计算,均迎来了业绩爆发期。摩根大通(J.P. Morgan)预测,中国的AI推理Token消耗量预计将从2025年的约10千万亿增长至2030年的约3900千万亿,五年间增长约370倍。
同时,调用量是检验商业化成色的“温度计”。调用量越高,意味着开发者的付费意愿越强,模型生态越成熟。中国模型凭借“同等效果、更低价格”的极致性价比优势,成功吸引全球中小开发者与创业公司“用脚投票”。这种趋势推动了API调用收入的持续攀升,形成了“技术迭代加速→成本大幅下降→调用量激增→收入反哺研发”的良性商业闭环。
长期以来,中国大模型常被诟病“叫好不叫座”,即技术强劲但商用薄弱。此次连续两周在调用量上超越美国,标志着中国AI产业从“技术可用”跨越至“规模商用”的新阶段。全球AI产业的竞争焦点,也已从单纯的“算力军备竞赛”转向了更为残酷的“应用渗透博弈”。
知名风投机构a16z合伙人Martin Casado在接受《经济学人》采访时讲到他观察到的一个现象:如今在硅谷寻求融资的AI初创公司中,其路演核心模型高达80%使用的是中国的开源模型。这一细节极具象征意义——中国大模型正悄然成为全球开发者的“默认选项”。
当Token调用量成为衡量AI繁荣度的新标尺,这场“算力东移”的趋势已愈发清晰且不可阻挡。
MiniMax M2.5:
为何能连续五周稳坐“铁王座”?
在本次榜单中,最引人注目的莫过于MiniMax M2.5。该模型以单周1.75万亿Token的恐怖数据,连续五周霸占全球冠军宝座,其调用量甚至超过了第二名和第三名的总和。它的霸榜,不是运气,而是技术、成本、场景三重护城河叠加的结果。

技术架构极致高效,精准踩中Agent风口。MiniMax M2.5采用混合MoE架构,实现2300亿参数量与仅100亿激活参数量的平衡,既保障顶级性能,又大幅降低推理成本。其自研原生Agent 强化学习框架Forge,实现文本模型训练加速40倍、显存开销显著降低,在权威编程基准SWE-Bench Verified中斩获80.2%高分,逼近全球顶尖水平。同时,M2.5支持超长上下文推理,适配智能体(Agent)复杂任务,完美契合 OpenClaw 等主流Agent框架,成为企业级智能体应用的首选基座。
成本碾压级优势,撬动全球开发者。其推理阶段Model FLOP利用率超75%,远高于行业40%-50%的平均水平,运行复杂智能体每小时成本仅1美元,是美国同类模型的1/4-1/5。这种成本优势,让中小开发者与创业公司能以极低门槛规模化部署,直接拉动调用量爆发——2026年2月,M2系列日均Token消耗量已是2025年12月的6倍以上,成为 OpenRouter上首个日耗超500亿Token的中国模型。
此外,MiniMax早在两年前就布局了面向消费者的角色扮演(Roleplay)和社交应用。M2.5版本在情感交互和多模态理解上的突破,使其成为全球众多AI伴侣类应用的首选底座。这类应用具有极高的用户活跃度和对话轮数,直接推高了Token消耗量。
在游戏NPC生成、短视频脚本创作等高频场景中,MiniMax同样占据强势地位其模型在保持低成本的同时,展现了极强的指令遵循能力,使得大量中小开发者愿意将其作为默认配置。
Hunter Alpha异军突起:
神秘新贵,押注整个Agent时代
如果说MiniMax是稳扎稳打的王者,那么本周最大的黑马莫过于名为“Hunter Alpha”的神秘模型。

这款于3月11日刚刚上线的模型,仅用4天时间便以0.666万亿Token的战绩暴力冲进全球第七。据OpenRouter资料显示,Hunter Alpha是一款专为智能体(Agent)构建的万亿参数模型,拥有100万Token的超长上下文窗口。
Hunter Alpha为何能一出场就“炸榜”?
首先是赛道踩得极准:只做 Agent,不做通用聊天。官方明确其为“万亿参数Agent专用模型”,核心能力是长期规划、复杂逻辑推理、多步骤任务执行,完美适配OpenClaw等主流Agent框架,解决了传统模型“记不住、理不清、执行差”的痛点。当前AI产业正从“单轮对话”向“多智能体协同”演进,Agent成为最耗Token、最具商业价值的场景,Hunter Alpha精准卡位这一风口,直接对接真实生产需求。
技术参数直接拉满,形成代际优势。Hunter Alpha拥有1万亿参数+ 100万Token超长上下文,是全球少数几款万亿参数级模型之一。100万Token上下文足以一次性处理长篇巨著、数小时音视频转写或海量代码文件,逻辑连贯性超200个交互轮次,让智能体在处理长周期、跨领域任务时保持高度一致。同时,其指令执行精度与可靠性极高,完美匹配Agent框架对“精准执行”的核心要求,成为生产级智能体的“重型引擎”。
Hunter Alpha的策略激进,契合当前AI模型“以调用量换生态”的竞争逻辑,快速引爆流量。无公开厂商标识,仅标注“stealth provider”(隐身提供者),但被行业猜测为DeepSeek等头部厂商的预发布版本。免费测试吸引全球开发者快速尝鲜,短时间内积累海量调用数据,既完成模型优化,又快速打响知名度,实现“冷启动即爆发”。
AI的下半场,不是看谁的模型更“聪明”,而是看谁的模型更“好用”、更“便宜”。从MiniMax的持续领跑,到阶跃星辰Step3.5Flash的极速攀升,再到Hunter Alpha的横空出世,中国大模型正在用实实在在的调用量数据,向世界证明:算力的重心,正在不可逆转地向东转移。
资料参考:每日经济新闻、经济观察报、科创板日报、观察者网等
大众新闻·齐鲁壹点 魏银科
责任编辑:魏银科
