“自助餐”终结！算力经济学在Agent时代彻底改写：大锅饭吃完了，以后按Token精打细算 [复制链接]

amtpc_hm52D6fm · 发表于 6 天前

一场没有硝烟的算力战争，从封杀“龙虾”开始打响。

4月4日，不少开发者一觉醒来，发现自己依赖已久的Claude+OpenClaw工作流彻底瘫痪了。Anthropic一声令下，第三方工具再也不能通过Claude Pro/Max订阅搭便车了。

说白了，就是一个200美元的Claude Max订阅，硬生生被开发者用出了5000美元的算力价值。这种玩法让Anthropic忍无可忍，决定关门打狗。

国内AI圈也迅速跟进。3月以来，智谱、阿里、腾讯的Coding Plan陆续涨价，幅度30%起步，有些甚至翻倍。4月8日，智谱年内第三次提价，Coding场景价格已逼近Claude Sonnet 4.6的水平。

紧接着，小米罗福莉4月6日一纸长文，点破了这场算力变局的深层逻辑。

算力这块蛋糕，不能再靠“大锅饭”混下去了。

一、订阅制这把“旧尺子”，量不住Agent时代的天量消耗

AI订阅制这套模式，脱胎于SaaS时代的成熟逻辑。无论是Netflix还是Office 365，原理都一样：用大多数人的闲置来补贴少数重度用户，盈亏平衡点在模糊中达成平衡。

可到了Agent时代，这把算盘彻底打不响了。

传统Chatbot模式下，人的输入速度和阅读速度天然给token消耗上了锁。再能聊的人，一小时能打多少字？一个会话能消耗多少token？上限清晰可见。

但Agent完全打破了这套逻辑。一个像OpenClaw这样的编程代理，一旦启动，就开启了7×24小时的全自动运转模式——感知环境、工具调用、反复试错、持续迭代，每一步背后都是巨大的token洪流。

小米MiMo负责人罗福莉在推文中直接点出了问题的核心：在当前的算力成本下，低廉的token价格、高强度使用频率和第三方代理的完全开放，这三件事不可能同时成立。

她观察到，一个OpenClaw的用户请求里，往往藏着好几轮低价值工具调用，每次请求携带超过10万token的上下文窗口。按API定价折算，真实成本是订阅价格的几十倍，甚至上百倍。她管这叫“坑”，不是“差距”。

用更形象的说法，订阅制就像健身房的会员卡。过去人们只是偶尔去练一个小时，但现在Agent用户直接领着一群无底洞大胃王去吃自助餐，吃到老板直接掀桌子。Anthropic不是不想做慈善，而是真的扛不住了。

二、三大计费模式的迭代，从“大锅饭”到“分灶吃饭”

当算力从“廉价公共品”退回到“稀缺能源”，计费逻辑的演变就成了必然。目前市面上的模式可以归为三类，各有各的账本。

①API按量：一清二白的工业级“电表”

API是最透明、也是最让人焦虑的计费方式。每问一次“你是谁”，账户就跳一次表。

透明度没得说，公平性也没得说，但价格足以让普通人望而却步。按Claude API输入5美元/百万token、输出25美元/百万token的标准，一个重度编程Agent跑几个小时，token消耗价值可能轻松超过一百美元。

这种定价完全合理，但也带来了严重的“算力焦虑”——用户每一笔调用都心疼，很多本应尝试的探索被扼杀在摇篮里。

②Coding Plan：模糊规则的“自助餐”

Coding Plan是为了解决付费门槛而诞生的妥协产品。用“每5小时1200次请求”这类模糊规则，把算力包装成包月服务。

在Coding Agent出现初期，它确实做了一件事：让开发者养成了付费习惯。程序员们不再频繁地在网页和开发环境之间复制粘贴，而是让AI直接在IDE里帮忙写代码、调试、修复bug。

但这个模式的缺陷很快暴露——不透明。1200次“请求”，不是用户提问的次数，而是模型调用的次数。你的一次提问可能触发几十次模型调用。一个复杂任务下来，次数被消耗了多少，根本说不清楚。

更糟糕的是，厂商为了控制成本，压力大了就偷偷降级模型能力。开发者很快发现，高强度工作时AI突然变笨，或者直接被限流。这种体验断裂感，是Coding Plan走向终局的根本原因。

③Token Plan：算力流量包时代正式开启

4月3日，小米推出MiMo Token Plan，四档套餐39元到659元，按Credit点数统一计费。同一天晚上，腾讯也跟进了类似方案。

Token Plan不再用虚无缥缈的“请求次数”糊弄用户，而是像手机流量包一样，明确告诉你套餐里有多少Token可用。超了就停、就买、就降速——账算得明明白白。

罗福莉在推文中坦言，这种模式才是真正符合经济规律的解法。算力是生产资料，产出价值取决于生产力。Token Plan把成本量化到可预测的单位，然后把“提效”的压力交还给开发者自己。

当然，这套模式的另一个潜台词是：Token正在变得更贵。小米的定价被不少开发者吐槽“不够亲民”，但市场似乎正在接受这个现实——毕竟，Coding Plan已经卖到断货了。

三、算力浪费的根源：Agent框架在“放火烧山”

问题还不止于计费。更深层的症结在于，当前的Agent框架在技术上存在大量低效浪费。

SGLang核心贡献者赵晨阳在4月6日的分析文章中，一针见血地指出了问题——缓存命中率惨不忍睹。

为了让Agent在复杂任务中不“失忆”，开发者往往采用一种最简单的方案：每一轮对话都把全量上下文重新发一遍。到了上下文窗口快满的时候，再粗暴地压缩一次。

这种做法在工程上最省事，但它彻底废掉了推理引擎精心设计的缓存机制。赵晨阳管这叫 “用消防水龙头浇花” ——硬件工程师拼命扩大HBM容量，推理引擎工程师拼命优化KV Cache内存布局，结果被上层框架用一顿笨拙的请求全部浪费掉。

罗福莉说得更直白：目前的第三方Agent框架在上下文管理上表现得极其 “懒惰” 。一个任务跑下来，大量的算力消耗在重复计算和无意义的工具调用上，而不是真正在解决问题。

她引用了一项研究数据：在多轮工具调用的智能体场景中，同一个任务的计算消耗可能相差658倍。一条看似类似的任务，有的几千个计算单元就搞定，有的被拉到几万甚至更高。

这就是为什么算力需求在暴涨，但实际产出价值并没有同步提升。大量算力被低效消耗掉了，不是在“干活”，而是在“空转”。

四、“算力精算”时代来了：谁聪明，谁出局

算力的免费午餐，正在全面退场。

2026年3月，腾讯云混元模型涨价463%，阿里云算力卡涨价5%-34%，百度云涨价5%-30%。智谱两个月内涨价两次，幅度30%起。

这背后是全球算力供需的结构性失衡。国内受芯片出口限制影响，算力是存量资源，必须精打细算；国外受电力基建制约，算力是有上限的增量资源。

罗福莉在推文的最后抛出一句话，值得所有人记住： “痛苦最终会转化为工程纪律。”

当Token变贵到不能挥霍的程度，开发者才真正有动力去思考——如何用更少的Token，完成更多的任务。

算力经济的变局已经到来，它迟早会影响到每一个AI用户。

未来的AI用户将面临一个硬选择：要么有钱买高价值Token，要么懂得算力预算管理。你必须判断什么任务该调用什么水平的模型，如何设计更聪明的提示词架构，如何让模型在更短的上下文里给出答案。

低效的用户会靠暴力堆砌token来解决问题，在频繁改错和吵架中耗尽额度，最终和不会用AI的人没有两样。

高效的用户会学会用更聪明的调度方式，把每一分算力都花在刀刃上，让产出价值远远超过消耗成本。

罗福莉的结论是：“Agent时代不属于烧算力最凶猛的人，而属于利用算力最聪明的人。”

提高生产力的关键，不是规定员工每月必须用掉多少Token这种滑稽的KPI，而是把单位算力的智商产出比提升一个数量级。

至于通用人工智能？在现有的底层模型能力和Agent算法框架水平下，那还只是一个春秋大梦。

当AI的使用成本从“几乎为零”变成“精确到小数点后”，你还会像以前那样毫无顾忌地问AI问题吗？

你觉得自己每个月愿意为AI花多少钱？

版权声明

“特别声明：以上作品内容(包括在内的视频、图片或音频)为用户上传并发布，本平台仅提供信息存储空间服务。 Notice: The content above (including the videos, pictures and audios if any) is uploaded and posted by the user , the platform merely provides information storage space services.”

本文地址: https://www.amtbbs.org/thread-18134-1-1.html

“自助餐”终结！算力经济学在Agent时代彻底改写：大锅饭吃完了，以后按Token精打细算 [复制链接]

版权声明

主题推荐

浏览过的版块

AI大模型