一场没有硝烟的算力战争,从封杀“龙虾”开始打响。
4月4日,不少开发者一觉醒来,发现自己依赖已久的Claude+OpenClaw工作流彻底瘫痪了。Anthropic一声令下,第三方工具再也不能通过Claude Pro/Max订阅搭便车了。 说白了,就是一个200美元的Claude Max订阅,硬生生被开发者用出了5000美元的算力价值。这种玩法让Anthropic忍无可忍,决定关门打狗。 国内AI圈也迅速跟进。3月以来,智谱、阿里、腾讯的Coding Plan陆续涨价,幅度30%起步,有些甚至翻倍。4月8日,智谱年内第三次提价,Coding场景价格已逼近Claude Sonnet 4.6的水平。 紧接着,小米罗福莉4月6日一纸长文,点破了这场算力变局的深层逻辑。 算力这块蛋糕,不能再靠“大锅饭”混下去了。 一、订阅制这把“旧尺子”,量不住Agent时代的天量消耗AI订阅制这套模式,脱胎于SaaS时代的成熟逻辑。无论是Netflix还是Office 365,原理都一样:用大多数人的闲置来补贴少数重度用户,盈亏平衡点在模糊中达成平衡。 可到了Agent时代,这把算盘彻底打不响了。 传统Chatbot模式下,人的输入速度和阅读速度天然给token消耗上了锁。再能聊的人,一小时能打多少字?一个会话能消耗多少token?上限清晰可见。 但Agent完全打破了这套逻辑。一个像OpenClaw这样的编程代理,一旦启动,就开启了7×24小时的全自动运转模式——感知环境、工具调用、反复试错、持续迭代,每一步背后都是巨大的token洪流。 小米MiMo负责人罗福莉在推文中直接点出了问题的核心:在当前的算力成本下,低廉的token价格、高强度使用频率和第三方代理的完全开放,这三件事不可能同时成立。 她观察到,一个OpenClaw的用户请求里,往往藏着好几轮低价值工具调用,每次请求携带超过10万token的上下文窗口。按API定价折算,真实成本是订阅价格的几十倍,甚至上百倍。她管这叫“坑”,不是“差距”。 用更形象的说法,订阅制就像健身房的会员卡。过去人们只是偶尔去练一个小时,但现在Agent用户直接领着一群无底洞大胃王去吃自助餐,吃到老板直接掀桌子。Anthropic不是不想做慈善,而是真的扛不住了。 二、三大计费模式的迭代,从“大锅饭”到“分灶吃饭”当算力从“廉价公共品”退回到“稀缺能源”,计费逻辑的演变就成了必然。目前市面上的模式可以归为三类,各有各的账本。 ①API按量:一清二白的工业级“电表”API是最透明、也是最让人焦虑的计费方式。每问一次“你是谁”,账户就跳一次表。 透明度没得说,公平性也没得说,但价格足以让普通人望而却步。按Claude API输入5美元/百万token、输出25美元/百万token的标准,一个重度编程Agent跑几个小时,token消耗价值可能轻松超过一百美元。 这种定价完全合理,但也带来了严重的“算力焦虑”——用户每一笔调用都心疼,很多本应尝试的探索被扼杀在摇篮里。 ②Coding Plan:模糊规则的“自助餐”Coding Plan是为了解决付费门槛而诞生的妥协产品。用“每5小时1200次请求”这类模糊规则,把算力包装成包月服务。 在Coding Agent出现初期,它确实做了一件事:让开发者养成了付费习惯。程序员们不再频繁地在网页和开发环境之间复制粘贴,而是让AI直接在IDE里帮忙写代码、调试、修复bug。 但这个模式的缺陷很快暴露——不透明。1200次“请求”,不是用户提问的次数,而是模型调用的次数。你的一次提问可能触发几十次模型调用。一个复杂任务下来,次数被消耗了多少,根本说不清楚。 更糟糕的是,厂商为了控制成本,压力大了就偷偷降级模型能力。开发者很快发现,高强度工作时AI突然变笨,或者直接被限流。这种体验断裂感,是Coding Plan走向终局的根本原因。 ③Token Plan:算力流量包时代正式开启4月3日,小米推出MiMo Token Plan,四档套餐39元到659元,按Credit点数统一计费。同一天晚上,腾讯也跟进了类似方案。 Token Plan不再用虚无缥缈的“请求次数”糊弄用户,而是像手机流量包一样,明确告诉你套餐里有多少Token可用。超了就停、就买、就降速——账算得明明白白。 罗福莉在推文中坦言,这种模式才是真正符合经济规律的解法。算力是生产资料,产出价值取决于生产力。Token Plan把成本量化到可预测的单位,然后把“提效”的压力交还给开发者自己。 当然,这套模式的另一个潜台词是:Token正在变得更贵。小米的定价被不少开发者吐槽“不够亲民”,但市场似乎正在接受这个现实——毕竟,Coding Plan已经卖到断货了。 三、算力浪费的根源:Agent框架在“放火烧山”问题还不止于计费。更深层的症结在于,当前的Agent框架在技术上存在大量低效浪费。 SGLang核心贡献者赵晨阳在4月6日的分析文章中,一针见血地指出了问题——缓存命中率惨不忍睹。 为了让Agent在复杂任务中不“失忆”,开发者往往采用一种最简单的方案:每一轮对话都把全量上下文重新发一遍。到了上下文窗口快满的时候,再粗暴地压缩一次。 这种做法在工程上最省事,但它彻底废掉了推理引擎精心设计的缓存机制。赵晨阳管这叫 “用消防水龙头浇花” ——硬件工程师拼命扩大HBM容量,推理引擎工程师拼命优化KV Cache内存布局,结果被上层框架用一顿笨拙的请求全部浪费掉。 罗福莉说得更直白:目前的第三方Agent框架在上下文管理上表现得极其 “懒惰” 。一个任务跑下来,大量的算力消耗在重复计算和无意义的工具调用上,而不是真正在解决问题。 她引用了一项研究数据:在多轮工具调用的智能体场景中,同一个任务的计算消耗可能相差658倍。一条看似类似的任务,有的几千个计算单元就搞定,有的被拉到几万甚至更高。 这就是为什么算力需求在暴涨,但实际产出价值并没有同步提升。大量算力被低效消耗掉了,不是在“干活”,而是在“空转”。 四、“算力精算”时代来了:谁聪明,谁出局算力的免费午餐,正在全面退场。 2026年3月,腾讯云混元模型涨价463%,阿里云算力卡涨价5%-34%,百度云涨价5%-30%。智谱两个月内涨价两次,幅度30%起。 这背后是全球算力供需的结构性失衡。国内受芯片出口限制影响,算力是存量资源,必须精打细算;国外受电力基建制约,算力是有上限的增量资源。 罗福莉在推文的最后抛出一句话,值得所有人记住: “痛苦最终会转化为工程纪律。” 当Token变贵到不能挥霍的程度,开发者才真正有动力去思考——如何用更少的Token,完成更多的任务。 算力经济的变局已经到来,它迟早会影响到每一个AI用户。 未来的AI用户将面临一个硬选择:要么有钱买高价值Token,要么懂得算力预算管理。你必须判断什么任务该调用什么水平的模型,如何设计更聪明的提示词架构,如何让模型在更短的上下文里给出答案。 低效的用户会靠暴力堆砌token来解决问题,在频繁改错和吵架中耗尽额度,最终和不会用AI的人没有两样。 高效的用户会学会用更聪明的调度方式,把每一分算力都花在刀刃上,让产出价值远远超过消耗成本。 罗福莉的结论是:“Agent时代不属于烧算力最凶猛的人,而属于利用算力最聪明的人。” 提高生产力的关键,不是规定员工每月必须用掉多少Token这种滑稽的KPI,而是把单位算力的智商产出比提升一个数量级。 至于通用人工智能?在现有的底层模型能力和Agent算法框架水平下,那还只是一个春秋大梦。 当AI的使用成本从“几乎为零”变成“精确到小数点后”,你还会像以前那样毫无顾忌地问AI问题吗? 你觉得自己每个月愿意为AI花多少钱?
版权声明
“特别声明:以上作品内容(包括在内的视频、图片或音频)为用户上传并发布,本平台仅提供信息存储空间服务。
Notice: The content above (including the videos, pictures and audios if any) is uploaded and posted by the user , the platform merely provides information storage space services.”
本文地址: https://www.amtbbs.org/thread-18134-1-1.html
|