全线缺货!从芯片到云,算力为什么突然不够用了?
一场大变化正在算力行业里悄悄发生过去二十年,算力是越来越便宜的。芯片越做越小,云越用越便宜。这是整个科技圈都知道的道理。但到了2026年,这个道理好像不灵了。缺货,从里到外现在的情况有点夸张。不光是GPU芯片缺货,CPU也缺。存储芯片缺,光模块缺,甚至连服务器里面的铜缆都紧张。一台算力机柜里,几乎没有不缺的东西。以前你花200万,能买八台GPU服务器。现在呢?只够买四五台。更离谱的是,有些服务器厂商宁肯毁约不交货,因为芯片价格涨得太快,原来的合同卖一台亏一台。有做服务器的人说,现在是拿着现金到各地仓库去抢货。抢到了直接打钱,赶紧拉走。晚一步就没货了。这不是个别零件的问题,是整个链条都在绷紧。需求来得太猛为什么突然这么缺?最直接的原因是,AI开始“干活”了。以前大家用AI主要是聊天、问答。消耗的算力不多,一次对话几千个Token就够了。但现在不一样了。AI开始当“智能体”,帮人干活。比如让它分析一家公司24个季度的财报,一次就要消耗十几万Token。要是让它帮你搭个网页应用,上亿Token就没了。有个数据很吓人。今年3月,中国每天调用的Token量超过140万亿。和2024年初相比,涨了1400倍。这就像突然间所有人都开始用水,而且不是喝水,是开游泳池、办水上乐园那种用法。水管就那么粗,能不缺吗?卡住脖子的,不止一个地方按理说,缺货就多生产呗。但半导体这行,扩产没那么快。第一个卡点是HBM,也就是高带宽内存。 这东西看着不起眼,但没有它,GPU再强也跑不动。就像一个大力士,嘴巴太小,吃不下东西。目前全球能做HBM的就三家公司:SK海力士、三星、美光。它们2026年的产能,90%以上已经被英伟达和美国五大科技公司提前锁定了。想扩产?得花两三年时间建厂。而且这行以前经常大起大落,厂商们都很小心,不敢随便扩。第二个卡点是先进封装。 GPU做出来还不算完,得把内存和芯片封装到一起。这个活儿,全球绝大部分都得靠台积电。台积电自己都说,已经把全部设备都用上了,还是不够。第三个卡点是CPU。 以前大家觉得AI主要靠GPU,CPU没那么重要。但Agent多了以后,CPU反而变得更重要了。因为AI干活的时候,需要CPU来安排任务、调用工具。英特尔的人说,现在一台服务器里,CPU和GPU的比例正在从1:8变成1:2甚至1:1。CPU的需求一下子暴涨了。涨价,一层层往下传上游缺货,下游就涨价。这个道理很简单。HBM涨价,GPU就涨价。GPU涨价,服务器就涨价。服务器涨价,云服务就涨价。今年1月,亚马逊AWS把AI计算实例的价格上调了15%。3月,阿里云也跟着涨了,最高涨34%。连免费的东西都要收费了。 字节跳动的豆包App,最近说要推出付费订阅,一个月68元到500元不等。有云厂商的人直言不讳:“卖硬件不如卖云,卖云不如卖Token。”因为把算力拆成Token来卖,颗粒度更细,利润更高。钱都让谁赚了?这一波涨价,赚钱最多的还是上游。英伟达去年的营业利润是1304亿美元。三家存储芯片公司加起来587亿美元。台积电207亿美元。中游的服务器厂商呢?七家大的加在一起,利润才165亿美元。云厂商稍微好点,四家加起来1119亿美元。最惨的是大模型公司。 OpenAI、Anthropic、智谱、MiniMax这些,加起来一年亏了140多亿美元。它们有用户、有流量,但推理成本太高,赚的钱不够交电费。这波短缺会持续多久?目前大家的判断是,至少还要一两年。台积电说要到2027年才能多出60%的先进封装产能。存储芯片那边,扩产也得18到36个月。问题是,需求还在涨。IDC预测,到2030年,全球活跃的AI智能体数量会是现在的80倍。算力不会一直便宜下去。至少这两年不会。
页:
[1]