|
[color=rgba(0, 0, 0, 0.9)]这几天,AI圈子里有一个消息,低调但分量很重。 [color=rgba(0, 0, 0, 0.9)]
[color=rgba(0, 0, 0, 0.9)]算力集群概念图 [color=rgba(0, 0, 0, 0.9)]深圳一个研究团队,联合哈工大(深圳)、华为等多个单位,在昇腾910C国产算力集群上,成功完成了 DeepSeek-V4-Pro 的全参数后训练。 [color=rgba(0, 0, 0, 0.9)]这个模型有多夸张?1.6万亿参数。 [color=rgba(0, 0, 0, 0.9)]放在以前,这种体量的模型训练,基本是英伟达顶级GPU的专属地盘。国产算力更多是在边上负责点“打杂”的活儿——做做推理、跑跑轻量微调。 [color=rgba(0, 0, 0, 0.9)]但这一脚油门,直接把国产算力从“能用”推向了“能打”。 一、这次有多硬核?拆解三个关键词[color=rgba(0, 0, 0, 0.9)]第一个词:1.6万亿参数。 [color=rgba(0, 0, 0, 0.9)]DeepSeek-V4-Pro 是一个 MoE(混合专家)架构模型,总参数 1.6 万亿,激活参数 490 亿。MoE 架构的好处是推理时只激活部分专家,效率高;但训练时,专家之间要频繁通信,对算力调度和显存管理的要求,比普通模型高出几十倍。 [color=rgba(0, 0, 0, 0.9)]团队花了一个月时间,在千卡级昇腾910C集群上,完成了1500多步的稳定训练——全程没有一次中断或报错。 [color=rgba(0, 0, 0, 0.9)]第二个词:全参数后训练。 [color=rgba(0, 0, 0, 0.9)]后训练包括监督微调(SFT)等手段,相当于大模型出厂的“精装修”阶段。以前国产算力更多是让模型“跑起来”——输入问题、输出答案;全参数训练则要调整模型内部的每一个参数,算力和稳定性要求完全是两个量级。 [color=rgba(0, 0, 0, 0.9)]第三个词:工业级运行标准。 [color=rgba(0, 0, 0, 0.9)]模型算力利用率(MFU)超过30%,关键训练算子效率提升14%。34.9% 的 MFU 稳定运行,单步训练时间稳定在27秒。 [color=rgba(0, 0, 0, 0.9)]这三个词加在一起,翻译成白话就是:国产算力已经具备了搞定世界级超大规模模型训练的能力。不再是实验室里的演示,而是可交付、可落地的工程能力。 二、三个技术难关,怎么啃下来的?[color=rgba(0, 0, 0, 0.9)]训练万亿级参数的大模型,就像解一道超级复杂的数学题。每张计算卡是一个“解题员”,上千个解题员不能有人偷懒、不能出错、更不能有人掉队。 [color=rgba(0, 0, 0, 0.9)]团队攻克了三道关卡: [color=rgba(0, 0, 0, 0.9)]一是“显存拼图”。 1.6万亿参数不可能塞进一张卡。团队设计了精密的分布式方案,把模型拆成“小块”,精确分配到每一张卡上。并行策略四管齐下——数据并行、张量并行、流水并行、专家并行协同工作。 [color=rgba(0, 0, 0, 0.9)]二是“专家不打架”。 MoE架构下,有的专家忙到爆,有的专家闲得慌,通信还容易堵车。团队优化了路由与调度算法,搞定了负载均衡,跨卡通信不再卡顿。 [color=rgba(0, 0, 0, 0.9)]三是“24小时有人守夜”。 全参数训练最怕跑着跑着突然崩掉。团队搭建了全指标可视化的监控体系,1500多步跑下来,没出现过一次 Loss 失控或 NaN 错误。 [color=rgba(0, 0, 0, 0.9)]
[color=rgba(0, 0, 0, 0.9)]为了验证这套能力,团队还做了一场“硬核实验”——用3000条高质量数学建模样本,专门增强模型的数学建模能力。结果四项核心指标全面提升,ORGEval WL提升超过5个百分点,推理能力和建模能力显著增强。 三、国产算力的“跨越”:从“能推理”到“能训练”[color=rgba(0, 0, 0, 0.9)]坦白讲,过去几年国产算力虽然进步快,但始终有一个尴尬现实——能推理的算力不少,能训练的算力稀缺。 [color=rgba(0, 0, 0, 0.9)]目前国产算力主要用在推理端,大模型训练仍然高度依赖英伟达 H/B 系列 GPU。 [color=rgba(0, 0, 0, 0.9)]为什么?几个硬骨头一直没啃下来: [color=rgba(0, 0, 0, 0.9)]一是算子正确性和数值精度对齐。国产硬件在多次训练迭代中误差容易累积,影响模型最终质量。陈文光教授就明确指出,国产算力软硬件协同与训练能力是当前主要短板。 [color=rgba(0, 0, 0, 0.9)]二是显存容量和互联带宽。国产加速器普遍存在显存小、带宽低的瓶颈。 [color=rgba(0, 0, 0, 0.9)]三是生态壁垒。英伟达 CUDA 生态太成熟了,几乎所有 AI 框架、论文、预训练模型都默认 CUDA 兼容。换成国产平台,大量代码需要重写和调优。 [color=rgba(0, 0, 0, 0.9)]所以这次突破的意义,说白了就是:国产算力终于把训练端最难的那张“硬骨头”,啃下来了。 [color=rgba(0, 0, 0, 0.9)]正如黄仁勋所担忧的:当中国顶尖大模型与国产算力基座完成绑定,美国长期推行的芯片封锁,就会失去关键抓手。 四、产业洗牌的速度,比想象中快得多[color=rgba(0, 0, 0, 0.9)]这次突破不是孤例。2026 年正在被业界称为“国产 AI 芯片训练落地元年”。 [color=rgba(0, 0, 0, 0.9)]一组数据足以说明洗牌在加速: 市场份额大逆转。 IDC 数据显示,2025 年中国市场 AI 加速卡国产厂商交付 165 万片,市场份额跃升至 41%。摩根士丹利预测,2026 年华为在中国 AI 加速芯片市场的份额将达到 62%,英伟达的市场份额已实际归零。 算力投入大爆发。 2026 年字节预计投入 1500 亿用于全球算力采购,其中国产算力预计超过 400 亿;阿里预计投入超 1200 亿;腾讯预计投入超 800 亿。 市场规模持续攀升。 IDC 数据显示,2026 年中国智能算力市场规模预计达 337 亿美元,同比增长 30.1%。 产业链全面收紧。 算力产业链已进入“全链通胀”阶段,CPU/GPU 面临产能瓶颈,云端算力资源开启多轮提价。
[color=rgba(0, 0, 0, 0.9)]英伟达的撤离留下的巨大真空,正在被华为、寒武纪、海光等国产厂商快速填补。AI 芯片的战场,正在从“全球巨头垄断”变成“国产军团补位”。 五、“好用的算力”才是关键[color=rgba(0, 0, 0, 0.9)]当然,挑战依然存在。 [color=rgba(0, 0, 0, 0.9)]单颗芯片的峰值算力,国产与英伟达仍有差距——至少落后2年以上。昇腾910C 还未支持 FP8 精度格式,在混合精度训练方面受限。 [color=rgba(0, 0, 0, 0.9)]业界的一个普遍判断是:国产算力正在从“有没有”迈向“好不好用”的关键阶段。 [color=rgba(0, 0, 0, 0.9)]也就是说,比的是系统效率,不只是单颗芯片的性能。而这次 34.9% 的 MFU 率,就是一个重要的系统级成绩单。 [color=rgba(0, 0, 0, 0.9)]还有一个值得关注的趋势:成本。 [color=rgba(0, 0, 0, 0.9)]中国企业正在从通用 GPU 转向定制化 ASIC 路线——牺牲一定的灵活性,换取更高的效率和更低的成本。DeepSeek-V4-Pro 的 API 价格低至 0.25 元/百万 token,与国际主流模型差价超过 700 倍。实测数据显示,脱离英伟达生态后,端到端延迟比原有集群低 35%。 [color=rgba(0, 0, 0, 0.9)]算力,正在从“谁最强”的价格战,变成“谁又好又便宜”的效率战。 六、未来的竞赛,才刚刚开始[color=rgba(0, 0, 0, 0.9)]政策层面也在发力。“十五五”规划纲要明确提出统筹推进算力设施建设,2026 年政府工作报告提出实施超大规模智算集群新基建工程。截至 2026 年,全国超 50 城出台算力产业支持政策,20 余个智算中心项目入选国家级重大工程。 [color=rgba(0, 0, 0, 0.9)]但长期来看,算力的瓶颈不只是芯片本身,而是先进制程的制造能力。单看设计,国产 AI 芯片已经能做出不错的东西。但制程工艺的差距,决定了峰值算力的天花板。 [color=rgba(0, 0, 0, 0.9)]算力格局不会一夜间翻盘。但从“能推理”到“能训练”,这一脚油门踩下去,国产算力至少证明了—— [color=rgba(0, 0, 0, 0.9)]这条路,是走得通的。 [color=rgba(0, 0, 0, 0.9)]留个讨论问题:
从“能用”到“好用”,你觉得国产算力目前最需要补齐的短板是芯片性能,还是软件生态?欢迎在评论区聊聊你的看法。
版权声明
“特别声明:以上作品内容(包括在内的视频、图片或音频)为用户上传并发布,本平台仅提供信息存储空间服务。
Notice: The content above (including the videos, pictures and audios if any) is uploaded and posted by the user , the platform merely provides information storage space services.”
本文地址: https://www.amtbbs.org/thread-18288-1-1.html
|