国产算力“闯关”成功！1.6万亿参数大模型训练，终于不用再靠英伟达了？ [复制链接]

解语樱木 · 发表于 6 天前

[color=rgba(0, 0, 0, 0.9)]这几天，AI圈子里有一个消息，低调但分量很重。

[color=rgba(0, 0, 0, 0.9)]

[color=rgba(0, 0, 0, 0.9)]算力集群概念图

[color=rgba(0, 0, 0, 0.9)]深圳一个研究团队，联合哈工大（深圳）、华为等多个单位，在昇腾910C国产算力集群上，成功完成了 DeepSeek-V4-Pro 的全参数后训练。

[color=rgba(0, 0, 0, 0.9)]这个模型有多夸张？1.6万亿参数。

[color=rgba(0, 0, 0, 0.9)]放在以前，这种体量的模型训练，基本是英伟达顶级GPU的专属地盘。国产算力更多是在边上负责点“打杂”的活儿——做做推理、跑跑轻量微调。

[color=rgba(0, 0, 0, 0.9)]但这一脚油门，直接把国产算力从“能用”推向了“能打”。

一、这次有多硬核？拆解三个关键词

[color=rgba(0, 0, 0, 0.9)]第一个词：1.6万亿参数。

[color=rgba(0, 0, 0, 0.9)]DeepSeek-V4-Pro 是一个 MoE（混合专家）架构模型，总参数 1.6 万亿，激活参数 490 亿。MoE 架构的好处是推理时只激活部分专家，效率高；但训练时，专家之间要频繁通信，对算力调度和显存管理的要求，比普通模型高出几十倍。

[color=rgba(0, 0, 0, 0.9)]团队花了一个月时间，在千卡级昇腾910C集群上，完成了1500多步的稳定训练——全程没有一次中断或报错。

[color=rgba(0, 0, 0, 0.9)]第二个词：全参数后训练。

[color=rgba(0, 0, 0, 0.9)]后训练包括监督微调（SFT）等手段，相当于大模型出厂的“精装修”阶段。以前国产算力更多是让模型“跑起来”——输入问题、输出答案；全参数训练则要调整模型内部的每一个参数，算力和稳定性要求完全是两个量级。

[color=rgba(0, 0, 0, 0.9)]第三个词：工业级运行标准。

[color=rgba(0, 0, 0, 0.9)]模型算力利用率（MFU）超过30%，关键训练算子效率提升14%。34.9% 的 MFU 稳定运行，单步训练时间稳定在27秒。

[color=rgba(0, 0, 0, 0.9)]这三个词加在一起，翻译成白话就是：国产算力已经具备了搞定世界级超大规模模型训练的能力。不再是实验室里的演示，而是可交付、可落地的工程能力。

二、三个技术难关，怎么啃下来的？

[color=rgba(0, 0, 0, 0.9)]训练万亿级参数的大模型，就像解一道超级复杂的数学题。每张计算卡是一个“解题员”，上千个解题员不能有人偷懒、不能出错、更不能有人掉队。

[color=rgba(0, 0, 0, 0.9)]团队攻克了三道关卡：

[color=rgba(0, 0, 0, 0.9)]一是“显存拼图”。 1.6万亿参数不可能塞进一张卡。团队设计了精密的分布式方案，把模型拆成“小块”，精确分配到每一张卡上。并行策略四管齐下——数据并行、张量并行、流水并行、专家并行协同工作。

[color=rgba(0, 0, 0, 0.9)]二是“专家不打架”。 MoE架构下，有的专家忙到爆，有的专家闲得慌，通信还容易堵车。团队优化了路由与调度算法，搞定了负载均衡，跨卡通信不再卡顿。

[color=rgba(0, 0, 0, 0.9)]三是“24小时有人守夜”。全参数训练最怕跑着跑着突然崩掉。团队搭建了全指标可视化的监控体系，1500多步跑下来，没出现过一次 Loss 失控或 NaN 错误。

[color=rgba(0, 0, 0, 0.9)]

[color=rgba(0, 0, 0, 0.9)]为了验证这套能力，团队还做了一场“硬核实验”——用3000条高质量数学建模样本，专门增强模型的数学建模能力。结果四项核心指标全面提升，ORGEval WL提升超过5个百分点，推理能力和建模能力显著增强。

三、国产算力的“跨越”：从“能推理”到“能训练”

[color=rgba(0, 0, 0, 0.9)]坦白讲，过去几年国产算力虽然进步快，但始终有一个尴尬现实——能推理的算力不少，能训练的算力稀缺。

[color=rgba(0, 0, 0, 0.9)]目前国产算力主要用在推理端，大模型训练仍然高度依赖英伟达 H/B 系列 GPU。

[color=rgba(0, 0, 0, 0.9)]为什么？几个硬骨头一直没啃下来：

[color=rgba(0, 0, 0, 0.9)]一是算子正确性和数值精度对齐。国产硬件在多次训练迭代中误差容易累积，影响模型最终质量。陈文光教授就明确指出，国产算力软硬件协同与训练能力是当前主要短板。

[color=rgba(0, 0, 0, 0.9)]二是显存容量和互联带宽。国产加速器普遍存在显存小、带宽低的瓶颈。

[color=rgba(0, 0, 0, 0.9)]三是生态壁垒。英伟达 CUDA 生态太成熟了，几乎所有 AI 框架、论文、预训练模型都默认 CUDA 兼容。换成国产平台，大量代码需要重写和调优。

[color=rgba(0, 0, 0, 0.9)]所以这次突破的意义，说白了就是：国产算力终于把训练端最难的那张“硬骨头”，啃下来了。

[color=rgba(0, 0, 0, 0.9)]正如黄仁勋所担忧的：当中国顶尖大模型与国产算力基座完成绑定，美国长期推行的芯片封锁，就会失去关键抓手。

四、产业洗牌的速度，比想象中快得多

[color=rgba(0, 0, 0, 0.9)]这次突破不是孤例。2026 年正在被业界称为“国产 AI 芯片训练落地元年”。

[color=rgba(0, 0, 0, 0.9)]一组数据足以说明洗牌在加速：

市场份额大逆转。 IDC 数据显示，2025 年中国市场 AI 加速卡国产厂商交付 165 万片，市场份额跃升至 41%。摩根士丹利预测，2026 年华为在中国 AI 加速芯片市场的份额将达到 62%，英伟达的市场份额已实际归零。
算力投入大爆发。 2026 年字节预计投入 1500 亿用于全球算力采购，其中国产算力预计超过 400 亿；阿里预计投入超 1200 亿；腾讯预计投入超 800 亿。
市场规模持续攀升。 IDC 数据显示，2026 年中国智能算力市场规模预计达 337 亿美元，同比增长 30.1%。
产业链全面收紧。算力产业链已进入“全链通胀”阶段，CPU/GPU 面临产能瓶颈，云端算力资源开启多轮提价。

[color=rgba(0, 0, 0, 0.9)]英伟达的撤离留下的巨大真空，正在被华为、寒武纪、海光等国产厂商快速填补。AI 芯片的战场，正在从“全球巨头垄断”变成“国产军团补位”。

五、“好用的算力”才是关键

[color=rgba(0, 0, 0, 0.9)]当然，挑战依然存在。

[color=rgba(0, 0, 0, 0.9)]单颗芯片的峰值算力，国产与英伟达仍有差距——至少落后2年以上。昇腾910C 还未支持 FP8 精度格式，在混合精度训练方面受限。

[color=rgba(0, 0, 0, 0.9)]业界的一个普遍判断是：国产算力正在从“有没有”迈向“好不好用”的关键阶段。

[color=rgba(0, 0, 0, 0.9)]也就是说，比的是系统效率，不只是单颗芯片的性能。而这次 34.9% 的 MFU 率，就是一个重要的系统级成绩单。

[color=rgba(0, 0, 0, 0.9)]还有一个值得关注的趋势：成本。

[color=rgba(0, 0, 0, 0.9)]中国企业正在从通用 GPU 转向定制化 ASIC 路线——牺牲一定的灵活性，换取更高的效率和更低的成本。DeepSeek-V4-Pro 的 API 价格低至 0.25 元/百万 token，与国际主流模型差价超过 700 倍。实测数据显示，脱离英伟达生态后，端到端延迟比原有集群低 35%。

[color=rgba(0, 0, 0, 0.9)]算力，正在从“谁最强”的价格战，变成“谁又好又便宜”的效率战。

六、未来的竞赛，才刚刚开始

[color=rgba(0, 0, 0, 0.9)]政策层面也在发力。“十五五”规划纲要明确提出统筹推进算力设施建设，2026 年政府工作报告提出实施超大规模智算集群新基建工程。截至 2026 年，全国超 50 城出台算力产业支持政策，20 余个智算中心项目入选国家级重大工程。

[color=rgba(0, 0, 0, 0.9)]但长期来看，算力的瓶颈不只是芯片本身，而是先进制程的制造能力。单看设计，国产 AI 芯片已经能做出不错的东西。但制程工艺的差距，决定了峰值算力的天花板。

[color=rgba(0, 0, 0, 0.9)]算力格局不会一夜间翻盘。但从“能推理”到“能训练”，这一脚油门踩下去，国产算力至少证明了——

[color=rgba(0, 0, 0, 0.9)]这条路，是走得通的。

[color=rgba(0, 0, 0, 0.9)]留个讨论问题：
从“能用”到“好用”，你觉得国产算力目前最需要补齐的短板是芯片性能，还是软件生态？欢迎在评论区聊聊你的看法。

版权声明

“特别声明：以上作品内容(包括在内的视频、图片或音频)为用户上传并发布，本平台仅提供信息存储空间服务。 Notice: The content above (including the videos, pictures and audios if any) is uploaded and posted by the user , the platform merely provides information storage space services.”

本文地址: https://www.amtbbs.org/thread-18288-1-1.html

国产算力“闯关”成功！1.6万亿参数大模型训练，终于不用再靠英伟达了？ [复制链接]

版权声明

主题推荐

AI大模型