AMT|智造云|世界先进制造技术论坛,领先的高科技先进制造产业服务平台

发表于 6 天前 | 显示全部楼层 |阅读模式
[color=rgba(0, 0, 0, 0.9)]这几天,AI圈子里有一个消息,低调但分量很重。
[color=rgba(0, 0, 0, 0.9)] image.png
[color=rgba(0, 0, 0, 0.9)]算力集群概念图
[color=rgba(0, 0, 0, 0.9)]深圳一个研究团队,联合哈工大(深圳)、华为等多个单位,在昇腾910C国产算力集群上,成功完成了 DeepSeek-V4-Pro 的全参数后训练。
[color=rgba(0, 0, 0, 0.9)]这个模型有多夸张?1.6万亿参数。
[color=rgba(0, 0, 0, 0.9)]放在以前,这种体量的模型训练,基本是英伟达顶级GPU的专属地盘。国产算力更多是在边上负责点“打杂”的活儿——做做推理、跑跑轻量微调。
[color=rgba(0, 0, 0, 0.9)]但这一脚油门,直接把国产算力从“能用”推向了“能打”。
一、这次有多硬核?拆解三个关键词
[color=rgba(0, 0, 0, 0.9)]第一个词:1.6万亿参数。
[color=rgba(0, 0, 0, 0.9)]DeepSeek-V4-Pro 是一个 MoE(混合专家)架构模型,总参数 1.6 万亿,激活参数 490 亿。MoE 架构的好处是推理时只激活部分专家,效率高;但训练时,专家之间要频繁通信,对算力调度和显存管理的要求,比普通模型高出几十倍。
[color=rgba(0, 0, 0, 0.9)]团队花了一个月时间,在千卡级昇腾910C集群上,完成了1500多步的稳定训练——全程没有一次中断或报错。
[color=rgba(0, 0, 0, 0.9)]第二个词:全参数后训练。
[color=rgba(0, 0, 0, 0.9)]后训练包括监督微调(SFT)等手段,相当于大模型出厂的“精装修”阶段。以前国产算力更多是让模型“跑起来”——输入问题、输出答案;全参数训练则要调整模型内部的每一个参数,算力和稳定性要求完全是两个量级。
[color=rgba(0, 0, 0, 0.9)]第三个词:工业级运行标准。
[color=rgba(0, 0, 0, 0.9)]模型算力利用率(MFU)超过30%,关键训练算子效率提升14%。34.9% 的 MFU 稳定运行,单步训练时间稳定在27秒。
[color=rgba(0, 0, 0, 0.9)]这三个词加在一起,翻译成白话就是:国产算力已经具备了搞定世界级超大规模模型训练的能力。不再是实验室里的演示,而是可交付、可落地的工程能力。
二、三个技术难关,怎么啃下来的?
[color=rgba(0, 0, 0, 0.9)]训练万亿级参数的大模型,就像解一道超级复杂的数学题。每张计算卡是一个“解题员”,上千个解题员不能有人偷懒、不能出错、更不能有人掉队。
[color=rgba(0, 0, 0, 0.9)]团队攻克了三道关卡:
[color=rgba(0, 0, 0, 0.9)]一是“显存拼图”。 1.6万亿参数不可能塞进一张卡。团队设计了精密的分布式方案,把模型拆成“小块”,精确分配到每一张卡上。并行策略四管齐下——数据并行、张量并行、流水并行、专家并行协同工作。
[color=rgba(0, 0, 0, 0.9)]二是“专家不打架”。 MoE架构下,有的专家忙到爆,有的专家闲得慌,通信还容易堵车。团队优化了路由与调度算法,搞定了负载均衡,跨卡通信不再卡顿。
[color=rgba(0, 0, 0, 0.9)]三是“24小时有人守夜”。 全参数训练最怕跑着跑着突然崩掉。团队搭建了全指标可视化的监控体系,1500多步跑下来,没出现过一次 Loss 失控或 NaN 错误。
[color=rgba(0, 0, 0, 0.9)] image.png
[color=rgba(0, 0, 0, 0.9)]为了验证这套能力,团队还做了一场“硬核实验”——用3000条高质量数学建模样本,专门增强模型的数学建模能力。结果四项核心指标全面提升,ORGEval WL提升超过5个百分点,推理能力和建模能力显著增强。
三、国产算力的“跨越”:从“能推理”到“能训练”
[color=rgba(0, 0, 0, 0.9)]坦白讲,过去几年国产算力虽然进步快,但始终有一个尴尬现实——能推理的算力不少,能训练的算力稀缺。
[color=rgba(0, 0, 0, 0.9)]目前国产算力主要用在推理端,大模型训练仍然高度依赖英伟达 H/B 系列 GPU。
[color=rgba(0, 0, 0, 0.9)]为什么?几个硬骨头一直没啃下来:
[color=rgba(0, 0, 0, 0.9)]一是算子正确性和数值精度对齐。国产硬件在多次训练迭代中误差容易累积,影响模型最终质量。陈文光教授就明确指出,国产算力软硬件协同与训练能力是当前主要短板。
[color=rgba(0, 0, 0, 0.9)]二是显存容量和互联带宽。国产加速器普遍存在显存小、带宽低的瓶颈。
[color=rgba(0, 0, 0, 0.9)]三是生态壁垒。英伟达 CUDA 生态太成熟了,几乎所有 AI 框架、论文、预训练模型都默认 CUDA 兼容。换成国产平台,大量代码需要重写和调优。
[color=rgba(0, 0, 0, 0.9)]所以这次突破的意义,说白了就是:国产算力终于把训练端最难的那张“硬骨头”,啃下来了。
[color=rgba(0, 0, 0, 0.9)]正如黄仁勋所担忧的:当中国顶尖大模型与国产算力基座完成绑定,美国长期推行的芯片封锁,就会失去关键抓手。
四、产业洗牌的速度,比想象中快得多
[color=rgba(0, 0, 0, 0.9)]这次突破不是孤例。2026 年正在被业界称为“国产 AI 芯片训练落地元年”。
[color=rgba(0, 0, 0, 0.9)]一组数据足以说明洗牌在加速:
  • 市场份额大逆转。 IDC 数据显示,2025 年中国市场 AI 加速卡国产厂商交付 165 万片,市场份额跃升至 41%。摩根士丹利预测,2026 年华为在中国 AI 加速芯片市场的份额将达到 62%,英伟达的市场份额已实际归零。
  • 算力投入大爆发。 2026 年字节预计投入 1500 亿用于全球算力采购,其中国产算力预计超过 400 亿;阿里预计投入超 1200 亿;腾讯预计投入超 800 亿。
  • 市场规模持续攀升。 IDC 数据显示,2026 年中国智能算力市场规模预计达 337 亿美元,同比增长 30.1%。
  • 产业链全面收紧。 算力产业链已进入“全链通胀”阶段,CPU/GPU 面临产能瓶颈,云端算力资源开启多轮提价。

[color=rgba(0, 0, 0, 0.9)]英伟达的撤离留下的巨大真空,正在被华为、寒武纪、海光等国产厂商快速填补。AI 芯片的战场,正在从“全球巨头垄断”变成“国产军团补位”。
五、“好用的算力”才是关键
[color=rgba(0, 0, 0, 0.9)]当然,挑战依然存在。
[color=rgba(0, 0, 0, 0.9)]单颗芯片的峰值算力,国产与英伟达仍有差距——至少落后2年以上。昇腾910C 还未支持 FP8 精度格式,在混合精度训练方面受限。
[color=rgba(0, 0, 0, 0.9)]业界的一个普遍判断是:国产算力正在从“有没有”迈向“好不好用”的关键阶段。
[color=rgba(0, 0, 0, 0.9)]也就是说,比的是系统效率,不只是单颗芯片的性能。而这次 34.9% 的 MFU 率,就是一个重要的系统级成绩单。
[color=rgba(0, 0, 0, 0.9)]还有一个值得关注的趋势:成本。
[color=rgba(0, 0, 0, 0.9)]中国企业正在从通用 GPU 转向定制化 ASIC 路线——牺牲一定的灵活性,换取更高的效率和更低的成本。DeepSeek-V4-Pro 的 API 价格低至 0.25 元/百万 token,与国际主流模型差价超过 700 倍。实测数据显示,脱离英伟达生态后,端到端延迟比原有集群低 35%。
[color=rgba(0, 0, 0, 0.9)]算力,正在从“谁最强”的价格战,变成“谁又好又便宜”的效率战。
六、未来的竞赛,才刚刚开始
[color=rgba(0, 0, 0, 0.9)]政策层面也在发力。“十五五”规划纲要明确提出统筹推进算力设施建设,2026 年政府工作报告提出实施超大规模智算集群新基建工程。截至 2026 年,全国超 50 城出台算力产业支持政策,20 余个智算中心项目入选国家级重大工程。
[color=rgba(0, 0, 0, 0.9)]但长期来看,算力的瓶颈不只是芯片本身,而是先进制程的制造能力。单看设计,国产 AI 芯片已经能做出不错的东西。但制程工艺的差距,决定了峰值算力的天花板。
[color=rgba(0, 0, 0, 0.9)]算力格局不会一夜间翻盘。但从“能推理”到“能训练”,这一脚油门踩下去,国产算力至少证明了——
[color=rgba(0, 0, 0, 0.9)]这条路,是走得通的。
[color=rgba(0, 0, 0, 0.9)]留个讨论问题:
从“能用”到“好用”,你觉得国产算力目前最需要补齐的短板是芯片性能,还是软件生态?欢迎在评论区聊聊你的看法。

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册 |

本版积分规则

主题 39 | 回复: 40

QQ|联系我们|法律声明|用户协议|AMT咨询|商务合作|会员入驻|积分充值|积分商城|积分奖励规则|TradEx全球购|加入QQ技术群|添加企业微信|加入微信技术群|智造号|手机版| 世界先进制造技术论坛™(简称AMT™, 智造云™) ( 沪ICP备12020441号-3 )

GMT+8, 2026-6-17 00:57 , Processed in 1.821162 second(s), 48 queries .

论坛声明:AMT-智造云(世界先进制造技术论坛) 属纯技术性论坛,我们严格遵守《中华人民共和国网络安全法》、《个人信息保护法》等国家相关法律法规,请勿发布非法言论、非法广告等信息,多谢合作。
本论坛言论纯属发表者个人意见且会员单独承担发表内容的法律责任,与本论坛立场无关;会员参与本论坛讨论必须遵守中华人民共和国法律法规,凡涉及政治言论、色情、毒品、违法枪支销售等信息一律删除,并将积极配合和协助有关执法机关的调查,请所有会员注意!
本论坛资源由会员在本论坛发布,版权属于原作者;论坛所有资源为会员个人学习使用,请勿涉及商业用途并请在下载后24小时删除;如有侵犯原作者的版权和知识产权,请来信告知,我们将立即做出处理和回复,谢谢合作!

合作联系: 双日QQ客服:3419347041    单日QQ客服:3500763653    电话021-37709287    合作问题投诉:QQ:2969954637    邮箱:info@amtbbs.org    微信公众号:AMTBBS

 

快速回复 返回顶部 返回列表