AMT|智造云|世界先进制造技术论坛,领先的高科技先进制造产业服务平台

发表于 5 天前 | 显示全部楼层 |阅读模式
阿里Qwen3.7-Max拿下1541分,把GPT-5.5、Gemini 3.5都甩在后面

就在今天,一个消息让整个AI圈炸开了锅。

Code Arena最新榜单出来了。Qwen3.7-Max冲到了全球第四,分数是1541。

image.png
image.png

这是什么概念?往前看,排在它前面的只有三个模型。再仔细一数,前面真正称得上对手的,只剩Claude Opus 4.7和Opus 4.6。

GPT-5.5呢?在后面。Gemini 3.5 Flash呢?也在后面。

全球编程模型这个赛道上,阿里成了唯一杀进前五的中国厂商。如果按公司算,中国AI在编程这块,已经排到世界第二了。

就剩Anthropic一家挡在前面。

跑分确实高,但实际干活怎么样?

光看分数没意思,咱直接看它干活怎么样。

有人让Qwen3.7-Max、Claude Opus 4.7和GPT-5.5一起写一个能自己学习的俄罗斯方块AI。

结果Qwen3.7-Max只花了1.32美元就完成任务,还把性能往上提了56%。花钱最少,干得最好。

image.png

还有一个开发者让它建一个宇宙的3D模型。出来的效果怎么说呢?挺震撼的。

做3D像素宝塔的时候,Qwen3.7-Max不光速度快,质量也明显更细。

有开发者直接说,用了Qwen3.7-Max之后,GPT-5.5和Opus 4.7基本可以放一边了。

我们自己试了一下,确实有点东西

吹这么多没用,我们自己上手跑了一遍。任务:做一个赛车游戏。

指令发过去,没等多久,Qwen3.7-Max直接给了一个能玩的HTML文件。

第一版有个小问题,转向键左右是反的。跟它说了一声,第二轮就改好了。

打开游戏的时候,说实话我愣了一下。

四辆车一起跑,环形赛道,路上有一百多个金币。碰到障碍物会减速,会打滑。

跑完了还有成绩单,排名、时间、金币数、最快一圈,全都给你列出来。

但真正让我觉得厉害的,是两个细节。

第一个是开始界面。四个模型一起测,只有Qwen3.7-Max正经做了个开始页面。点一下“Start”才开始比赛。其他三家打开就直接跑,连个标题都没有。

第二个是音效。我们提要求的时候加了一条,要发动机声音和吃金币的音效。四个模型里,又是只有它把这个做出来了。引擎嗡嗡响,金币叮咚响,一下子就有感觉了。

image.png

再看看别人家的情况。

Gemini 3.5 Flash的画面比较单薄,立体感不够。仪表盘的信息东一个西一个,看着有点乱。

image.png

Claude Opus 4.6更让人无语。赛道上没几个金币,三辆对手车开得整整齐齐,一点随机性都没有,像复制粘贴出来的。

GPT-5.5画面和操作倒是不错。但金币做成了黄色甜甜圈的形状……这倒不是大问题。关键是Gemini、Claude、GPT这三家都修了好几轮bug才把所有功能跑通。

只有Qwen3.7-Max,第一轮生成就能玩。

它为什么这么能打?

这事得从Qwen3.7-Max的定位说起。

阿里给它的标签很特别,叫“Agent基座模型”。说白了,这个模型生来就是为了长时间自己干活的。

内部测试的时候,有一次它连续跑了35个小时的编程任务,中间调用了1158次工具。

35个小时,你能想象吗?

大多数模型跑长任务的时候会崩。要么上下文越记越乱,前面定好的目标后面全忘了。要么走进死胡同,同一个错反复犯。

但Qwen3.7-Max撑下来了。全程没有乱记,没有走偏,没有死循环。

image.png

能做到这一点,跟两个训练方法有关。

第一个叫环境扩展。每个编程任务被拆成任务本身、执行框架、验证方式三个独立维度,然后自由组合。同一个题目,今天在Claude Code里做,明天在OpenClaw里做,后天换一种验证方式。

效果就是,它学会的是解决问题的通用能力,不是背特定框架的答案。

第二个叫长程自主执行。训练的时候让它在变化的环境里做上千步连续决策,自己猜、自己验证、自己调整方向。中间不能因为跑太久就乱了。

这就是为什么它能撑35个小时,也是为什么它的编程能力这么稳。

编程只是第一站

Code Arena这个榜单考的都是硬功夫。多步推理、工具调用、完整项目交付,全是Agent级别的真本事。

现在Qwen3.7-Max以1541分卡在第四,前面是Opus 4.6 Thinking和Opus 4.6,后面是GPT-5.5和Gemini 3.5。

在Claude统治了大半年的编程赛道上,第一次有中国模型楔进来了。

而且你会发现,这套能长程推理、能调工具的本事,瞄准的远不止编程。它指向的是一个更大的东西——通用Agent。

编程只是第一个战场。

现在问题来了:你觉得接下来谁会先超过Claude?是Qwen继续往上冲,还是有其他黑马杀出来?

还有一个更实在的问题:你平时写代码会用AI吗?用哪家?

评论区聊聊。


回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册 |

本版积分规则

主题 29 | 回复: 30

QQ|联系我们|法律声明|用户协议|AMT咨询|商务合作|会员入驻|积分充值|积分商城|积分奖励规则|TradEx全球购|加入QQ技术群|添加企业微信|加入微信技术群|智造号|手机版| 世界先进制造技术论坛™(简称AMT™, 智造云™) ( 沪ICP备12020441号-3 )

GMT+8, 2026-6-1 02:38 , Processed in 0.264683 second(s), 48 queries .

论坛声明:AMT-智造云(世界先进制造技术论坛) 属纯技术性论坛,我们严格遵守《中华人民共和国网络安全法》、《个人信息保护法》等国家相关法律法规,请勿发布非法言论、非法广告等信息,多谢合作。
本论坛言论纯属发表者个人意见且会员单独承担发表内容的法律责任,与本论坛立场无关;会员参与本论坛讨论必须遵守中华人民共和国法律法规,凡涉及政治言论、色情、毒品、违法枪支销售等信息一律删除,并将积极配合和协助有关执法机关的调查,请所有会员注意!
本论坛资源由会员在本论坛发布,版权属于原作者;论坛所有资源为会员个人学习使用,请勿涉及商业用途并请在下载后24小时删除;如有侵犯原作者的版权和知识产权,请来信告知,我们将立即做出处理和回复,谢谢合作!

合作联系: 双日QQ客服:3419347041    单日QQ客服:3500763653    电话021-37709287    合作问题投诉:QQ:2969954637    邮箱:info@amtbbs.org    微信公众号:AMTBBS

 

快速回复 返回顶部 返回列表