阿里Qwen3.7-Max拿下1541分,把GPT-5.5、Gemini 3.5都甩在后面
就在今天,一个消息让整个AI圈炸开了锅。 Code Arena最新榜单出来了。Qwen3.7-Max冲到了全球第四,分数是1541。 这是什么概念?往前看,排在它前面的只有三个模型。再仔细一数,前面真正称得上对手的,只剩Claude Opus 4.7和Opus 4.6。 GPT-5.5呢?在后面。Gemini 3.5 Flash呢?也在后面。 全球编程模型这个赛道上,阿里成了唯一杀进前五的中国厂商。如果按公司算,中国AI在编程这块,已经排到世界第二了。 就剩Anthropic一家挡在前面。 跑分确实高,但实际干活怎么样?光看分数没意思,咱直接看它干活怎么样。 有人让Qwen3.7-Max、Claude Opus 4.7和GPT-5.5一起写一个能自己学习的俄罗斯方块AI。 结果Qwen3.7-Max只花了1.32美元就完成任务,还把性能往上提了56%。花钱最少,干得最好。 还有一个开发者让它建一个宇宙的3D模型。出来的效果怎么说呢?挺震撼的。 做3D像素宝塔的时候,Qwen3.7-Max不光速度快,质量也明显更细。 有开发者直接说,用了Qwen3.7-Max之后,GPT-5.5和Opus 4.7基本可以放一边了。 我们自己试了一下,确实有点东西吹这么多没用,我们自己上手跑了一遍。任务:做一个赛车游戏。 指令发过去,没等多久,Qwen3.7-Max直接给了一个能玩的HTML文件。 第一版有个小问题,转向键左右是反的。跟它说了一声,第二轮就改好了。 打开游戏的时候,说实话我愣了一下。 四辆车一起跑,环形赛道,路上有一百多个金币。碰到障碍物会减速,会打滑。 跑完了还有成绩单,排名、时间、金币数、最快一圈,全都给你列出来。 但真正让我觉得厉害的,是两个细节。 第一个是开始界面。四个模型一起测,只有Qwen3.7-Max正经做了个开始页面。点一下“Start”才开始比赛。其他三家打开就直接跑,连个标题都没有。 第二个是音效。我们提要求的时候加了一条,要发动机声音和吃金币的音效。四个模型里,又是只有它把这个做出来了。引擎嗡嗡响,金币叮咚响,一下子就有感觉了。 再看看别人家的情况。 Gemini 3.5 Flash的画面比较单薄,立体感不够。仪表盘的信息东一个西一个,看着有点乱。 Claude Opus 4.6更让人无语。赛道上没几个金币,三辆对手车开得整整齐齐,一点随机性都没有,像复制粘贴出来的。 GPT-5.5画面和操作倒是不错。但金币做成了黄色甜甜圈的形状……这倒不是大问题。关键是Gemini、Claude、GPT这三家都修了好几轮bug才把所有功能跑通。 只有Qwen3.7-Max,第一轮生成就能玩。 它为什么这么能打?这事得从Qwen3.7-Max的定位说起。 阿里给它的标签很特别,叫“Agent基座模型”。说白了,这个模型生来就是为了长时间自己干活的。 内部测试的时候,有一次它连续跑了35个小时的编程任务,中间调用了1158次工具。 35个小时,你能想象吗? 大多数模型跑长任务的时候会崩。要么上下文越记越乱,前面定好的目标后面全忘了。要么走进死胡同,同一个错反复犯。 但Qwen3.7-Max撑下来了。全程没有乱记,没有走偏,没有死循环。 能做到这一点,跟两个训练方法有关。 第一个叫环境扩展。每个编程任务被拆成任务本身、执行框架、验证方式三个独立维度,然后自由组合。同一个题目,今天在Claude Code里做,明天在OpenClaw里做,后天换一种验证方式。 效果就是,它学会的是解决问题的通用能力,不是背特定框架的答案。 第二个叫长程自主执行。训练的时候让它在变化的环境里做上千步连续决策,自己猜、自己验证、自己调整方向。中间不能因为跑太久就乱了。 这就是为什么它能撑35个小时,也是为什么它的编程能力这么稳。 编程只是第一站Code Arena这个榜单考的都是硬功夫。多步推理、工具调用、完整项目交付,全是Agent级别的真本事。 现在Qwen3.7-Max以1541分卡在第四,前面是Opus 4.6 Thinking和Opus 4.6,后面是GPT-5.5和Gemini 3.5。 在Claude统治了大半年的编程赛道上,第一次有中国模型楔进来了。 而且你会发现,这套能长程推理、能调工具的本事,瞄准的远不止编程。它指向的是一个更大的东西——通用Agent。 编程只是第一个战场。 现在问题来了:你觉得接下来谁会先超过Claude?是Qwen继续往上冲,还是有其他黑马杀出来? 还有一个更实在的问题:你平时写代码会用AI吗?用哪家? 评论区聊聊。
版权声明
“特别声明:以上作品内容(包括在内的视频、图片或音频)为用户上传并发布,本平台仅提供信息存储空间服务。
Notice: The content above (including the videos, pictures and audios if any) is uploaded and posted by the user , the platform merely provides information storage space services.”
本文地址: https://www.amtbbs.org/thread-18240-1-1.html
|