刚刚，中国AI在全球编程比赛中冲到第二！前面只剩Claude一家了 [复制链接]

解语樱木 · 发表于 5 天前

阿里Qwen3.7-Max拿下1541分，把GPT-5.5、Gemini 3.5都甩在后面

就在今天，一个消息让整个AI圈炸开了锅。

Code Arena最新榜单出来了。Qwen3.7-Max冲到了全球第四，分数是1541。

这是什么概念？往前看，排在它前面的只有三个模型。再仔细一数，前面真正称得上对手的，只剩Claude Opus 4.7和Opus 4.6。

GPT-5.5呢？在后面。Gemini 3.5 Flash呢？也在后面。

全球编程模型这个赛道上，阿里成了唯一杀进前五的中国厂商。如果按公司算，中国AI在编程这块，已经排到世界第二了。

就剩Anthropic一家挡在前面。

跑分确实高，但实际干活怎么样？

光看分数没意思，咱直接看它干活怎么样。

有人让Qwen3.7-Max、Claude Opus 4.7和GPT-5.5一起写一个能自己学习的俄罗斯方块AI。

结果Qwen3.7-Max只花了1.32美元就完成任务，还把性能往上提了56%。花钱最少，干得最好。

还有一个开发者让它建一个宇宙的3D模型。出来的效果怎么说呢？挺震撼的。

做3D像素宝塔的时候，Qwen3.7-Max不光速度快，质量也明显更细。

有开发者直接说，用了Qwen3.7-Max之后，GPT-5.5和Opus 4.7基本可以放一边了。

我们自己试了一下，确实有点东西

吹这么多没用，我们自己上手跑了一遍。任务：做一个赛车游戏。

指令发过去，没等多久，Qwen3.7-Max直接给了一个能玩的HTML文件。

第一版有个小问题，转向键左右是反的。跟它说了一声，第二轮就改好了。

打开游戏的时候，说实话我愣了一下。

四辆车一起跑，环形赛道，路上有一百多个金币。碰到障碍物会减速，会打滑。

跑完了还有成绩单，排名、时间、金币数、最快一圈，全都给你列出来。

但真正让我觉得厉害的，是两个细节。

第一个是开始界面。四个模型一起测，只有Qwen3.7-Max正经做了个开始页面。点一下“Start”才开始比赛。其他三家打开就直接跑，连个标题都没有。

第二个是音效。我们提要求的时候加了一条，要发动机声音和吃金币的音效。四个模型里，又是只有它把这个做出来了。引擎嗡嗡响，金币叮咚响，一下子就有感觉了。

再看看别人家的情况。

Gemini 3.5 Flash的画面比较单薄，立体感不够。仪表盘的信息东一个西一个，看着有点乱。

Claude Opus 4.6更让人无语。赛道上没几个金币，三辆对手车开得整整齐齐，一点随机性都没有，像复制粘贴出来的。

GPT-5.5画面和操作倒是不错。但金币做成了黄色甜甜圈的形状……这倒不是大问题。关键是Gemini、Claude、GPT这三家都修了好几轮bug才把所有功能跑通。

只有Qwen3.7-Max，第一轮生成就能玩。

它为什么这么能打？

这事得从Qwen3.7-Max的定位说起。

阿里给它的标签很特别，叫“Agent基座模型”。说白了，这个模型生来就是为了长时间自己干活的。

内部测试的时候，有一次它连续跑了35个小时的编程任务，中间调用了1158次工具。

35个小时，你能想象吗？

大多数模型跑长任务的时候会崩。要么上下文越记越乱，前面定好的目标后面全忘了。要么走进死胡同，同一个错反复犯。

但Qwen3.7-Max撑下来了。全程没有乱记，没有走偏，没有死循环。

能做到这一点，跟两个训练方法有关。

第一个叫环境扩展。每个编程任务被拆成任务本身、执行框架、验证方式三个独立维度，然后自由组合。同一个题目，今天在Claude Code里做，明天在OpenClaw里做，后天换一种验证方式。

效果就是，它学会的是解决问题的通用能力，不是背特定框架的答案。

第二个叫长程自主执行。训练的时候让它在变化的环境里做上千步连续决策，自己猜、自己验证、自己调整方向。中间不能因为跑太久就乱了。

这就是为什么它能撑35个小时，也是为什么它的编程能力这么稳。

编程只是第一站

Code Arena这个榜单考的都是硬功夫。多步推理、工具调用、完整项目交付，全是Agent级别的真本事。

现在Qwen3.7-Max以1541分卡在第四，前面是Opus 4.6 Thinking和Opus 4.6，后面是GPT-5.5和Gemini 3.5。

在Claude统治了大半年的编程赛道上，第一次有中国模型楔进来了。

而且你会发现，这套能长程推理、能调工具的本事，瞄准的远不止编程。它指向的是一个更大的东西——通用Agent。

编程只是第一个战场。

现在问题来了：你觉得接下来谁会先超过Claude？是Qwen继续往上冲，还是有其他黑马杀出来？

还有一个更实在的问题：你平时写代码会用AI吗？用哪家？

评论区聊聊。

版权声明

“特别声明：以上作品内容(包括在内的视频、图片或音频)为用户上传并发布，本平台仅提供信息存储空间服务。 Notice: The content above (including the videos, pictures and audios if any) is uploaded and posted by the user , the platform merely provides information storage space services.”

本文地址: https://www.amtbbs.org/thread-18240-1-1.html

刚刚，中国AI在全球编程比赛中冲到第二！前面只剩Claude一家了 [复制链接]

版权声明

主题推荐

AI大模型