当前位置：首页 > article >正文

AI大模型横评-9月Update（O1,Grok2,Qwen,Step-2）

article 2025/2/22 2:18:48

#0 本期看点
1）各大模型纷纷推出大规模，排行榜剧烈变动
2）OpenAI新模型O1似乎要杀死比赛
3）阿里，腾讯翻身一跃

#1 前情提要
本评测是个人性质，结合自己需求和对大模型的理解，使用私有题库进行长期跟踪评测。不够权威，不够全面。但可以从一个侧面观察各个大模型的长期进化趋势。
任何评测都无法给出无死角的权威排行榜，笔者写这个系列也是分享一种评测思路，以及个人见解。每个人应该根据自己所需，对大模型进行考察。

对于V3题库的说明，此处不赘述，新读者请参见：https://zhuanlan.zhihu.com/p/695717926
但请允许笔者再次表述一次V3题库的局限，新题库聚焦最能反映硬逻辑能力的题型，尽可能逼近模型能力极限，因此不再能反映用户实际体验。可以把V3题库看作高考用来拉开区分度的大题（极限能力），但能做对大题也不代表前面简单题就全对（用户体验）。读者需要意识到，你所体验到的大模型能力，是综合了各种工程优化之后的结果，不单是逻辑能力。

#2 参赛选手
本次新增模型：
O1 Preview
O1 mini preview
Grok2 0813
Qwen-max-0919
Qwen2.5-72b
阶跃星辰 Step-2
阶跃星辰 Step-1.5V
DeepSeek V2.5
腾讯hunyuan turbo
字节豆包 240828

#3 题目和打分
本次删除2道题目，新增2题，原始分数总分为260分。
此处列出所有题目大纲和核心考点：
1、长文本理解和角色扮演：长文本理解，指令遵守
2、程序改错：代码理解
3、基于多重规则判断单据合法性：规则理解，复杂约束，日期计算
4、旅游路径规划：长文本理解，工具调用能力
5、【Medium】公元纪年推算天干纪年：计算能力，规则理解
6、【Medium】阅读代码输出结果：代码理解，代码推导
7、【Medium】计算有时间重叠下最少会议室数量：计算能力
8、【Medium】从代码中推测json结构：代码理解，短期记忆，数据结构理解
9、【Medium】提供上下文的代码补全：代码理解，指令遵守
10、【Medium】密文解码：模拟计算
11、【Medium】棋盘上的图形：图形想象，二维记忆能力
12、【Medium】不提供规则，阅读某中文编程代码，并推导输出：符号理解，迁移学习能力
13、【Medium】扑克牌按规则洗牌求顺序：规则遵循，一维记忆
14、【Medium】正则匹配：推理推演正则匹配结果
15、【Medium】4x4 数独题：多步推理，短期记忆，规则遵循
16、【Medium】岛屿面积计算：DFS非编程推算
17、【Medium】信息提取：指令遵守，文本迷惑性，输出格式要求
18、【Medium】第2题进阶版，增加输出要求，增加题目细节
19、【Medium】第7题变体，增加会议室数量，会议人数条件约束
20、【Medium】故事推理，故事包含复杂物品交换规则，求最终物品和主人对应关系【New】
21、【Hard】按规则拧魔方后求魔方颜色：三维记忆能力
22、【Hard】符号重定义后求表达式：规则理解，逻辑陷阱
23、【Hard】压缩算法模拟：规则理解，文本计算
24、【Hard】按提示猜单词：利用规则推导，排除干扰
25、【Hard】给定热量的沙拉搭配：数学计算，数学规则
26、【Hard】二维字符迷宫，求入口到出口路径【New】

其中【Hard】是指目前正确率偏低的题目。【Medium】指回答正确率接近半数的题目。
打分规则：
1、每道题有至少1个得分点，回答每正确一点即得1分。最终得分是得分除以得分点总数，再乘以10。（即每道题满分10分）
2、要求推导过程必须正确，猜对的答案不得分。
3、要求回答必须完全符合题目要求，如果明确要求不写解释，而回答包含了解释部分，即使正确，也记0分。