AI大模型横评-9月Update(O1,Grok2,Qwen,Step-2)
#0 本期看点
1)各大模型纷纷推出大规模,排行榜剧烈变动
2)OpenAI新模型O1似乎要杀死比赛
3)阿里,腾讯翻身一跃
#1 前情提要
本评测是个人性质,结合自己需求和对大模型的理解,使用私有题库进行长期跟踪评测。不够权威,不够全面。但可以从一个侧面观察各个大模型的长期进化趋势。
任何评测都无法给出无死角的权威排行榜,笔者写这个系列也是分享一种评测思路,以及个人见解。每个人应该根据自己所需,对大模型进行考察。
对于V3题库
的说明,此处不赘述,新读者请参见:https://zhuanlan.zhihu.com/p/695717926
但请允许笔者再次表述一次V3题库的局限,新题库聚焦最能反映硬逻辑能力的题型,尽可能逼近模型能力极限,因此不再能反映用户实际体验。可以把V3题库看作高考用来拉开区分度的大题(极限能力),但能做对大题也不代表前面简单题就全对(用户体验)。读者需要意识到,你所体验到的大模型能力,是综合了各种工程优化之后的结果,不单是逻辑能力。
#2 参赛选手
本次新增模型:
O1 Preview
O1 mini preview
Grok2 0813
Qwen-max-0919
Qwen2.5-72b
阶跃星辰
Step-2
阶跃星辰 Step-1.5V
DeepSeek V2.5
腾讯hunyuan turbo
字节豆包 240828
#3 题目和打分
本次删除2道题目,新增2题,原始分数总分为260分。
此处列出所有题目大纲和核心考点:
1、长文本理解和角色扮演:长文本理解,指令遵守
2、程序改错:代码理解
3、基于多重规则判断单据合法性:规则理解,复杂约束,日期计算
4、旅游路径规划:长文本理解,工具调用能力
5、【Medium】公元纪年推算天干纪年
:计算能力,规则理解
6、【Medium】阅读代码输出结果:代码理解,代码推导
7、【Medium】计算有时间重叠下最少会议室数量:计算能力
8、【Medium】从代码中推测json结构:代码理解,短期记忆,数据结构理解
9、【Medium】提供上下文的代码补全:代码理解,指令遵守
10、【Medium】密文解码:模拟计算
11、【Medium】棋盘上的图形:图形想象,二维记忆能力
12、【Medium】不提供规则,阅读某中文编程代码,并推导输出:符号理解,迁移学习能力
13、【Medium】扑克牌按规则洗牌求顺序:规则遵循,一维记忆
14、【Medium】正则匹配
:推理推演正则匹配结果
15、【Medium】4x4 数独题:多步推理,短期记忆,规则遵循
16、【Medium】岛屿面积计算:DFS非编程推算
17、【Medium】信息提取:指令遵守,文本迷惑性,输出格式要求
18、【Medium】第2题进阶版,增加输出要求,增加题目细节
19、【Medium】第7题变体,增加会议室数量,会议人数条件约束
20、【Medium】故事推理,故事包含复杂物品交换规则,求最终物品和主人对应关系【New】
21、【Hard】按规则拧魔方后求魔方颜色:三维记忆能力
22、【Hard】符号重定义后求表达式:规则理解,逻辑陷阱
23、【Hard】压缩算法
模拟:规则理解,文本计算
24、【Hard】按提示猜单词:利用规则推导,排除干扰
25、【Hard】给定热量的沙拉搭配:数学计算,数学规则
26、【Hard】二维字符迷宫,求入口到出口路径【New】
其中【Hard】是指目前正确率偏低的题目。【Medium】指回答正确率接近半数的题目。
打分规则:
1、每道题有至少1个得分点,回答每正确一点即得1分。最终得分是得分除以得分点总数,再乘以10。(即每道题满分10分)
2、要求推导过程必须正确,猜对的答案不得分。
3、要求回答必须完全符合题目要求,如果明确要求不写解释,而回答包含了解释部分,即使正确,也记0分。
link