当前位置: 首页 > article >正文

AI大模型横评-9月Update(O1,Grok2,Qwen,Step-2)

#0 本期看点
1)各大模型纷纷推出大规模,排行榜剧烈变动
2)OpenAI新模型O1似乎要杀死比赛
3)阿里,腾讯翻身一跃


#1 前情提要
本评测是个人性质,结合自己需求和对大模型的理解,使用私有题库进行长期跟踪评测。不够权威,不够全面。但可以从一个侧面观察各个大模型的长期进化趋势。
任何评测都无法给出无死角的权威排行榜,笔者写这个系列也是分享一种评测思路,以及个人见解。每个人应该根据自己所需,对大模型进行考察。


对于V3题库 的说明,此处不赘述,新读者请参见:zhuanlan.zhihu.com/p/69
但请允许笔者再次表述一次V3题库的局限,新题库聚焦最能反映硬逻辑能力的题型,尽可能逼近模型能力极限,因此不再能反映用户实际体验。可以把V3题库看作高考用来拉开区分度的大题(极限能力),但能做对大题也不代表前面简单题就全对(用户体验)。读者需要意识到,你所体验到的大模型能力,是综合了各种工程优化之后的结果,不单是逻辑能力。


#2 参赛选手
本次新增模型:
O1 Preview
O1 mini preview
Grok2 0813
Qwen-max-0919
Qwen2.5-72b
阶跃星辰 Step-2
阶跃星辰 Step-1.5V
DeepSeek V2.5
腾讯hunyuan turbo
字节豆包 240828


#3 题目和打分
本次删除2道题目,新增2题,原始分数总分为260分。
此处列出所有题目大纲和核心考点
1、长文本理解和角色扮演:长文本理解,指令遵守
2、程序改错:代码理解
3、基于多重规则判断单据合法性:规则理解,复杂约束,日期计算
4、旅游路径规划:长文本理解,工具调用能力
5、【Medium】公元纪年推算天干纪年 :计算能力,规则理解
6、【Medium】阅读代码输出结果:代码理解,代码推导
7、【Medium】计算有时间重叠下最少会议室数量:计算能力
8、【Medium】从代码中推测json结构:代码理解,短期记忆,数据结构理解
9、【Medium】提供上下文的代码补全:代码理解,指令遵守
10、【Medium】密文解码:模拟计算
11、【Medium】棋盘上的图形:图形想象,二维记忆能力
12、【Medium】不提供规则,阅读某中文编程代码,并推导输出:符号理解,迁移学习能力
13、【Medium】扑克牌按规则洗牌求顺序:规则遵循,一维记忆
14、【Medium】正则匹配 :推理推演正则匹配结果
15、【Medium】4x4 数独题:多步推理,短期记忆,规则遵循
16、【Medium】岛屿面积计算:DFS非编程推算
17、【Medium】信息提取:指令遵守,文本迷惑性,输出格式要求
18、【Medium】第2题进阶版,增加输出要求,增加题目细节
19、【Medium】第7题变体,增加会议室数量,会议人数条件约束
20、【Medium】故事推理,故事包含复杂物品交换规则,求最终物品和主人对应关系【New】
21、【Hard】按规则拧魔方后求魔方颜色:三维记忆能力
22、【Hard】符号重定义后求表达式:规则理解,逻辑陷阱
23、【Hard】压缩算法 模拟:规则理解,文本计算
24、【Hard】按提示猜单词:利用规则推导,排除干扰
25、【Hard】给定热量的沙拉搭配:数学计算,数学规则
26、【Hard】二维字符迷宫,求入口到出口路径【New】


其中【Hard】是指目前正确率偏低的题目。【Medium】指回答正确率接近半数的题目。
打分规则
1、每道题有至少1个得分点,回答每正确一点即得1分。最终得分是得分除以得分点总数,再乘以10。(即每道题满分10分)
2、要求推导过程必须正确,猜对的答案不得分。
3、要求回答必须完全符合题目要求,如果明确要求不写解释,而回答包含了解释部分,即使正确,也记0分。

link


http://www.kler.cn/a/321264.html

相关文章:

  • 记一次Maven拉不了包的问题
  • CSS中的calc函数使用
  • 领克Z20结合AI技术,革新自动驾驶辅助系统
  • Odoo 免费开源 ERP:通过 JavaScript 创建对话框窗口的技术实践分享
  • 【C++基础】09、结构体
  • 安装openGauss数据库一主一备
  • 计算机毕业设计 基于Python的医疗预约与诊断系统 Django+Vue 前后端分离 附源码 讲解 文档
  • 编译 FFmpeg 以支持 AV1 编解码器以及其他硬件加速选项(如 NVENC、VAAPI 等)
  • 谷歌深度学习研究揭示OpenAI O1模型优化策略:比规模更重要的计算效率
  • Java中的锁总结
  • Qt信号说明
  • 【Linux】项目自动化构建工具-make/Makefile 详解
  • Linux系统之部署web-resume静态个人简历网页
  • 时序,这很Transformer!颠覆传统,实现了性能的全面超越!
  • Vue3+Element-UI Plus登录静态页
  • vite ts vue中配置@路径别名报错标红
  • 机械设备产品资料方案介绍小程序系统开发制作
  • 【数据结构】排序算法---桶排序
  • SVM原理
  • docker-compose.yml entrypoint 和command 关系
  • 利用 Flink CDC 实现实时数据同步与分析
  • 使用vite+react+ts+Ant Design开发后台管理项目(一)
  • 以数赋能实景三维创新“科技+文旅”
  • 数据结构-3.1.栈的基本概念
  • Redis常用命令笔记
  • Leetcode - 139双周赛