大语言模型通用能力排行榜(2024年10月8日更新)
数据来源SuperCLUE
榜单数据为通用能力排行榜
排名 | 模型名称 | 机构 | 总分 | 理科 | 文科 | Hard | 使用方式 | 发布日期 |
---|---|---|---|---|---|---|---|---|
- | o1-preview | OpenAI | 75.85 | 86.07 | 76.6 | 64.89 | API | 2024年11月8日 |
- | Claude 3.5 Sonnet(20241022) | Anthropic | 70.88 | 82.48 | 76.56 | 53.6 | POE | 2024年11月8日 |
- | ChatGPT-4o-latest | OpenAI | 70.85 | 84.65 | 77.1 | 50.8 | API | 2024年11月8日 |
🏅 | GLM-4-Plus | 智谱AI | 69.64 | 81.41 | 76.44 | 51.08 | API | 2024年11月8日 |
🏅 | SenseChat 5.5 | 商汤 | 69 | 81.17 | 76.67 | 49.16 | API | 2024年11月8日 |
🏅 | AndesGPT-2.0 | OPPO | 68.91 | 81.46 | 76.61 | 48.64 | API | 2024年11月8日 |
🏅 | Qwen2.5-72B-Instruct | 阿里巴巴 | 68.9 | 83.12 | 76.96 | 46.64 | API | 2024年11月8日 |
- | Claude 3.5 Sonnet(20240620) | Anthropic | 68.23 | 81.68 | 76.54 | 46.48 | poe | 2024年11月8日 |
- | Gemini-1.5-Pro-002 | | 68.19 | 80.42 | 76.32 | 47.82 | API | 2024年11月8日 |
- | Qwen-max-0919 | 阿里巴巴 | 68 | 83.03 | 76.5 | 44.48 | API | 2024年11月8日 |
- | GPT-4-Turbo-2024-04-09 | OpenAI | 67.48 | 80.78 | 74.85 | 46.82 | API | 2024年11月8日 |
🥈 | Hunyuan-Turbo | 腾讯 | 67.35 | 81.47 | 76.84 | 43.74 | API | 2024年11月8日 |
🥈 | 360gpt2-pro | 360 | 67.19 | 82.95 | 74.94 | 43.68 | API | 2024年11月8日 |
🥈 | Step-2-16k | 阶跃星辰 | 67.02 | 80.52 | 76.65 | 43.91 | API | 2024年11月8日 |
🥈 | DeepSeek-V2.5 | 深度求索 | 66.87 | 81.69 | 75.42 | 43.5 | API | 2024年11月8日 |
🥈 | Doubao-pro-0828 | 字节跳动 | 66.43 | 79.98 | 75.1 | 44.22 | API | 2024年11月8日 |
🥉 | Baichuan4 | 百川智能 | 66.28 | 81.81 | 75.94 | 41.1 | API | 2024年11月8日 |
🥉 | 山海大模型4.0 | 云知声 | 66.26 | 80.05 | 75.38 | 43.34 | API | 2024年11月8日 |
🥉 | TeleChat2-Large | TeleAI | 66.23 | 78.85 | 75.54 | 44.28 | API | 2024年11月8日 |
- | Llama-3.1-405B-Instruct | Meta | 65.84 | 80.54 | 71.53 | 45.46 | API | 2024年11月8日 |
4 | Ernie-4.0-turbo-8k-preview | 百度 | 64.93 | 78.69 | 74.4 | 41.7 | API | 2024年11月8日 |
- | GPT-4o-mini | OpenAI | 64.85 | 79.84 | 73.24 | 41.46 | API | 2024年11月8日 |
4 | Moonshot(kimi) | 月之暗面 | 63.93 | 74.37 | 75.08 | 42.34 | 网页 | 2024年11月8日 |
5 | Sky-Chat-3.0 | 昆仑万维 | 62.64 | 74.32 | 75.46 | 38.12 | API | 2024年11月8日 |
5 | TeleChat2-35B | TeleAI | 62.46 | 74.07 | 74.05 | 39.26 | 模型 | 2024年11月8日 |
- | Llama-3.1-70B-Instruct | Meta | 61.62 | 77.52 | 69.64 | 37.7 | API | 2024年11月8日 |
6 | Qwen2.5-7B-Instruct | 阿里巴巴 | 60.61 | 74.62 | 73.28 | 33.92 | API | 2024年11月8日 |
- | Llama-3.2-90B-Instruct | Meta | 60.58 | 75.89 | 69 | 36.84 | API | 2024年11月8日 |
7 | 讯飞星火V4.0 | 科大讯飞 | 59.4 | 72.49 | 71.55 | 34.16 | API | 2024年11月8日 |
8 | GLM-4-9B-Chat | 智谱AI | 56.83 | 69.22 | 71.94 | 29.32 | 模型 | 2024年11月8日 |
- | Gemma-2-9b-it | | 55.48 | 67.78 | 69.62 | 29.02 | 模型 | 2024年11月8日 |
9 | MiniCPM3-4B | 面壁智能 | 53.16 | 63.04 | 69.87 | 26.56 | 模型 | 2024年11月8日 |
- | Llama-3.1-8B-Instruct | Meta | 51.42 | 63.27 | 65.3 | 25.69 | API | 2024年11月8日 |
10 | Yi-1.5-9B-Chat-16K | 零一万物 | 51.37 | 59.2 | 67.86 | 27.06 | 模型 | 2024年11月8日 |
- | Llama-3.2-11B-Instruct | Meta | 50.61 | 63.1 | 64.02 | 24.72 | API | 2024年11月8日 |
11 | Yi-1.5-6B-Chat | 零一万物 | 48.69 | 57.03 | 63.89 | 25.16 | 模型 | 2024年11月8日 |
12 | Qwen2.5-1.5B-Instruct | 阿里巴巴 | 43.92 | 46.14 | 64.54 | 21.1 | API | 2024年11月8日 |
- | Gemma-2-2b-it | | 42.25 | 43.36 | 63.72 | 19.67 | 模型 | 2024年11月8日 |
- | Phi-3-Mini-4K-Instruct | 微软 | 39.98 | 52.28 | 44.75 | 22.9 | 模型 | 2024年11月8日 |
- | Mistral-7B-Instruct-v0.3 | Mistral AI | 37.11 | 41.06 | 51.21 | 19.05 | 模型 | 2024年11月8日 |
13 | Baichuan2-7B-Chat | 百川智能 | 33.59 | 28.46 | 58.09 | 14.22 | 模型 | 2024年11月8日 |
13 | Qwen2.5-0.5B-Instruct | 阿里巴巴 | 32.85 | 30.53 | 54.13 | 13.9 | API | 2024年11月8日 |
13 | RWKV-6-World-7B | RWKV | 32.76 | 27.46 | 58.05 | 12.76 | 模型 | 2024年11月8日 |