当前位置: 首页 > article >正文

ChatGPT最新版本“o3”的概要

o3简介

o3于2024年12月20日发布——也就是OpenAI 12天直播的最后一天。目前处于安全性测试阶段。它是o1的继任者,旨在处理更复杂的推理任务。o3特别针对数学、科学和编程等领域进行了优化。

o3在多项基准测试中表现出色。例如,在ARC-AGI基准测试中,它的准确率是o1的三倍,并在Frontier Math测试中超越了其他模型。另外,在SWE-Bench Verified等软件工程测试中也表现出高水平。

名称由来:选择“o3”这个名字是为了避免与英国电信公司O2的商标冲突,OpenAI为避免法律问题,跳过了o2。


o3被视为最接近AGI(通用人工智能)的模型之一,它在推理能力和多任务处理上的表现受到关注。


o3性能测试详情

  • SWE-Bench Verified:这项测试评估软件问题解决能力。o3得分71.7%,大大超过o1的48.9%和o1-preview的41.3%。

  • 竞赛编程(Codeforces):o3在Codeforces平台上达到了2727的等级评分,超过了OpenAI的首席研究员的成绩。

  • ARC-AGI基准测试:o3在这项测试中取得了非常高的分数。在低计算模式下得分为75.7%,高计算模式下达到了87.5%。人类的平均表现为85%。

  • Frontier Math:o3展示了解决数学家需要数天才能完成的问题的能力,得分为25.2%,这相比前最佳成绩(State of the Art, SoTA)的2%有了显著提升。

  • AIME和GPQA Diamond:在这些测试中,o3也展示了性能的巨大飞跃,特别是在GPQA Diamond测试中超过了专家的平均水平。

成本

尽管o3提供了高水平的推理能力,但在高计算模式下每任务的成本非常高,对于像ARC-AGI这样的特殊基准测试,执行一次可能达到数千美元的成本。然而,对于日常使用来说,成本不应如此高昂。


http://www.kler.cn/a/467904.html

相关文章:

  • MOE怎样划分不同专家:K-Means聚类算法来实现将神经元特征聚类划分
  • 计算机网络 (27)IP多播
  • 单片机-LED点阵实验
  • 华为设备的VRP系统详解
  • [LeetCode-Python版]Hot100(1/100)——49. 字母异位词分组
  • 【超详细】React SSR 服务端渲染实战
  • 浙江中医药大学携手云轴科技ZStack荣获“鼎信杯”金鼎实践奖
  • uniapp视频首页页面
  • ts是什么、tsc是什么、tsx是什么、jsx是什么、scss是什么
  • WordPress新安装只安装主题后发现只有首页能打开,其他路由页面都是404,并且Elementor都打不开
  • 腾讯云智能结构化 OCR:驱动多行业数字化转型的核心引擎
  • 全方位沉浸式音响体验——利用汽车结构件作为发声体提升车内音质引言
  • NLP 技术的突破与未来:从词嵌入到 Transformer
  • Android XR:Google在扩展现实领域的第二次起航
  • 五类推理(逻辑推理、概率推理、图推理、基于深度学习的推理)的开源库 (一)
  • 力扣--343.整数拆分
  • RAG(Retrieval-Augmented Generation,检索增强生成)流程
  • 【leetcode100】二叉树的直径
  • 正则表达式在JSON里报错
  • .NET框架用C#实现PDF转HTML
  • 下载linux aarch64版本的htop
  • 对一段已知行情用python中画出K线图~
  • 利用LlamaIndex实现超参数调优自动化
  • 【数据结构】链表链表
  • 若依修改超级管理员admin的密码
  • 【Leetcode 每日一题】732. 我的日程安排表 III