OpenAI 正式发布 GPT-4.5 模型
OpenAI 正式发布 GPT-4.5
当地时间 2 月 27 日,OpenAI 通过一段 13 分钟的视频发布了最新模型 GPT-4.5。这是一个定位并非最顶尖,但号称 “情商最高” 的通用型大语言模型,其 API 调用价高于主流模型 GPT-4o。
OpenAI 研究副总裁 Mia Glaese 介绍,该模型能进行热情、直观、自然流畅的对话,对用户需求理解力更强。CEO 山姆・奥特曼称,这是首个让人感觉在和有思想的人对话的模型。与其他 GPT 模型相比,GPT-4.5 准确性更高,幻觉比率更低,被认为是 “最好的聊天模型” 。
发布会举例展示其 “高情商”。当输入 “我又被朋友‘放鸽子’了,我要发一个‘恨他们’的短信”,GPT-4.5 会先安抚情绪,再给出相对委婉的短信内容,互动更自然。而此前模型 o1 只是忠实按要求完成任务。
GPT-4.5 并非推理模型,而是 OpenAI 目前规模最大、知识储备最丰富的大模型。其训练使用了 GPT-4o 10 倍的计算能力,展示了预训练规模扩展带来的能力提升。在多项基准测试中,它超过了 GPT-4o,数学能力上升 27%,编码能力提升 7%-10% 。
不过,GPT-4.5 的发布也标志着一个时代的结束。OpenAI 表示,它将是聊天机器人系统最后一个不进行 “思维链推理” 的版本。之后,OpenAI 模型可能像人类一样,花时间思考再回答,而非立即回应。自去年 9 月 OpenAI o1 发布后,推理模型主导大模型技术发展,尤其是 Deepseek R1 引发热潮之后。
目前,GPT-4.5 仅向 ChatGPT Pro 用户推出。山姆・奥特曼称这是个庞大且昂贵的模型,下周将增加数万张 GPU 。
GPT-4.5的发布对人工智能行业有何影响?
当地时间 2 月 27 日,OpenAI 发布最新模型 GPT-4.5 的研究预览版,这一举措在人工智能行业激起千层浪,从技术革新到市场竞争,多方面产生了深远影响。
在技术层面,GPT-4.5 带来了新的突破与思考。它通过扩大无监督学习和推理方法训练,成为 OpenAI 目前规模最大、知识储备最丰富的模型之一,拥有 1 万亿激活参数,训练数据量高达 120 万亿 tokens 。其上下文窗口长度扩展至 256K,在处理复杂任务时准确性更高,“幻觉率”(错误生成虚假信息的概率)仅为 37.1%,远低于 GPT-4 的 61.8%,这使得模型在处理事实性问题时更加可靠,为自然语言处理任务提供了更坚实的技术支撑,推动了行业对于提升模型准确性、降低错误信息生成方向的研究。同时,它标志着 OpenAI 在人工智能技术发展上的一个重要过渡,作为最后一款 “非链式思维” 模型,未来将作为推理模型的基础,启发其他企业对模型架构和发展路径进行新的探索。
从应用角度出发,GPT-4.5 的 “高情商” 特性极大地拓宽了人工智能的应用边界。它能够进行更自然、温暖且具 “人情味” 的对话,在情感交流、写作辅助、客户服务等领域具有显著优势。比如在客户服务场景中,能更好地理解客户情绪并提供安抚和解决方案,提升客户满意度;在写作辅助方面,可优化内容、激发创意,为创作者带来新的灵感与帮助。这促使各行业重新审视人工智能在人性化交互场景中的应用潜力,推动更多企业将人工智能技术深度融入到自身业务流程中,以提升服务质量和用户体验。
在市场竞争方面,GPT-4.5 的发布加剧了全球 AI 市场的竞争态势。OpenAI 作为行业头部企业,其每一次新模型发布都吸引大量关注与资源投入。面对 Anthropic、xAI 以及中国 DeepSeek 等企业的激烈竞争,OpenAI 此举旨在通过技术创新保持领先地位。这将促使其他竞争对手加快研发进程,推出更具竞争力的产品和服务,形成良性竞争循环,推动整个 AI 行业的技术进步与服务优化。同时,GPT-4.5 高昂的价格(每百万 token 输出 150 美元,远高于 GPT-4o 的 60 美元)也给市场带来新的思考,在追求高性能模型的同时,如何平衡成本与效益,为不同需求的用户提供性价比合适的解决方案,成为企业竞争的关键因素之一。
在行业生态建设上,GPT-4.5 的发布进一步推动了 AI 开源与协作生态的发展。随着技术竞争升级,OpenAI 等企业面临着来自开源模型项目的挑战,如法国 Mistral 与中国的 DeepSeek 等开源项目已证明去中心化模式的可行性。这将促使 OpenAI 等企业重新审视自身的开源策略,以吸引更多开发者参与模型的优化与应用开发,构建更丰富的 AI 生态系统。对于开发者而言,GPT-4.5 的 API 开放为他们提供了新的开发工具,激励开发者基于此开发出更多创新应用,丰富 AI 应用场景,促进整个行业生态的繁荣。
以下是关于 OpenAI 发布的 GPT-4.5 模型的详细技术参数及特性介绍:
1. 核心架构与训练
- 定位:OpenAI 迄今为止规模最大、知识储备最丰富的通用型大语言模型之一,内部代号为 “Orion”。
- 训练方式:
- 采用无监督学习为主的训练方法,通过扩展计算资源和优化架构提升模型能力。
- 训练数据量高达120 万亿 tokens,激活参数达1 万亿(据界面新闻报道)。
- 未公开具体参数规模(如参数量、训练数据集细节),延续 OpenAI 对技术细节的保密策略。
2. 关键技术参数
- 上下文窗口:支持256K tokens(约 19.2 万字),远超 GPT-4 的 32K/8K 窗口,可处理超长文本对话或文档分析。
- 计算效率:相比 GPT-4 提升10 倍以上,在保持高性能的同时降低资源消耗。
- 幻觉率:错误生成虚假信息的概率仅为37.1%,显著低于 GPT-4 的 61.8% 和 GPT-4o 的 59.8%,事实性准确性大幅提升。
- 多模态能力:暂未开放官方多模态支持,但有推测称其具备基础图像理解能力(未获 OpenAI 正式确认)。
3. 性能表现
- 基准测试:
- 数学与科学:在 AIME’24 数学竞赛基准中,准确率较 GPT-4o 提升 27.4%;科学类问答(GPQA)准确率提升 17.8%,但仍低于推理模型(如 o3-mini)。
- 编码能力:在 SWE-Bench Verified 基准中与 GPT-4o 相当,但逊色于 Claude 3.7 Sonnet 等推理模型。
- 多语言任务:在 MMMU 基准中领先,支持更复杂的跨语言理解。
- 情感智能:通过强化学习(RLHF)和人类反馈优化,对话更自然、共情,擅长安抚情绪、激发创意等场景。
4. 与前代模型对比
特性 | GPT-4.5 | GPT-4o | o3-mini |
---|---|---|---|
定位 | 通用型、高情商 | 多模态推理模型 | 专业推理模型 |
上下文窗口 | 256K tokens | 32K tokens | 64K tokens |
幻觉率 | 37.1% | 59.8% | 较高(专注推理) |
数学能力 | 优于 GPT-4o,但低于 o3-mini | 中等 | 顶尖(擅长复杂推理) |
多模态支持 | 未明确(推测有限) | 支持文本、图像、音频 | 仅文本 |
5. 应用与限制
- 优势场景:情感交流、写作辅助、客户服务、创意生成等需人性化交互的领域。
- 限制:
- 非推理模型,复杂逻辑任务(如数学证明)表现弱于 o3-mini 等推理模型。
- 多模态功能未完全开放,暂不支持视频、语音等交互。
- API 调用成本高昂:每百万 token 输出150 美元,远超 GPT-4o 的 60 美元。
6. 行业意义
- 技术过渡:作为 OpenAI 最后一款 “非链式思维” 模型,为后续推理模型(如 o3-mini)奠定基础。
- 生态影响:推动行业向 “高情商” 交互方向发展,同时加剧 AI 市场竞争,促使其他企业优化模型人性化能力。
注:部分技术参数(如参数量、训练细节)未被 OpenAI 官方公开,上述数据综合自多方报道及行业分析。