当前位置：首页 > article >正文

OpenAI GPT-4震撼发布：多模态大模型

article 2025/3/4 5:55:34

OpenAI GPT-4震撼发布：多模态大模型

- 发布要点
- GPT4的新功能
- - GPT-4:我能玩梗图
  - GPT4:理解图片
  - GPT4:识别与解析图片内容
  - 怎样面对GPT4
- 申请 GPT-4 API

前言：
🏠个人主页：以山河作礼。
📝📝:本文章是帮助大家更加了解GPT4，一起见证Al的成长！
🎈🎈欢迎大家一起学习，一起成长！！

3 月 14 日晚间，OpenAI 宣布发布 GPT-4。
在这里插入图片描述

“我们创建了 GPT-4，这是 OpenAI 努力扩展深度学习的最新里程碑。GPT-4 是一个大型多模态模型（接受图像和文本输入，提供文本输出），虽然在许多现实世界场景中的能力不如人类，但在各种专业和学术基准上表现出人类水平”，OpenAI 表示。

发布要点

GPT-4可以接受图像和文本输入，而GPT-3.5只接受文本。
GPT-4在各种专业和学术基准上的表现达到 “人类水平”。例如，它通过了模拟的律师考试，分数约为应试者的前10%。
OpenAI花了6个月的时间，利用从对抗性测试项目以及ChatGPT中获得的经验，反复调整GPT-4，结果在事实性、可引导性和可控制方面取得了
“史上最佳结果”。
在简单的聊天中，GPT-3.5和GPT-4之间的区别可能微不足道，但是当任务的复杂性达到足够的阈值时，区别就出来了，GPT-4比GPT-3.5更可靠，更有创造力，能够处理更细微的指令。
GPT-4能对相对复杂的图像进行说明和解释，比如说，从插入iPhone的图片中识别出一个Lightning
Cable适配器（下文有图片）。
图像理解能力还没有向所有OpenAI的客户开发，OpenAI正在与合作伙伴Be My Eyes进行测试。
OpenAI承认，GPT-4并不完美，仍然会对事实验证的问题产生错乱感，也会犯一些推理错误，偶尔过度自信。
开源OpenAI Evals,用于创建和运行评估GPT-4等模型的基准，同时逐个样本检查其性能。

OpenAI 联合创始人 Sam Altman 表示，它是“迄今为止功能最强大、最一致的模型”，能够使用图像和文本。

GPT4的新功能

GPT-4:我能玩梗图

在这里插入图片描述
首先，看图能力可以用来解释表情包、梗图。
提问这张图哪里好笑？GPT-4可以按顺序描述出每一格的内容，并总结出笑点：

为什么这张图片很可笑？GPT-4 回答道，VGA 线充 iPhone。

GPT4:理解图片

当你给 GPT-4 发送下面这张图片，并询问它，该图片有哪些不寻常的地方？
在这里插入图片描述
GPT-4 回答：这张照片的不同寻常之处在于，一名男子正在行驶中的出租车车顶上的熨衣板上熨烫衣服。

在这里插入图片描述

(看图）手套掉下去会怎样?

GPT-4 回答道,它会掉到木板上，并且球会被弹飞

请添加图片描述

拍一张照片上传给GPT-4，它就可以立马生成网站的HTML代码！
请添加图片描述

GPT4:识别与解析图片内容

在性能表现上，OpenAI直接甩出一句话：

在各种专业和学术基准上和人类相当！

最近这几个月，ChatGPT 的爆火，让人们惊叹于人工智能强大的聊天能力。GPT4 出来后，可以看到，在聊天之外，人工智能的能力已不断扩展其外延。

ChatGPT 用的语言模型是 GPT-3.5。在谈到 GPT-4 比前一个版本强大在哪里时，OpenAI
称，虽然这两个版本在随意的谈话中看起来很相似，但“当任务的复杂性达到足够的阈值时，差异就会出现”，GPT-4
更可靠、更有创意，并且能够处理更细微的指令。该公司表示，GPT-4 响应禁止内容请求的可能性比其前一个版本低 82%。OpenAI
表示，在内部评估中，GPT-4 产生正确回应的可能性要比 GPT-3.5 高出 40%。

而且 GPT-4 是多模态的，同时支持文本和图像输入功能。此外，GPT-4 比以前的版本“更大”，这意味着其已经在更多的数据上进行了训练，并且在模型文件中有更多的权重，这也使得它的运行成本更高。
OpenAI 称它使用了微软 Azure 来训练模型，但没有公布有关具体模型大小或用于训练它的硬件的详细信息。

史上最强大模型

正如之前传言，GPT-4确实拥有多模态能力，可以接受图像输入并理解图像内容。
并且可接受的文字输入长度也增加到3.2万个token（约2.4万单词）。
升级之后，GPT-4在各种职业和学术考试上表现和人类水平相当。
比如模拟律师考试，GPT-4取得了前10%的好成绩，相比之下GPT-3.5是倒数10%。
做美国高考SAT试题，GPT-4也在阅读写作中拿下710分高分、数学700分（满分800）。

怎样面对GPT4

GPT-4 再次给我们敲响了警钟：拥有如此强大的编程能力，AI 真的会取代程序员？

前段时间，前哈佛大学计算机科学教授、谷歌工程主管 Matt Welsh 还曾对此发出断言，表示“生成式 AI 将在 3 年内终结编程”，放在当下来看，也许 Welsh 所言非虚。

Welsh 认为，由于 ChatGPT 和 Copilot
等技术的出现，编程正处于从人类工作转变为机器人工作的转折点。在他看来，程序员需要演变成 AI
程序的“老师”——或者产品经理，或者代码评审人员。他认为这两个人类角色相对来说不那么受机器人的影响。“不要指望你的程序员职业生涯会一直持续下去，因为机器正在取代这个角色。”Welsh说道。

也许我们正处于一个动荡的周期之中，现在的问题不是会不会被取代，而是 AI 将在多大程度上改变软件行业，而我们也需要为未来做好准备：现在就必须习惯人工智能，毕竟让 AI 帮助我们编程就在不远的未来。

在这里插入图片描述