当前位置：首页 > article >正文

ChatGPT实时语音将于本周向免费用户推出：OpenAI DevDay 2024详细解读

article 2024/12/23 6:48:07

大家好，我是木易，一个持续关注AI领域的互联网技术产品经理，国内Top2本科，美国Top10 CS研究生，MBA。我坚信AI是普通人变强的“外挂”，专注于分享AI全维度知识，包括但不限于AI科普，AI工具测评，AI效率提升，AI行业洞察。关注我，AI之路不迷路，2024我们一起变强。

北美时间2024年10月1日，2024年度的OpenAI开发者大会（OpenAI DevDay 2024）如期而至。

1. ChatGPT实时语音将于本周向免费用户推出

在OpenAI DevDay 2024的最新更新中，OpenAI宣布从本周开始，实时语音功能（Advanced Voice Mode）将面向全球所有ChatGPT Enterprise、Edu和Team用户推出。此外，免费用户也将能够抢先体验到这一功能。

虽然OpenAI如是说，但不出意外，ChatGPT免费用户应该是只能够短暂体验实时语音功能（Advanced Voice Mode）这一新功能。毕竟对于ChatGPT Plus用户，实时语音功能也是有着聊天时长限制的，超过规定的聊天时长后，语音模式将会自动切换为标准语音模式（标准语音模式）。

目前OpenAI并没有给出明确的聊天时长限制，只是表示聊天时长的限制可能会随着计算资源而动态调整。聊天时长达到上限前15分钟，ChatGPT会发出通知提醒。

2. Realtime API

对于开发者，OpenAI推出了Realtime API，允许开发者在其应用中构建快速的语音聊天体验，类似于上面提到的ChatGPT实时语音模式（Advanced Voice Mode），但适用于开发者自己的应用。此API以低延迟提供自然的语音对话，现已面向付费开发者以公测形式推出。除了Realtime API，OpenAI还在其Chat Completions API中增加了音频输入和输出功能，开发者无需再将多个模型组合使用，单次API调用即可实现自然的语音对话体验。

主要特点：

低延迟的多模态体验：开发者可利用Realtime API实现快速的语音到语音转换，并支持在对话中插入功能调用，使语音助手可以执行操作或拉取上下文。
典型应用场景：可用于客户服务、语言学习、健康和健身教练等场景，提供自然流畅的语音交互。
音频定价：Realtime API支持文本和音频输入输出，按token分别计费，价格为每百万个输入音频tokens 100美元，每百万个输出音频tokens 200美元。
安全与隐私：Realtime API具备多层安全防护，防止滥用，并对用户输入输出进行监控。

3. 在Playground中自动生成Prompt

在OpenAI DevDay的更新中，OpenAI在Playground推出了自动生成Prompt提示词的功能。此功能可以帮助开发者更快地将想法转化为原型。开发者只需简单描述其使用模型的目的，Playground就会自动生成提示、有效的函数架构和结构化输出格式，让开发者更轻松地进行原型设计。

用过Claude控制台的小伙伴应该可以联想到，OpenAI新推出的这个功能对标的就是Claude几个月前在控制台添加的自动生成提示词的功能。详情可以看我这篇文章：《Claude更新王炸功能：一键生成、评估、优化提示词！》。

4. Prompt Caching（提示缓存）

此外，OpenAI推出了Prompt Caching（提示缓存）功能，让开发者能够降低使用成本并加快提示词处理速度。此功能可自动对模型最近处理过的输入令牌进行缓存，开发者可以以50%的折扣价格重复使用这些令牌，并且不会影响延迟。

主要特点：

折扣与定价：对于已经缓存的输入令牌，开发者可以获得50%的折扣。例如，GPT-4o模型的未缓存输入令牌费用为每百万tokens 2.50美元，而缓存令牌的费用为1.25美元。
自动应用：Prompt Caching将自动应用于最新版本的GPT-4o、GPT-4o mini、o1-preview和o1-mini模型，以及它们的微调版本。提示内容超过1024个令牌时，API会自动缓存，开发者无需修改API集成。
缓存清除：缓存通常在5到10分钟不活跃后清除，并在最后一次使用后一小时内完全移除。
企业隐私承诺：缓存不会在组织之间共享，且遵循OpenAI的企业隐私协议。

最后提一句，OpenAI这次推出的Prompt Caching（提示缓存）功能对标的也是Claude在今年8月推出的同名称的功能。

5. Model Distillation（模型蒸馏）

OpenAI在本次更新中推出了Model Distillation（模型蒸馏）功能，这是一个用于微调较小、成本效益更高模型的工作流程，利用大型模型（如GPT-4o或o1-preview）的输出来提升性能。

模型蒸馏的主要功能：

存储完成（Stored Completions）：开发者可以通过API捕捉并存储模型生成的输入输出对，生成用于微调的数据集。这使得使用生产数据构建数据集变得更加简单，以便评估和微调较小的模型。
评估（Evals，测试版）：开发者可以在OpenAI平台上创建和运行自定义评估，以衡量模型在特定任务上的性能。Evals与微调流程完全集成，也可以独立使用来评估模型性能。
微调集成：存储完成和评估工具与现有的微调功能相结合，开发者可以使用存储的完成数据集进行微调，并使用Evals测试微调后的模型性能。

模型蒸馏工作流程：

通过Evals创建一个评估，以测试目标模型（如GPT-4o mini）的性能。
使用Stored Completions生成真实世界任务的数据集，将大型模型（如GPT-4o）的输出作为微调的基准数据。
使用生成的数据集微调较小的模型（如GPT-4o mini），并通过Evals不断测试其性能。

模型蒸馏定价与可用性：

Model Distillation（模型蒸馏）功能现已向所有开发者开放，支持所有OpenAI模型。开发者每天可以获得2百万个免费训练令牌用于GPT-4o mini，直到10月31日。此外，存储完成是免费的，而Evals在2024年底之前，每周最多可运行7次免费的评估，条件是开发者选择将其评估共享给OpenAI以改进未来的模型。

6. Vision Fine-tuning（视觉微调）

OpenAI宣布在其微调API中添加了对视觉微调的支持，开发者现在可以使用图像和文本微调GPT-4o。这一功能为图像理解任务提供了更强大的定制能力，适用于增强视觉搜索、改进自动驾驶的物体检测、或更精确的医学图像分析等应用。

主要特点：

图像和文本结合微调：开发者可以通过上传图像数据集来增强GPT-4o的视觉处理能力，并且只需100张图像即可实现显著性能提升。随着图像和文本数据量的增加，性能将进一步提升。
真实世界应用：通过与合作伙伴的测试，GPT-4o在改进道路图像检测、自动化企业流程以及优化网站设计等领域表现出色。例如，Grab 使用视觉微调改进了道路标志定位准确性，Automat 提高了桌面机器人在识别UI元素时的成功率，Coframe 则通过视觉微调提升了网站设计的一致性。

视觉微调定价与可用性：

视觉微调现已向所有付费开发者开放，并支持最新的GPT-4o模型（gpt-4o-2024-08-06）。OpenAI提供了免费的视觉微调训练令牌，2024年10月31日前每天最多100万免费令牌。之后，微调训练将按每百万tokens 25美元收费，推理过程则按每百万输入tokens 3.75美元、输出tokens 15美元计费。