当前位置: 首页 > article >正文

ChatGPT高级语音模式正在向Web网页端推出!

大家好,我是木易,一个持续关注AI领域的互联网技术产品经理,国内Top2本科,美国Top10 CS研究生,MBA。我坚信AI是普通人变强的“外挂”,专注于分享AI全维度知识,包括但不限于AI科普AI工具测评AI效率提升AI行业洞察。关注我,AI之路不迷路,2024我们一起变强。

就在几小时前,OpenAI官方账号在社交媒体平台X上发布了一条“晦涩难懂”的帖子。

Another Advanced Voice update for you—it’s rolling out now on http://chatgpt.com on desktop for all paid users.

So you can easily learn how to say the things you're doing an entire presentation on.

你能看懂OpenAI在说什么吗?其实不止是我们,连母语是英文的外国网友们也纷纷表示看不懂这条更新描述,表示“读得脑仁疼”。

经过多方查证,OpenAI这条更新指的是高级语音模式(Advanced Voice Mode),也就是平时说的实时语音,正在向ChatGPT网页端推出!也就是,以后可以在浏览器上和ChatGPT语音对话了!

来自网友的确认。

ChatGPT上的语音模式分为两种:标准语音模式(Standard voice)和高级语音模式(Advanced Voice Mode)

其中,标准语音模式是通过传统的文本转语音模型(TTS,Text To Speech) 实现的,也就是如果你对ChatGPT说一句话,会经过语音转文本、文本处理(生成答案)、文本转语音这三个过程,技术层面看用到的模型分别是Whisper语音转文本模型GPT-4Text To Speech文本转语音模型。

这样的语音模式造成的效果就是延迟感很重,每一个问题ChatGPT都需要思考一段时间然后再说话,并且一旦ChatGPT开始说话,就无法停止,你必须耐着性子听完整个回答。这是由上面提到的实现方式决定的。

而高级语音模式则完全不同。高级语音模式基于GPT-4o模型的多模态能力,采用了端到端的语音处理方式,直接通过GPT-4o模型进行语音理解和生成一条龙服务。正因为此,这种语音模式下的对话更加自然流畅,基本感受不到延迟,同时端到端意味着可以随时打断ChatGPT的回复,就像是人和人之间真正的对话一样。高级语音模式的另外一个重要特点是能够理解语音语调、速度和情感变化,提供无限逼近自然对话的语音交互体验。

这也是为什么高级语音模式(Advanced Voice Mode)一经推出就备受好评的原因。而市面上其他大多数支持语音对话的AI工具还都停留在传统的文本转语音阶段。

由于受到系统、技术框架的限制,语音模式一直以来都是手机app的专属功能。就在最近,才在桌面客户端,包括Mac和Win两个版本,也上线了高级语音模式。

而本周起,我们将能够直接在ChatGPT网页端(即浏览器)使用高级语音功能,和ChatGPT对话。这对于没有或不想用桌面客户端的小伙伴还是非常友好的。

和之前的一些高级功能一样,网页端的高级语音功能也是优先向付费用户开放,包括Plus/Enterprise/Team/Edu计划的订阅用户。其中受众最广的Plus会员,费用为20美元每月。如何开通ChatGPT Plus或Team会员,可以看我这篇文章。

关于高级语音模式更加详细的解释和介绍,可以看以下系列文章。

结语

附上OpenAI首席产品官(CPO)Kevin Weil针对这个更新的详细介绍。


精选推荐​​​​​​​


都读到这里了,点个赞鼓励一下吧,小手一赞,年薪百万!😊👍👍👍。关注我,AI之路不迷路,原创技术文章第一时间推送🤖。


http://www.kler.cn/a/404238.html

相关文章:

  • 问题: redis-高并发场景下如何保证缓存数据与数据库的最终一致性
  • STM32H7开发笔记(2)——H7外设之多路定时器中断
  • 【数据结构】【线性表】【练习】删除链表倒数第n个结点
  • 241121学习日志——[CSDIY] [InternStudio] 大模型训练营 [11]
  • 索贝融媒体 Sc-TaskMonitoring/rest/task/search SQL注入漏洞复现
  • 基于rkmedia的视频解码
  • (十八)JavaWeb后端开发案例——会话/yml/过滤器/拦截器
  • 从零开始学习python 11 (持续更新ing)
  • torch.utils.data.dataset 的数据组织形式——python list、dict、tuple内存消耗量
  • 企业网络安全规划建设实践
  • 湛江市社保卡申领指南:手机获取电子照片回执单号
  • 纯血鸿蒙NEXT-组件导航 (Navigation)
  • Xilinx System Generator时序和资源分析方法
  • 题目一:bugku---game1
  • 3.9MayBeSomeAssembly
  • Flink Joins
  • vulfocus在线靶场:骑士cms_cve_2020_35339:latest 速通手册
  • 初试无监督学习 - K均值聚类算法
  • E+H液位计FMU40-ARB2A2
  • grafana+prometheus+windows_exporter实现windows进程资源占用的监控
  • C# Postman或者PostApi调试前端webapi接口发送带有request/body/head信息
  • 量化交易系统开发-实时行情自动化交易-4.2.1.简单移动平均线实现
  • vscode 远程连接ssh 密钥方式
  • 在有网络连接的机器上打包 electron 及其依赖项,在没有网络连接的机器上安装这些离线包
  • 【数据结构】【线性表】【练习】反转链表
  • Docker安装并配置Mongodb4.0