当前位置: 首页 > article >正文

详解用大模型超拟人语音做桌面AI宠物/机器人的个性化能力

前言

本文基于前面已经落地的CSK6大模型语音视觉开发板的配套示例功能来进行讲解,超拟人交互效果可以参考视频:

超拟人语音极速回复演示视频

目前聆思平台的超拟人模板实现了快速响应、声纹识别、知识库问答、兜底闲聊、超拟人TTS等功能,具体业务流程如下:

流程详解:

  • 用户发起交互后,会进行ASR语音转文字和声纹识别,当前声纹能力支持成年人男女、儿童男女四种身份识别,模型能基于不同身份分析提供不同的个性化回复。
  • 完成识别后,若产品有配置知识库,会优先基于知识库问题匹配阈值,大于阈值则优先基于知识库内容问答,小于阈值再进入意图分类。
  • 模板提供了落域、改写、拆解模型,进行意图处理,意图分类后将进入对应流程。
  • 如用户意图属于天气、计算器、日期查询等AIUI技能,则会落域到AIUI链路,进行技能回复。
  • 如用户意图属于闲聊、开放性问答、搜索意图,则会进入大模型调用链路。最后通过一系列系统决策,进行超拟人合成。

功能详解和应用场景

一、极速响应

对比前一代大模型语言交互,深度优化音频生成速度,实现毫秒级响应;融合升级后的端侧降噪算法,处理端侧音频速度提升7倍以上;语音最快回复<1秒,能明显提升大模型语音硬件产品的交互体验。

二、超拟人TTS

采用超拟人发音,大幅提升合成音频中的情绪表达能力,音色更自然、情感丰富、语调灵动,告别“播音腔,提供多个音色选择,可用于陪伴型机器人、玩具等产品。

对比维度

超拟人语音合成

传统 TTS

自然度与拟人度

接近真人语音

生硬,无变化和细节

情感表达

声音更具感染力和亲和力

单调、机械

语言处理能力

能更准确地分析和理解文本信息

对复杂语言现象处理更精准

会出现声调不准、韵律异常等问题

应用场景

给AI语音助手、有声阅读、陪伴机器人、智能服务等提供自然情感化交互的体验

简单语音播报、信息提示等

三、声纹识别

通过声音特征区分儿童(男、女)、成人(男、女),在实际的应用场景中,可以通过声音分辨成员类别,实现个性化服务,如内容推荐、权限管理等。

可以根据儿童的声音做出不同的反应。比如,一个智能玩偶,它能够区分男孩和女孩的声音,当听到女孩温柔的声音时,它可以用比较柔和的语气回应,讲述公主之类的故事;当听到男孩充满活力的声音时,它可以提供冒险、超级英雄之类的互动内容。同时,智能玩具还可以设置权限,防止儿童误操作。

智能语音助手产品

可以根据不同年龄段和性别的用户声音,提供符合其性别和年龄阶段可能关注的内容,例如面对儿童语音助手可以用更简单易懂的语言、活泼的语气回答问题。面对成年男性提供体育赛事信息,为成年女性提供时尚资讯,以及针对不同身份提供不同的闲聊内容等。

四、知识库问答

厨房场景

结合产品功能后,除了可以可以根据用户语音指令提供精准的菜谱推荐,也可以指导操作步骤、用法用量等,让产品使用变得更加轻松和专业,即使是新用户也能快速上手做出美味佳肴。

家居电器

根据不同的场景和类型,语音推荐合适的用品,并指导用户正确使用,确保方便上手的同时避免不当操作带来的损害。当设备出现故障时,通过语音交互快速诊断问题并提供解决方案,减少维修等待时间。

宠物场景

宠物饲养过程中遇到的问题,如宠物饮食、健康护理、行为训练等方面的知识,获取专业的解答和建议,确保宠物得到科学的照顾。并可以根据宠物的具体情况,语音推荐合适的宠物用品,如食品、玩具、药品等,并提供购买建议和使用说明。

音乐娱乐场景

用户可以通过语音指令让音箱播放特定的歌曲、歌手或音乐风格的曲目,能精准理解用户需求并快速搜索播放资源,同时还能根据用户定义的音乐偏好进行个性化推荐,介绍歌曲的背景、歌手的相关信息等

学习场景

通过知识库功能快速定制个性化的学习计划和内容推荐,如推荐适合的课外读物、学习游戏或在线课程等,针对不同情况帮助孩子更高效地学习。

五、兜底闲聊

针对语音交互场景提供的闲聊技能,可以在没有合适回复内容的时候承接用户的问答,提升用户体验。

结语

以上即为当前大模型超拟人方案的个性化功能讲解,如有更多落地需求和问题可以留言,合适的需求我们会放入后续版本迭代实现

演示视频中使用的CSK6大模型语音开发板硬件设计和SDK可以直接下载,有想做详细了解的可以参考这个文档:https://docs2.listenai.com/x/nTn9kMMCU


http://www.kler.cn/a/502713.html

相关文章:

  • 【Rust】控制流
  • Docker Desktop 构建java8基础镜像jdk安装配置失效解决
  • MySQL的安装
  • 语音技术与人工智能:智能语音交互的多场景应用探索
  • Unity 自定义批量打包工具
  • 工业视觉2-相机选型
  • FilmMusic
  • 54_ Caffeine实现多级缓存
  • 后盾人JS--JS值类型使用(终章)
  • 运行爬虫时可能遇到哪些常见问题?
  • 2024—AWS:re:Invent城市巡展——武汉站参会心笺
  • 【ubuntu24.04】配置ssh以root登录
  • lombok在高版本idea中注解不生效的解决
  • 人工智能计算机视觉学习路线——从基础到深度探索
  • 从零开始搭建一个RESTful API(Node.js + Express)
  • RocketMQ、Kafka、RabbitMQ,如何选型?
  • 代码随想录算法训练营Day48 | 图论理论基础、深搜理论基础、98. 所有可达路径、广搜理论基础
  • 【Python】数据容器:列表,元组,字符串,集合字典及通用操作
  • Scala语言的软件工程
  • jenkins的作用以及操作
  • 售点POI标签计算性能优化实战:Haversine公式与区域化计算的结合
  • P11043 [蓝桥杯 2024 省 Java B] 分布式队列(c++)
  • 个人曾经ARM64_汇编角度_PLTHOOK的研究
  • 深入探讨 Vue.js 的动态组件渲染与性能优化
  • Windows11下OpenCV最新版4.11源码编译
  • 字符串算法篇——字里乾坤,算法织梦,解构字符串的艺术(上)