当前位置: 首页 > article >正文

试用ChatGPT的copilot编写一个程序从笔记本电脑获取语音输入和图像输入并调用开源大模型进行解析

借助copilot写代码和自己手写代码的开发过程是一样的。
首先要有明确的开发需求,开发需求越详细,copilot写出的代码才能越符合我们的预期。
其次,有了明确的需求,最好先做下需求拆解,特别是对于比较复杂的应用,拆解之后按照一定的顺序逐个功能点去实现,这样调测起来也比较方便。
比如,先实现从电脑麦克风获取语音输入并保存成本地语音文件;然后将语音文件转换成文本,接着把文本拿去给大语言模型做推理,然后把推理的结果使用tts服务转换成语音播放出来;
最后交由copilot不断迭代去实现我们想要的功能,每实现一个功能点要先验证一下,如果有问题,或者报错,可以直接发给copilot去优化。

copilot自己选的语音识别库,tts库,大语言模型可能并不能直接使用,这时就需要我们自己去调整。
这里语音识别库使用的是vosk-model-small-cn-0.22,tts库使用的是pyttsx3,大语言模型试用的是moonshot-v1-8k。
由于moonshot大语言模型只能解析图片文件中的文本,对于不含文本的图片会报错,所以这里图像解析试用的是多模态大模型LLAVA。

参考https://platform.moonshot.cn/docs/api/chat
调用moonshot大语言模型对文本进行推理

参考https://ollama.com/library/llava
在本地安装Ollama

在这里插入图片描述
本地部署之后会启动一个服务,端口号是11434,可以通过api来调用;

最后做出来的效果如下:
在这里插入图片描述
总结一下,copilot输出的代码基本能实现想要的功能,有些细节需要手工微调一下。

程序代码本身还可以继续优化,比如当前使用的语音识别库存在语音识别不准确的问题,特别是说话时包含中英文的,可以换用其他更有效的库,语音合成库也可以换成chattts等其他开源库,当前使用的大模型api调用存在次数限制,连续调用3次就报错,也可以换成其他的,或者本地部署一个,本地进行图片解析的LLAVA库运行非常耗时,这个也可以更换,等等。


http://www.kler.cn/a/460625.html

相关文章:

  • 【Patroni官方文档】介绍与目录
  • Windows 11 系统中npm-cache优化
  • Vue2: table加载树形数据的踩坑记录
  • 《从入门到精通:蓝桥杯编程大赛知识点全攻略》(一)-递归实现指数型枚举、递归实现排列型枚举
  • ES中查询中参数的解析
  • RabbitMQ基础篇之Java客户端 Topic交换机
  • 【一起python】银行管理系统
  • linux上使用cmake编译的方法
  • ArrayList 和LinkedList的区别比较
  • 酒后饮品选择指南:科学缓解不适
  • 2024年年度总结
  • Pyqt5学习(学习中)
  • LoRaWAN协议在基于低地球轨道的大规模机器类通信架构中的无缝集成
  • 游戏引擎学习第64天
  • 柱状图中最大的矩形 - 困难
  • 微服务-Sentinel新手入门指南
  • UE5在蓝图中使用VarestX插件访问API
  • html+css网页制作 美食 美食每刻4个页面
  • MapReduce相关概念(自用)
  • 抖音电商全年销售154亿单产业带商品,830个产业带销售额过亿
  • 【每日学点鸿蒙知识】箭头函数、Watch状态变量、H5获取定位数据、前后台切换、长按事件
  • HarmonyOS Next 应用元服务开发-应用接续动态配置迁移快速启动目标应用
  • 【linux学习指南】Ext系列文件系统(二)引⼊⽂件系统“块“分区inode概念
  • 老年认知衰弱分类模型在临床即时检测系统中的应用
  • R语言文件IO和并行计算优化实践
  • 在【IntelliJ IDEA】中配置【Tomcat】【2023版】【中文】【图文详解】