当前位置: 首页 > article >正文

体验谷歌最新Gemini 2.0 Flash原生多模态音视频对话桌面分享功能

Gemini 2.0是谷歌最新推出的原生多模态输入输出的AI模型。Gemini 2.0 Flash是2.0家族第一个模型,以多模态输入输出和Agent技术为核心,速度比 1.5 Pro快两倍,关键性能指标超过 1.5 Pro。模型支持原生工具调用和实时音视频流输入,提供文本、音频和图像的集成响应,具备多语言音频输出能力。Gemini 2.0致力于构建自主理解、规划和执行任务的智能助手,谷歌基于Gemini 2.0推出了Jules、Colab数据科学代理等原型,展现在编程、数据分析等领域的应用潜力。Gemini 2.0 Flash 及API目前免费提供,基于 Google AI Studio 和 Vertex AI 中的 Gemini API 使用,每分钟最多15个提问,每天最多1500个提问。

一、核心功能特点

  1. 原生多模态能力

    • 支持图像、视频和音频等多种输入形式
    • 可生成图文混合内容
    • 提供可控的多语言文本转语音(TTS)功能
    • 支持实时音视频流处理
  2. 增强的工具集成

    • 原生集成 Google Search
    • 支持代码实时执行
    • 可调用第三方自定义函数
    • 提供完整的 API 生态系统
  3. 高级推理与分析

    • 支持复杂主题的多步骤推理
    • 处理高级数学方程
    • 提供多模态查询能力
    • 增强的代码理解与生成

之前的你能相信?Google最新的Gemini-exp-1206模型免费了_exp1206-CSDN博客已经介绍过基本使用,今天分享一下它的原生多模态体验:

二、打开体验网址

Gemini 2.0 Flash Multimodal Live API Client

点击Get API Key链接到谷歌申请自己的API Key

将申请好的Key填入并点击Save API Key保存,会看到下图

点击Connect按钮

首次使用话筒和摄像头需要给浏览器弹出的对话框授权,设置完成就可以体验了

语音对话反应挺快的

摄像头和屏幕分享互动也不错,可以正常中文提问,都能几乎完美的识别视频中的内容,作为口语练习,代码找BUG等都是不错的,唯一遗憾就是目前官方提供的Puck等5个语音中暂时没有中文语音,体验不够完美,可以借助Chrome内置的翻译功能,参看使用Chrome谷歌浏览器中内置翻译功能-CSDN博客

以上,点赞收藏 一起玩AI


http://www.kler.cn/a/467580.html

相关文章:

  • Windows提示msvcp120.dll丢失怎么解决?Windows文件丢失的4种解决方法,教你修复msvcp120.dll文件
  • Echart实现3D饼图示例
  • 数据挖掘——概论
  • win32汇编环境,在窗口程序中画简单图形
  • Kotlin 委托
  • ip属地的信息准确吗?ip归属地不准确怎么办
  • 数据结构C语言描述7(图文结合)--哈希、哈希冲突、开放地址法、链地址法等实现
  • 阿里云效自动化部署 Docker镜像
  • 电子电气架构 --- 整车整车网络管理浅析
  • 时序数据库对比
  • Vue项目中生成node_modules文件夹的两种常用方法及npm优势
  • 曲速引擎前端代码生成器 6.6.0 介绍二
  • 《计算机网络A》单选题-复习题库解析-3
  • python——对三大语句的补充、对象的内存分配
  • 友元和运算符重载
  • [网络安全]shiro安全框架基本原理
  • RabbitMq的Java项目实践
  • 1、ELK的架构和安装
  • 黑马Java面试教程_P11_技术场景
  • NAT网络技术
  • 基于Node.js + Koa2 + MySQL + TypeScript的应用示例
  • 现代光学基础-3
  • 第十四届蓝桥杯Scratch省赛中级组—智能计价器
  • Linux下shell命令之netstat详解及示例
  • 第六十四章 假脱机设备 - 使用 %SPOOL 打印
  • 深度解析与实践:HTTP 协议