当前位置：首页 > article >正文

体验谷歌最新Gemini 2.0 Flash原生多模态音视频对话桌面分享功能

article 2025/3/4 5:12:37

Gemini 2.0是谷歌最新推出的原生多模态输入输出的AI模型。Gemini 2.0 Flash是2.0家族第一个模型，以多模态输入输出和Agent技术为核心，速度比 1.5 Pro快两倍，关键性能指标超过 1.5 Pro。模型支持原生工具调用和实时音视频流输入，提供文本、音频和图像的集成响应，具备多语言音频输出能力。Gemini 2.0致力于构建自主理解、规划和执行任务的智能助手，谷歌基于Gemini 2.0推出了Jules、Colab数据科学代理等原型，展现在编程、数据分析等领域的应用潜力。Gemini 2.0 Flash 及API目前免费提供，基于 Google AI Studio 和 Vertex AI 中的 Gemini API 使用，每分钟最多15个提问，每天最多1500个提问。

一、核心功能特点

原生多模态能力
- 支持图像、视频和音频等多种输入形式
- 可生成图文混合内容
- 提供可控的多语言文本转语音（TTS）功能
- 支持实时音视频流处理
增强的工具集成
- 原生集成 Google Search
- 支持代码实时执行
- 可调用第三方自定义函数
- 提供完整的 API 生态系统
高级推理与分析
- 支持复杂主题的多步骤推理
- 处理高级数学方程
- 提供多模态查询能力
- 增强的代码理解与生成

之前的你能相信？Google最新的Gemini-exp-1206模型免费了_exp1206-CSDN博客已经介绍过基本使用，今天分享一下它的原生多模态体验：

二、打开体验网址

Gemini 2.0 Flash Multimodal Live API Client

点击Get API Key链接到谷歌申请自己的API Key

将申请好的Key填入并点击Save API Key保存，会看到下图

点击Connect按钮

首次使用话筒和摄像头需要给浏览器弹出的对话框授权，设置完成就可以体验了

语音对话反应挺快的

摄像头和屏幕分享互动也不错，可以正常中文提问，都能几乎完美的识别视频中的内容，作为口语练习，代码找BUG等都是不错的，唯一遗憾就是目前官方提供的Puck等5个语音中暂时没有中文语音，体验不够完美，可以借助Chrome内置的翻译功能，参看使用Chrome谷歌浏览器中内置翻译功能-CSDN博客

以上，点赞收藏一起玩AI

http://www.kler.cn/a/467580.html

相关文章：

数据结构C语言描述7(图文结合)--哈希、哈希冲突、开放地址法、链地址法等实现

阿里云效自动化部署 Docker镜像

电子电气架构 --- 整车整车网络管理浅析

时序数据库对比

Vue项目中生成node_modules文件夹的两种常用方法及npm优势

曲速引擎前端代码生成器 6.6.0 介绍二

《计算机网络A》单选题-复习题库解析-3

python——对三大语句的补充、对象的内存分配

友元和运算符重载

[网络安全]shiro安全框架基本原理

RabbitMq的Java项目实践

1、ELK的架构和安装

黑马Java面试教程_P11_技术场景

NAT网络技术

基于Node.js + Koa2 + MySQL + TypeScript的应用示例

现代光学基础-3

第十四届蓝桥杯Scratch省赛中级组—智能计价器

Linux下shell命令之netstat详解及示例

第六十四章假脱机设备 - 使用 %SPOOL 打印

深度解析与实践：HTTP 协议