AIGC技术周报|ChatDoctor:哪里不舒服;HuggingGPT:连接大模型和机器学习社区;ChatGPT真的鲁棒吗?

AIGC通过借鉴现有的、人类创造的内容来快速完成内容创作。ChatGPT、Bard等AI聊天机器人以及Dall·E 2、Stable Diffusion等文生图模型都属于AIGC的典型案例。「AIGC技术周报」将为你带来最新的paper、博客等前瞻性研究。

1.ChatDoctor:哪里不舒服?

通用领域中的大型语言模型(LLMs),如 ChatGPT,在遵循指令和产生类似人类的响应方面取得了显著的成功。然而,此类语言模型并未针对医学领域量身定制,导致答案准确性较差,无法为医学诊断、药物等提供合理的建议。

为了解决这个问题,该研究收集了 700 多种疾病及相应症状所需要的医学测试和推荐的药物,从中产生了 5K 次医患对话。使用这些量身定制的医患对话对 LLMs 进行微调,由此产生的模型具有巨大的潜力来理解患者的需求,提供明智的建议,并在各种医疗相关领域提供有价值的帮助。

论文链接:

https://arxiv.org/abs/2303.14070

2.BloombergGPT:金融界的大模型

从情感分析和命名实体识别到问答,NLP 在金融技术领域的应用广泛而复杂。LLMs 已被证明对各种任务有效。

一项新研究展示了 BloombergGPT,这是一个具有 500 亿参数的语言模型,它在广泛的金融数据上进行了训练。该研究基于 Bloomberg 广泛的数据源构建了一个拥有 3630 亿个令牌的数据集,这可能是迄今为止最大的特定领域数据集,并增加了来自通用数据集的 3450 亿个令牌。

研究在标准 LLM 基准、开放金融基准和一套能准确反映预期用途的内部基准上验证了 BloombergGPT。

结果表明,BloombergGPT 在财经任务上显著优于现有模型,且不会牺牲通用 LLM 基准的性能。

论文链接:

https://arxiv.org/abs/2303.17564

3.HuggingGPT:连接大模型和机器学习社区

解决具有不同领域和模式的复杂 AI 任务是通向通用人工智能(AGI)的关键一步。虽然有丰富的 AI 模型可用于不同的领域和模式,但它们无法处理复杂的 AI 任务。

考虑到 LLMs 在语言理解、生成、交互和推理方面表现出非凡的能力,该研究提出了 HuggingGPT——一个利用 ChatGPT 等 LLMs 连接机器学习社区(如 HuggingFace)中的各种 AI 模型来完成任务的系统。

具体来说,在收到用户请求时使用 ChatGPT 进行任务规划,根据 HuggingFace 中可用的功能描述选择 AI 模型,用选择的 AI 模型执行每个子任务,并根据执行结果汇总响应。

借助 ChatGPT 强大的语言能力和 HuggingFace 丰富的 AI 模型,HuggingGPT 能够完成众多不同模态和领域的复杂 AI 任务,在语言、视觉、语音等具有挑战性的任务中取得令人瞩目的成果,开辟了一条加速迈向 AGI 的新道路。

论文链接:

https://arxiv.org/abs/2303.17580

4.自动音频描述模型,视障者的福音

“在所有艺术中,对我们来说最重要的是电影。”

——弗拉基米尔·列宁

一项新的研究开发了一种自动音频描述(AD)模型,它可以摄取电影并以文本形式输出 AD。由于描述对上下文的依赖性以及可用训练数据的数量有限,因此生成高质量的电影 AD 具有挑战性。通过利用预训练基础模型(如 GPT 和 CLIP),该研究只训练一个映射网络来桥接两个模型以生成视觉条件文本。下图展示了电影 AD 基于泰坦尼克号呈现的结果。

该研究的主要贡献为:

(1)结合了电影剪辑的上下文、之前的剪辑广告以及字幕;

(2)通过在视觉或上下文信息不可用的大规模数据集上进行预训练来解决缺乏训练数据的问题,如没有电影的纯文本广告或没有上下文的视觉字幕数据集;

(3)改进了当前可用的 AD 数据集,通过去除 MAD 数据集中的标签噪声,并添加字符命名信息;

(4)与以前的方法相比,这一模型在电影广告任务上获得了很好的结果。

参考链接:

https://arxiv.org/abs/2303.16899

5.如何从多视图输入中理解3D场景?

一项新的研究提出了 ViewRefer,这是一个用于 3D 视觉基础的多视图框架,探索如何从文本和 3D 模态中掌握视图知识。对于文本分支,ViewRefer 利用 GPT 等 LLMs 的多样化语言知识,将单个基础文本扩展为多个几何一致的描述。另一方面,在 3D 模态中,引入了具有交互视图注意力的 transformer 融合模块,以增强对象跨视图的交互。

更重要的是,ViewRefer 采用了一个视觉 transformer 来有效地掌握多模态数据中的视图知识,并从两个角度增强了这一框架:用于更强大文本特征的视图引导注意模块,以及最终预测期间的视图引导评分策略。基于所设计的范例,ViewRefer 在三个基准测试中实现了很好的性能。

参考链接:

https://arxiv.org/abs/2303.16894

6.ChatGPT真的鲁棒吗?

ChatGPT 在过去几个月里受到越来越多的关注。虽然已经有很多研究对 ChatGPT 的各个方面进行了评估,但公众仍不清楚其鲁棒性,即对意外输入的性能表现。鲁棒性是负责任的 AI 特别关注的问题,尤其是对于安全关键型应用程序。

该研究从对抗性和 OOD 的角度对 ChatGPT 的鲁棒性进行了全面评估。通过选择几个流行的基础模型作为基线,结果表明,ChatGPT 在大多数对抗性和 OOD 分类和翻译任务上表现出一致性。然而,绝对性能远非完美,这表明对抗性和 OOD 鲁棒性仍然是对基础模型的重大威胁。

参考链接:

https://arxiv.org/abs/2302.12095

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.kler.cn/a/7674.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

双周赛101(模拟、动态规划、中位数贪心+裴蜀定理、BFS)

文章目录6327. 从两个数字数组里生成最小数字模拟6328. 找到最大开销的子字符串同向双指针动态规划(相似)[53. 最大子数组和](https://leetcode.cn/problems/maximum-subarray/)🎃[6329. 使子数组元素和相等](https://leetcode.cn/problems/make-k-subarray-sums-eq…

042:cesium加载Eris地图(多种形式)

第042个 点击查看专栏目录 本示例的目的是介绍如何在vue+cesium中加载加载Eris地图。这里显示4种形式的地图,分别为:World_Imagery、World_Street_Map、World_Terrain_Base、World_Physical_Map。 直接复制下面的 vue+cesium源代码,操作2分钟即可运行实现效果. 文章目录 示…

C++之继承

文章目录前言一、继承的概念和定义1.概念2.定义1.格式2.继承关系和访问限定符3.继承方式的变化二、基类和派生类对象的赋值转换三、继承中的作用域四、派生类的默认成员函数1.构造函数2.拷贝构造3.赋值运算符重载4.析构函数五、友元六、静态成员七、菱形继承和菱形虚拟继承1.单…

ctfshow web入门 命令执行web54-58

1.web54 正则加入了.*尽可能多匹配,flag绕过方式就不可以了,但是可以用?代替,nl也被匹配了 比如说cat,.*当出现cat这个整体时才会进行匹配,会尽可能匹配较多字符,ca,c之类的字符不会进行匹配&a…

【LeetCode】剑指 Offer 44. 数字序列中某一位的数字 p225 -- Java Version

题目链接:https://leetcode.cn/problems/shu-zi-xu-lie-zhong-mou-yi-wei-de-shu-zi-lcof/ 1. 题目介绍(44. 数字序列中某一位的数字) 数字以0123456789101112131415…的格式序列化到一个字符序列中。在这个序列中,第5位&#xf…

Atlassian Server用户新选择 | 迁移到数据中心版前,您需要做这些准备(2)

2024年2月,也就是一年不到,Atlassian将终止对Server产品及插件的所有支持。 此公告发布后,许多用户需要了解怎样的前进方向才是最适合企业的。为此,Atlassian不仅提供云版,还提供了本地部署的数据中心(Data…

【音视频】zlmediakit总结二---webrtc编译

目录 linux下安装 实操 windows下编译 libsrtp 的编译与install 很重要 visual studio的设置 观察点一: WebApi.cpp ​编辑观察点二: CMakeCache.txt 观察点三: CMakeLists.txt 实操 参考资料。 linux下安装 参考参考资料 &#x…

【06】卷积

1. 卷积原理 ① Conv1d代表一维卷积,Conv2d代表二维卷积,Conv3d代表三维卷积。 ② kernel_size在训练过程中不断调整,定义为3就是3 * 3的卷积核,实际我们在训练神经网络过程中其实就是对kernel_size不断调整。 ③ 可以根据输入…

mysql数据库简介

1.什么是数据库:数据仓库。访问必须只能用SQL语句来访问。数据库也是一个文件的系统。 2.数据库的作用:存储数据的作用。开发任何的应用,都有数据库。 3.关系型的数据库:数据库中保存的都是实体与实体之间的关系。 4.常见的数据库…

UE4 Sequence学习

1.常用轨道 1.1 Camera轨道 Camera轨道可以理解为Camera Cuts轨道和Camera Actor轨道,一般点击Sequencer上的摄像机图标可以自动创建: Camera Cuts轨道,可以进行不同相机机位的切换,一般会随着Camera Actor轨道自动创建&#x…

微软新Bing AI,带chat聊天写作等功能的搜索引擎简介

文章目录可选前置操作将系统对软件的位置获取禁止更改默认区域尝试更改现有MS账户注册地(亲测不行)在GPT和bing AI中搜索按步骤更改MS账户注册地址设置 / 账户管理右上角头像 / 我的个人资料国家或地区 / 编辑结果重新注册MS账户,设置注册地为…

Nodejs+vue+elementui网上租车网站 vscode汽车租赁系统

一开始,本文就对系统内谈到的基本知识,从整体上进行了描述,并在此基础上进行了系统分析。为了能够使本系统较好、较为完善的被设计实现出来,就必须先进行分析调查。基于之前相关的基础,在功能上,对新系统进…

Zookeeper

一、Zookeeper 概述 1、Zookeeper 定义 Zookeeper是一个开源的分布式的,为分布式框架提供协调服务的Apache项目。 2、Zookeeper 工作机制 Zookeeper从设计模式角度来理解:是一个基于观察者模式设计的分布式服务管理框架,它负责存储和管理大家…

Java多线程基础汇总(上)

目录 一. 概念 二.线程的创建 三. Thread类的常见方法 1.启动一个线程 2.终止一个线程 3.等待一个线程 四. 线程安全问题 1.导致线程安全的原因: 2.如何解决线程安全问题 2.1 synchronized关键字 2.2 volatile关键字 3. wait 和 notify 4.wait 和 slee…

你写的C语言代码被翻译成可执行程序,需要这几步

本篇博客会讲解C语言的灵魂知识点:你写出来的C语言代码究竟是如何让计算机识别并且执行的。C语言是一门计算机语言,可以方便程序员和计算机沟通,但是,计算机只认得二进制,怎么会认得你写的C语言代码是什么意思呢&#…

【ArcGIS Pro二次开发】(12):txt文件和Excel文件的读写

在Arcgis Pro的工作流中,数据的输入是很常见的。这里以TXT和Excel两种文件为例,在SDK中实现数据的读取和写入。 一、txt文件的读写 txt文件的读写相对简单,可以用Arcgis Pro自带的OpenItemDialog打开txt文件,并直接读取&#xff…

Java稀疏数组的应用

文章目录需求存储结构分析问题稀疏数组稀疏数组存储结构整体思路代码示例需求 编写一个五子棋程序,可以完成存盘退出和继续上局的功能。这时就会涉及到棋盘当前棋子状态数据的保存和读取 黑色棋子为:1,白色棋子为:2,0…

BERT: Pre-training of Deep Bidirectional Transformers forLanguage Understanding

参考BERT原文[1810.04805] BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding (arxiv.org)【(强推)李宏毅2021/2022春机器学习课程】 https://www.bilibili.com/video/BV1Wv411h7kN/?p73&share_sourcecopy_web&vd_source30e93e9c70e…

Less 运行环境

文章目录Less 运行环境概述运行Less方式一:浏览器环境方式二:koala编译器方式四:Node环境下编译Less 运行环境 概述 Less (Leaner Style Sheets 的缩写) 是一门向后兼容的 CSS 扩展语言。这里呈现的是 Less 的官方文…

ChatGPT能够干翻谷歌吗?

目前大多数人对于ChatGPT的喜爱,主要源自于其强大的沟通能力,当我们向ChatGPT提出问题时,它不仅能够为我们提供结论,而且还能够与我们建立沟通,向ChatGPT提出任何问题,感觉都像是在与一个真实的人类进行交谈…
最新文章