当前位置: 首页 > article >正文

AI华佗?港中大、深圳大数据研究院提出医疗推理大模型HuatuoGPT-o1

图片

编辑 | 白菜叶

OpenAI o1 的突破凸显了通过增强推理能力来提高自然语言大模型(LLM)的应用潜力。然而,大多数推理研究都集中在数学任务上,而医学等领域尚未得到充分探索。

医学领域虽然不同于数学,但鉴于医疗保健的高标准,它也需要强大的推理能力来提供可靠的答案。然而,与数学不同,验证医学推理具有挑战性。

为了解决这个问题,香港中文大学,深圳市大数据研究院的研究人员提出了可验证的医学问题,使用医学验证器来检查模型输出的正确性。

同时,该团队推出了 HuatuoGPT-o1,这是一款能够进行复杂推理的医学 LLM,仅使用 40K 个可验证问题,其表现就优于医学专用基线。

该研究以「 HuatuoGPT-o1, Towards Medical Complex Reasoning with LLMs」为题,于 2024 年 12 月 25 日发布在  arXiv 预印平台。

图片

类似 o1 的方法在医学等专业领域的应用仍未得到充分探索。医疗任务通常涉及复杂的推理。

在现实世界的医疗诊断或决策中,医生往往需要仔细斟酌。这一关乎生命的重要领域要求缜密的思考,确保得出更为可靠的结论。

并且,医疗领域具有独特的优势:与一般领域相比,医疗领域的范围通常较窄,且更易于验证。此外,医疗推理与金融、法律、教育和安全等领域的实际应用密切相关,使得该领域的进展能够轻松地迁移到其他领域。

HuatuoGPT-o1

尽管存在这些优势,医学推理中的一个关键挑战在于验证其思维过程,这一过程通常缺乏清晰的步骤。受数学问题通过其结果进行验证的启发,研究人员从具有挑战性的闭卷医学考试题目中 重构 了 40,000 个可验证的医学问题。

这些可验证问题的特点是开放式且具有唯一的客观真实答案,使得大型 语言模型 (LLM)验证器能够检查解决方案的正确性。

图片

图示:利用具有挑战性的闭卷考试题目构建可验证医学问题;验证器将模型的答案与真实答案进行对比检查。(来源:论文)

这为推进医学复杂推理提供了一种方法:

第一阶段:学习复杂推理  

该团队通过基于验证器反馈(正确或错误)的 策略搜索 构建复杂推理轨迹。大型 语言模型 (LLM)首先初始化一个思维链(CoT)。如果验证器拒绝当前的思维链,模型将通过应用从回溯、探索新路径、验证和修正中采样的策略来扩展思维链,直到提供正确答案。成功的推理轨迹随后用于微调大型 语言模型 ,使其能够发展出体现迭代反思的复杂推理能力。

第二阶段:通过强化学习 增强复杂推理  

在掌握复杂推理技能后, 强化学习 (RL)进一步优化这一能力。具体而言,验证器提供的稀疏奖励通过近端策略优化(PPO)算法引导模型进行自我改进。

通过这种方法,研究人员提出了 HuatuoGPT-o1,这是一种能够生成长思维链(CoT)以识别错误、尝试不同策略并优化答案的医学大型 语言模型 (LLM)。

HuatuoGPT-o1(仅使用 40K 数据点)在 8B 模型上实现了医学 基准 测试 8.5 分的提升。此外,70B 版本的 HuatuoGPT-o1 在多个医学 基准 测试中优于其他开源通用及医学专用 LLM。

图片

图示:医学 基准 测试的主要结果。(来源:论文)

该研究表明,与标准方法或非思维链方法相比,复杂推理能够增强医学问题解决能力并提升 强化学习 (RL)性能。

总之,该研究显著提升了大型 语言模型 的医学推理能力。实验表明,复杂推理能够显著提升医学问题解决能力,并从 强化学习 中明显受益。

图片

 更多内容可以访问我的博客 https://ai.tmqcjr.com


http://www.kler.cn/a/473529.html

相关文章:

  • Sql 创建用户
  • C语言初阶习题【25】strcpy的模拟实现
  • Linux pget 下载命令详解
  • 继承(6)
  • flink cdc oceanbase(binlog模式)
  • Numpy数组的属性
  • 深度学习的加速器:Horovod,让分布式训练更简单高效!
  • Element plus中el-input框回车触发页面刷新问题以及解决办法
  • MYSQL---------SQL 应用优化
  • MSE学习
  • 【Vue】:解决动态更新 <video> 标签 src 属性后视频未刷新的问题
  • Google Chrome 去除更新 Windows
  • Unity 热更新基础知识
  • vue-整合校验validator demo
  • 79 Openssl3.0 RSA公钥加密数据
  • Fastapi + vue3 自动化测试平台(2)--日志中间件
  • WordPress Crypto插件前台任意用户登录漏洞复现(CVE-2024-9989)(附脚本)
  • 学习第六十二行
  • <论文>什么是胶囊神经网络?
  • 使用java springboot 使用 Redis 作为限流工具
  • 使用 SQL 和表格数据进行问答和 RAG(7)—将表格数据(CSV 或 Excel 文件)加载到向量数据库(ChromaDB)中
  • MySql---进阶篇(十一)----游标,条件处理程序,存储函数
  • Bash语言的计算机基础
  • 【优选算法】Binary-Blade:二分查找的算法刃(下)
  • 一款FPGA芯片开发的核心板(EP4CE6核心板)
  • WebRTC 的优缺点详细解析