当前位置：首页 > article >正文

大语言模型在患者交互任务中的临床使用评估框架

article 2025/3/13 19:16:49

An evaluation framework for clinical use of large language models in patient interaction tasks

An evaluation framework for clinical use of large language models in patient interaction tasks | Nature Medicine

2025.1

收到时间：2023 年 8 月 8 日

Shreya Johri 1,10，Jaehwan Jeong1,2,10，Benjamin A. Tran3，Daniel I.Schlesinger 4，Shannon Wongvibulsin5，Leandra A.Barnes6，Hong-Yu State 1，卓然 Cai6，Eliezer M.Van Allen 7，David Kim 8，Roxana Daneshjou 6,9,11&Pranav Rajpurkar 1,11

接受时间： 2024 年 10 月 1 日

在线发布时间：2025 年 1 月 2

该论文围绕大语言模型在临床诊断中与患者交互任务的应用展开研究，深入剖析现有问题，提出创新评估框架，为推动大语言模型在医疗领域的合理应用提供方向。

1. **问题**：大语言模型（LLMs）融入临床诊断有望改变医患互动，但其实践应用准备程度测试不足。现有评估方法多依赖结构化医学考试和选择题，无法有效评估LLMs在互动式患者对话中的能力，这一差距限制了LLMs在临床场景中的可靠应用。

2. **挑战**：传统评估方法无法模拟真实医患对话的复杂性，难以全面评估LLMs的临床对话推理、病史采集和诊断准确性。使用人类测试者存在资源密集、效率低等问题，早期LLMs与真实患者互动还存在伦理和安全风险。同时，缺乏多模态信息整合评估，且现有数据集存在局限性，影响对LLMs在复杂临床场景下的评估。

3. **创新点**：提出CRAFT-MD评估框架，通过模拟医患对话，利用多智能体方法全面评估临床LLMs。该框架突破传统结构化评估的局限，引入患者AI智能体和评分AI智能体，提升评估的可扩展性和效率，同时降低伦理和安全风险。

4. **贡献**：为评估临床LLMs提供了新的框架和方法，揭示了当前LLMs在临床应用中的局限性，为后续研究和模型改进提供了实证依据。提出的一系列建议为未来临床LLMs的评估和发展指明了方向，有助于推动LLMs在医疗领域的安全、有效应用。

5. **提出的方法**：CRAFT-MD框架采用多智能体方法，包含临床LLM、患者AI智能体、评分AI智能体和医学专家四个组件。临床LLM与患者AI智能体进行对话以获取信息并诊断，评分AI智能体评估诊断准确性，医学专家审查对话并验证AI智能体的可靠性。实验设置包括多种对话形式（多轮、单轮、总结对话）和问题类型（四选一选择题、自由回答问题），以全面评估LLMs。

6. **指标**：主要指标为诊断准确性，通过对比LLMs的诊断结果与正确答案来计算。在自由回答问题实验中，评分AI智能体先提取诊断名称，再与正确答案对比，考虑医学术语的同义性和诊断的准确性来确定诊断是否正确。此外，还评估了临床LLM收集完整病史的能力、停止提问时机的合理性等指标。

7. **模型结构**：文中未详细介绍所评估LLMs（如GPT-4、GPT-3.5、Mistral、LLaMA-2-7b等）的内部结构，重点在于使用CRAFT-MD框架对这些模型在临床对话场景下的表现进行评估。

8. **结论**：当前LLMs在适应临床对话进行准确诊断方面存在局限性，对话交互会降低诊断准确性，且在处理开放式诊断任务时表现较差。多模态模型（如GPT-4V）在图像理解和整合方面能力有限。CRAFT-MD框架为评估临床LLMs提供了有效途径，未来需改进模型能力和评估方法，以确保LLMs在临床应用中的可靠性。

9. **剩余挑战和未来工作**：进一步开发更复杂的AI智能体，使其能更好地模拟真实患者，处理超出案例范围的问题，提升评估的准确性。持续监测LLMs的发展，评估不同版本模型的能力变化，以适应快速发展的技术环境。改进数据集，增加数据多样性，确保涵盖更多医疗场景和人群，减少潜在偏差。

10. **数据集**：评估文本LLMs使用了2000个基于案例的问题，其中1800个来自MedQA-USMLE数据集，涵盖12个医学专科；另外100个来自在线题库（Derm-Public），100个为新创建的私人案例（Derm-Private）。评估多模态LLMs（GPT-4V）使用了NEJM Image Challenge数据集，包含案例和对应的医学图像。

摘要

将大型语言模型（LLM）集成到临床诊断中具有改变医患互动的潜力。然而，这些模型在现实世界临床应用中的准备程度仍未得到充分测试。本文介绍了用于评估临床 LLM 的对话推理评估框架（CRAFT-MD）方法。与依赖结构化医学检查的传统方法不同，CRAFT-MD 专注于自然对话，使用模拟人工智能代理在受控环境中与 LLM 进行交互。我们应用 CRAFT-MD 评估了 12 个医学专业的 GPT-4、GPT-3.5、Mistral 和 LLaMA-2-7b 的诊断能力。我们的实验揭示了当前 LLM 在临床对话推理、历史记录和诊断准确性方面的局限性的关键见解。在分析 GPT-4V 的多模态对话和视觉评估能力时，这些局限性也依然存在。基于我们的实证发现，我们提出了一套全面的临床法学硕士未来评估方法。这些建议强调现实的医患对话、全面的病史记录、开放式提问以及使用自动化和专家评估的组合。CRAFT-MD 的引入标志着临床法学硕士测试的进步，旨在确保这些模型有效和合乎道德地增强医疗实践。

Intrution

患者病史收集是医学诊断的基础，使医生能够识别指导其临床决策的关键信息。然而，由于 2019 年冠状病毒病（2019 冠状病毒病）大流行，患者人数不断增加、缺乏护理 1、会诊时间短 2、3 以及远程医疗的加速采用给这种传统的互动模式带来了巨大挑战。由于这些因素有可能损害历史记录的质量，从而影响诊断准确性 2，需要创新的解决方案来提高这些临床对话的有效性。

生成人工智能（AI）的新进展，特别是在大型语言模型（LLM）中，提供了一个潜在的解决方问题 5-9。这些 AI 模型有能力进行细致入微的对话，使它们成为提取全面患者病史和协助医生生成10-12。评估这些模型在现实世界中应用的准备情况临床方案 13-15。

评估 LLM 的主要方法 医学涉及体检式的问题，具有很强的强调多项选择题 16-18。尽管在某些情况下，LLM 是在自由反应和推理任务 12、19、20 或医学对话总结和护理计划生成 21，这些评估不太常见。重要的是，这些评估没有探索 LLM 参与交互式患者对话的能力，这可以增强远程医疗和虚拟医疗访问，帮助急诊室医生分流患者，并通过教授医学生历史记录的最佳实践来促进医学教育。

为了解决这一评估不足，我们提出了一种新的临床 LLM 评估框架，称为医学测试对话推理评估框架（CRAFT-MD）。与传统的依赖结构化医学检查不同，CRAFT-MD 通过模拟通过医患对话主动收集和整合信息来评估临床 LLM，类似于医生与患者的互动。这种模拟是通过与临床 LLM 交互的患者 - 人工智能代理来实现的。然后，分级器 - 人工智能代理评估诊断的正确性，医学专家评估每个人工智能代理的可靠性。CRAFT-MD 极大地增强了评估的可扩展性，使更广泛、更快的测试能够跟上 LLM 的快速发展。它解决了单独使用人类测试人员的挑战，减轻了早期 LLM 与真实患者互动的潜在伦理和安全问题，降低了此类参与造成伤害的风险。我们应用 CRAFT-MD 评估商业和开源 LLM 的临床诊断能力，包括 GPT-4（参考文献 22）、GPT-3.5（参考文献 23）、Mistral（参考文献 24）和 LLaMA-2-7b（参考文献 25），以及多模态 LLM，如 GPT-4V（参考文献 26,27）。我们的评估涵盖了 12 个医学专业的初级和专科护理环境中常见的医疗条件。实验突出了当前 LLM 在整合对话互动细节以实现准确诊断和医学图像解释方面的局限性。在这一经验证据的支持下，我们进一步制定了一套全面的建议来评估临床 LLM 的对话推理能力。因此，CRAFT-MD 为评估 LLM 在医学信息处理、批判性思维和决策方面的熟练程度提供了一个强大的框架 —— 这些技能在临床环境中至关重要 —— 最终支持针对医疗保健复杂性量身定制的 LLM 的发展。

结果

CRAFT-MD 框架 CRAFT-MD 是一个旨在评估临床 LLM 在模拟医患互动中的对话推理能力的框架。其核心是评估临床 LLM 在现实临床环境中进行医学访谈、综合信息和制定诊断的能力。该框架采用多智能体方法，包括四个组成部分（图 1）：被评估的临床 LLM、模拟患者反应的患者 - AI 代理、评估诊断准确性的分级器 - AI 代理和验证过程的医学专家。这种设计允许对任何临床 LLM 进行全面评估，因为被测试的模型可以很容易地切换出去。

图 1|CRAFT-MD：一个评估临床法学硕士在医学背景下对话能力的框架。该框架模拟医患互动，以评估临床法学硕士在历史记录、信息合成和诊断准确性方面的熟练程度。患者 - 人工智能代理与临床法学硕士进行对话，而分级器 - 人工智能代理和医学专家进行评估LLM 的性能。这种多智能体方法能够在模拟医疗环境中全面评估临床 LLM 的推理能力。学分：从 Adobe Stock 复制的患者图标。从 Adobe Stock 改编的医生和分级器 - 人工智能图标。经参考文献 49 马萨诸塞州医学协会许可复制的图像。

临床法学硕士与患者 - 人工智能代理互动，询问有关当前症状、病史、药物和家族史的问题，以制定鉴别诊断。患者 - 人工智能代理根据详细的案例插图以外行的方式做出回应。分级器 - 人工智能代理根据插图中提供的正确诊断评估临床法学硕士诊断的准确性，并考虑同义词和疾病变体。最后，医学专家审查模拟对话的子集，以定性地了解临床法学硕士的局限性，并确定每个人工智能代理的可靠性。临床法学硕士根据其收集相关信息的能力进行评估医疗信息和症状以得出最可能的诊断。患者 - AI 代理根据其避免医学术语的能力进行评估，类似于真实患者，而分级器 - AI 代理根据其分级的精度（方法）进行判断。这与客观结构化临床检查（欧安组织）有相似之处，同时也引入了独特的优势，例如评估的可扩展性和快速性。医患对话的模拟能够跨各种医学专业进行有临床意义的评估，医学专家的评估量化了对所获得结果的信心。CRAFT-MD 框架根据总共 2,000 个案例小插曲进行了评估（参见 “数据可用性”）。其中，1,800 份来自 MedQA - 美国医师执照考试（USMLE）28，涵盖了 12 个医学专业的初级和专科护理中常见的医疗状况：皮肤病学、血液学和肿瘤学、神经病学、胃肠病学、儿科和新生儿学、心脏病学、传染病学、妇产科、泌尿科和肾脏病学、内分泌学、风湿病学和其他（扩展数据图 1）。100 个案例小插曲来自在线题库 29（称为 Derm-Public），100 个新生成的私人案例（称为 Derm-Private）也被包括在内，以研究跨数据源的趋势并集中评估皮肤病。商业模型，包括 GPT-4（2024 年 11 月 6 日版本）和 GPT-3.5（2024 年 11 月 6 日版本），以及开源模型，包括 LLaMA-2-7b、Mistral-v1-7b 和 Mistral-v2-7b，被评估其临床对话推理技能。使用记忆效应 Levenshtein 检测器（MELD）分析对 2,000 个病例片段的数据集污染估计 6 没有显示与 GPT-4 训练集（扩展数据图 1）的重叠，尽管注意到 MELD 具有高精度但未知召回率。对于多模态 LLM GPT-4V 的评估，病例片段及其相关图像来自 NEJM 图像挑战数据集（参见 “数据可用性”）。CRAFT-MD 在效率和规模上大大超过了传统的以人为中心的评估方法。它在 48-72 小时内处理 10,000 次多轮对话（API 调用是主要限制），外加 15-16 小时的专家评估。相比之下，基于人的方法需要大量招募，患者模拟估计需要 500 小时（每次对话约 3 分钟），专家评估大约需要 650 小时（每次对话约 4 分钟）。这证明了 CRAFT-MD 在大规模临床法学硕士评估中显着减少时间和资源的能力。

对话互动降低诊断准确性

我们评估了 LLM 在四选选择题（MCQs）设置中通过对话与静态病例片段进行诊断时是否保持准确性。使用 CRAFT-MD 框架，我们将片段转换为临床 LLM 和患者 - AI 代理之间的多轮对话（图 2a、b 和方法）。

对于所有评估的 LLM（GPT-4、GPT-3.5、Mistral-v2-7b 和 LLaMA-2-7b），使用对话与片段时诊断准确性下降（图 2c 和补充表 1 和 2）。GPT-4 的性能下降为 0.193（0.820 至 0.627），GPT-3.5 的性能下降为 0.19（0.657 至 0.467），Mistral-v2-7b 的性能下降为 0.211（0.637 至 0.426），LLaMA-2-7b 的性能下降为 0.076（0.395 至 0.319），所有调整后的 P 值均小于 0.0001。因此，尽管它们在静态输入上的能力令人印象深刻，但当前的 LLM 在适应四选 MCQ 的动态对话方面受到限制。

图 2 | 在四选 MCQ 和 FRQ 中用模拟医患对话替换案例小插曲的效果。使用案例小插曲（a）、多轮对话（b）、单轮对话（d）和总结对话（e）进行诊断的实验设置，然后是四选 MCQ 或 FRQ（无选择）。c、四个实验设置的诊断准确性 —— 小插曲 + 四选 MCQ、多轮对话 + 四选 MCQ、单轮对话 + 四选 MCQs 和总结对话 + 四选 MCQs—— 跨越四个评估 LLM（GPT-4、GPT-3.5、Mistral-v2-7b 和 LLaMA-2-7b）。f、四个实验设置的诊断准确性 —— 小插曲 + FRQ、多轮对话 + FRQs、单轮对话 + FRQs 和总结对话 + FRQs—— 跨越四个评估 LLM（GPT-4、GPT-3.5、Mistral-v2-7b 和 LLaMA-2-7b）。误差条表示 10,000 个样本上的 95% 置信区间，数字表示平均准确率。NS，无显著性；≤0.05⋯≤0.01∗∗∗≤0.001∗∗∗∗≤0.0001）。所有 P 值均使用双边无融资创业测试计算，随后进行 Holm-Bonferroni 校正（方法和补充表 1-5）。学分：从 Adobe Stock 复制的患者图标。医生和分级器 - AI 图标改编自 Adobe Stock。

接下来，我们量化了临床 LLM 在多轮对话中后续问题的影响。为此，我们评估了单轮对话的表现（图 2d 和方法），其中临床 LLM 仅根据最初描述的症状进行诊断，而不向患者 AI 代理询问后续问题。GPT-4 单轮与多轮对话的四选 MCQ 准确性降低了 0.107（0.627 至 0.520，调整后P<0.0001D），GPT-3.5 降低了 0.032（0.467 至 0.435，调整后P<0.00011），LLaMA-2-7b 降低了 0.015（0.319 至 0.304，调整后P<0.05），Mistral-v2-7b 提高了 0.022（0.426 至 0.448，调整后P<0.001）（图 2）令人惊讶的是，尽管后续问题与最终诊断相关，但 GPT-4、GPT-3.5 和 LLaMA-2-7b 准确率的下降低于预期。

会话总结改进了 LLM 在多个对话中的有限推理

我们假设，单轮和多轮对话之间准确性的最小变化可能是由于在多个对话中合成信息的困难造成的。如果训练集主要以小插曲类示例而不是扩展对话为特征，这个问题可能会出现。为了验证这一假设，我们开发了一种称为对话总结的技术，它将多轮对话转换为小插曲类摘要，将所有细节整合到一个段落中（以下称为 “总结对话”）（图 2e，扩展数据图 2 和方法）。总结的对话不同于小插曲本身，因为只有患者 - AI 代理揭示的细节被转换。

我们观察到，与多轮对话相比，在四选 MCQ 设置中为所有评估模型提供临床 LLM 时，准确性有所提高

（GPT−4=0.627到 0.669，调整P<0.0001：GPT−3.5=0.467到 0.507，调整P<0.0001；Mistral-v2-7b=0.426 到 0.513，调整P<0.0001LLaMA-2-7b=0.319 到 0.335，调整P<0.05）（图 2 补充表 1 和表 2）这些观察表明，将分散的多圈对话转换为简洁的类似晕影的格式（即总结的对话）可能有助于更准确的诊断。

开放式诊断和跨专业的趋势依然存在。医疗许可考试中使用的四选 MCQ 并不反映真实临床环境中的开放式诊断过程。为了在更现实的场景中评估会话推理，作为 CRAFT-MD 框架的一部分，我们评估了没有答案选择的临床法学硕士的会话推理 —— 即自由回答问题（FRQs）（图 2a、b、d、e 和方法）。临床法学硕士的所有自由文本回答都使用分级器人工智能代理进行评估。

删除答案选项会导致准确性下降。与四选 MCQ 格式相比，FRQ 格式中所有模型的准确性都显着降低（图 2c、f 和补充表 3）。对于小插图，GPT-4 的准确性下降了 0.334（从 0.820 到 0.486），GPT-3.5 下降了 0.282（从 0.657 到 0.375），Mistral-v2-7b 了 0.415（从 0.637 到 0.222），LLaMA-2-7b 了 0.226（从 0.395 到 0.169），所有调整后的 P 值都小于 0.0001。多圈对话也观察到类似的下降（GPT−4=0.627到 0.264；GPT−3.5=0.467到 0.169；Mistral-v2-7b=0.426 到 0.066 LLaMA-2-7b=0.319 到 0.066）；单圈对话（GPT−4=0.520到 0.133；GPT−3.5=0.435到 0.123，Mistral-v2−7b=0.448到 0.056；LLaMA-2-7b=0.304 到 0.065）；和总结对话（GPT-4=0.669to 0.272；GPT−3.5=0.507到 0.174；Mistral-v2-7b=0.513 到 0.056；LLaMA−2−7b=0.335到 0 这些研究结果表明，删除预定义的答案选项显着降低了所有模型和对话类型的诊断准确性，强调了处理开放式临床诊断任务的困难。

对话互动继续表现不佳的小插曲。用 FRQ 格式中的多圈对话替换小插曲导致准确性大幅下降，类似于四选 MCQ 格式。GPT-4 的准确性从 0.486 下降到 0.264，GPT-3.5 的准确性从 0.375 下降到 0.169，Mistral-v2 - 的准确性从 0.222 下降到 0.0667b 和 LLaMA-2-7b 的准确性从 0.169 下降到 0.066，所有调整后的 P 值都小于 0.0001。多圈和单圈精度之间的差异在 GPT-4（0.264 到 0.133，调整后的P<0.0001）、GPT-3.5（0.169 到 0.123，调整后的P<0.0001）和 Mistral-v2-7b（0.066 到 0.056；调整后的P<0.01）中很显著，但对于 LLaMA-2-7b（0.066 到 0.0650.065）则不然。值得注意的是，尽管在四选 MCQ 设置中，Mistral-v2-7b 显示出比多圈更高的单圈精度，但这一趋势在 FR 此外，摘要和没有答案选择的多轮对话之间的准确性差异仅在开源模型（Mistral-v2−7b=0.0660.056，调整后的P<0.01：LLaMA−2−7b=0.0660.081，调整后的P<0.0001）中显着，但对于非商业模型（GPT−4=0.2640.272；GPT−3.5=0.1690.174）（图 2f 和补充表 4 和 5）。

会话诊断准确性的趋势在医学专业中持续存在。对于我们数据集中的 12 个医学专业中的每一个，我们观察到四选 MCQ 和 FRQ 设置的不同会话格式之间的相似趋势（扩展数据图 3 和 4 以及补充表 6-9）。当小插曲被多轮对话取代时，准确性会显著下降。此外，总结的对话保持比多轮对话更高的准确性，但低于小插曲所达到的准确性。这种一致性强调了这些观察到的趋势的稳健性。

皮肤病案例研究

为了与医学专家进行详细分析，我们选择专注于皮肤病，这是初级保健中常见的投诉 30。皮肤状况的多样性需要围绕发病、进展、相关症状和相关个人或家族病史进行细致入微的上下文相关推理，从而为人工智能能力提供严格的测试平台。

数据集的一致趋势。在三个评估数据集中 ——MedQA-USMLE（(n=117)、Derm-Public(n=100)和 Derm Private（(n=100)）—— 与对话格式（图 3 和补充表 10-13）相比，小插曲始终具有更高的准确性。我们注意到，当答案选项被删除时，从公共数据集中获得的病例小插曲子集有多种可能的诊断。医学专家确定，在这些病例中，症状、药物或体检的额外细节对于最终诊断是必要的。因此，我们还评估了 FRQ 设置中单一可能诊断病例的临床 LLM 诊断准确性，发现更高的准确性并强调需要用于 FRQ 评估的病例插图的改进设计（扩展数据图 4 和补充表 14-17）。值得注意的是，皮肤科医生对皮肤科病例插图的诊断准确性在各种格式中是一致的，在四个选择的 MCQs 上实现了 86% 的准确性，在 FRQs 上实现了 87% 的准确性（见 “数据可用性”）。他们对 MedQA-USMLE 和 Derm-Public 数据集中的许多病例表示了不确定性，表明诊断确定性需要图像。

医学专家评估。为了评估 CRAFT-MD 框架中的每个 LLM 代理（患者人工智能和分级人工智能），医学专家评估了对话的子集（(n=180)在四个评估模型（GPT-4、GPT-3.5、Mistral-v2-7b 和 LLaMA-2-7b）和三个数据集（MedQA-USMLE、Derm-Public 和 Derm-Private）之间均匀分布（方法）。两名皮肤科医生进行了评估，三分之一的对话被双重注释以估计专家意见一致。在两名皮肤科医生不同意的情况下，第三名皮肤科医生解决了平局（扩展数据表 2）。

我们首先评估了患者 - 人工智能代理和分级 - 人工智能代理的可靠性。当回答临床法学硕士提出的问题时，患者 - 人工智能代理在问题属于案例小插曲范围内的情况下提供了 99.995% 的准确答案。对于小插曲范围之外的问题，代理要么表示信息不可用，要么否认症状。94.25% 的时间提供了相关和完整的答案，当在同一对话中提出多个问题时，通常会出现不完整的答案。此外，7.22% 的对话在代理的回答中包含技术医学语言，相比之下，100% 的案例小插曲。此外，分级 - 人工智能代理以 93.35% 的高比率同意医学专家的观点（参见 “数据可用性”）。

接下来，我们定性地评估了临床法学硕士领导临床对话和收集完整病史的能力。为了评估临床法学硕士对何时继续询问临床信息以及何时收集到足够的信息来做出诊断的理解，我们计算了医学专家能够确定一个最有可能的诊断的对话的百分比，而不管诊断的正确性如何。我们发现评估模型之间存在很大差异：GPT-4 达到 53.33%，GPT-3.5 达到 31.11%，Mistral-v2-7b 达到 11.11%，LLaMA-2-7b 达到 35.55%（图 3i 和补充表 18）。关于在对话中收集完整病史，模型之间再次存在相当大的差异：GPT-4 达到 71.11%，GPT-3.5 达到 31.11%，Mistral-v2-7b 达到 8.88%，LLaMA-2-7b 达到 51.11%（图 3j 和补充表 18）。这些结果可能表明这些 LLM 的医学知识存在潜在差距，影响他们有效领导临床对话的能力。

多模态模型在图像理解方面受到限制

医学诊断通常依赖于视觉检查，通过直接观察或成像技术。这就需要强大的多模态 LLM，能够在自然语言对话的同时进行准确的图像解释 31。我们使用 CRAFT-MD 框架评估了 GPT-4V（方法），以评估其视觉和对话的综合能力。我们的研究比较了有图像输入和没有图像输入的小插图和对话格式之间的诊断准确性（图 4a，b）。这种方法使我们能够评估临床 LLM 在预先提供受影响区域图像时领导医学对话的能力，并将其与没有图像的场景进行对比，就像传统 LLM 一样。

为了评估 GPT-4V 的医学图像解释能力，我们从 NEJM 图像挑战数据集 32（方法）中收集了 74 对（图像和病例斑点）。该数据集特别适合我们的评估，因为每个病例斑点的诊断都严重依赖于相应的医学图像。我们假设如果 GPT-4V 拥有强大的医学图像解释技能，它将

与仅提供文本信息的场景相比，当同时呈现图像和案例小插图时，显示出显着更高的诊断准确性。

我们的研究结果显示，在四选 MCQ 和 FRQ 设置（图 4c-j 和补充表 19 和 20）中，当图像被移除时，所有实验设置（小片段、多圈、单圈和摘要对话）的准确性都有小幅下降。在四选 MCQ 格式中，我们观察到小片段下降了 0.055，多圈对话下降了 0.024，单圈对话下降了 0.074，摘要对话下降了 0.044。同样，在 FRQ 格式中，小片段下降了 0.021，多圈对话下降了 0.058，单圈对话下降了 0.024

和 0.055 总结对话。虽然一致，但这些下降在统计上并不显著（补充表 21）。

需要持续监测 LLM

LLM 的快速发展和新版本的频繁发布需要对其不断发展的能力进行持续监控。我们使用 CRAFT-MD 来评估跨两个开源模型 Mistral 版本（v1 和 v2）领导临床对话的熟练程度。

Mistral-v1-7b 在小插图和对话格式之间表现出与 Mistral-v2-7b 相似的准确性趋势（图 5 和补充表 22 和 23）。

从小插图到多轮对话（调整后的P<0.0001）的准确性显着下降，其次是从多轮对话到摘要对话（调整后的P<0.0001）的准确性显着增加。FRQ 设置显示了类似的趋势。值得注意的是，单圈和多圈对话（调整后的P>0.05）之间的米斯特拉尔 - v1-7b 精度没有显著差异，而米斯特拉尔 - v2-7b

与多轮对话相比，单轮对话表现出明显更高的准确性。

比较这两个版本，在四选 MCQ 设置中，所有格式的平均精度从 Mistral-v1-7b 增加到 Mistral-v2-7b(vignette=0.196、multi−turn=0.095、single−turn=0.124summarized=0.152）。然而，在 FRQ 设置中，只有插图

格式显示改进(increase=0.048)0，而所有对话格式都下降（(multi−turn=−0.015、single−turn=−0.005summarized=−0.027）（图 5 和扩展数据表 3）。这些发现强调了在培训 LLM 以使改进与现实世界用例保持一致时，跨不同格式进行综合评估的重要性。

讨论

临床法学硕士声称精通各种医疗任务，但它们的验证仍然主要基于静态的结构化评估，如多项选择题。尽管这些评估展示了某些能力，但它们没有捕捉到动态复杂性

真实世界的临床实践。我们使用 CRAFT-MD 框架进行的评估显示，与基于考试的评估相比，LLM 在对话环境中的表现明显更差。这一研究强调了在 LLM 能够自信地融入临床工作流程之前，需要更现实的测试方法。我们提出了几项建议，以使 LLM 评估与临床实践的需求保持一致，使其有可能用作未来的诊断工具（表 1）。

医学对话本质上比静态考试问题更复杂，需要迭代的信息交换、症状的澄清和持续的诊断推理。因此，研究表明商业或开源的高准确性

乐观的前景。我们的研究结果显示，当在对话环境中评估 LLM 时，诊断准确性持续下降，强调使用医患互动框架来测试这些模型的重要性（建议 1）。

在这些对话环境中，评估 LLM 的开放式诊断推理至关重要。模型必须能够为全面的历史记录提出相关问题，通过分散的信息进行推理，并解释多模态数据，如图像。

当前的评估 16,33-37 通常侧重于即时的、结构化的大学

模态查询 - 例如多项选择题 - 并忽略

这些更复杂的要求。与之前的研究 20,38,39 一致，

我们发现，当面对开放式问题而不是 MCQ 时，LLM 表现更差，这表明它们严重依赖传统格式提供的结构。我们建议过渡到开放式问题 40，这更准确地反映了真实临床推理的非结构化性质（建议 2）。此外，我们的发现表明，LLM 在记录病史时经常错过关键细节，大大损害了他们的诊断能力。这强调了评估模型提出正确问题和提取基本信息的能力的必要性（建议 3）。

当信息在多个对话中传播而不是以简洁的小插曲形式呈现时，LLM 的诊断准确性也会显著下降。这可能是由于处理扩展文本上下文 41 的挑战或训练数据中结构化小插曲的主导地位。未来的发展应侧重于改善上下文理解和信息集成，以便在临床对话中更有效地使用（建议 4），可能通过思想链等技术 42。我们还观察到在使用图像进行诊断方面取得的成功有限，这表明需要更好地将口述历史与视觉检查结果 43 以及可能的其他诊断数据（如心电图和血液测试）相结合（建议 5）。展望未来，在开发 LLM 时，应优先考虑对对话和多模态口译技能的持续评估（建议 6）。此外，改进指导模型反应的提示结构可以进一步提高其性能（建议 7）。我们提倡一种平衡的方法，其中 LLM 补充而不是取代医生的细微诊断过程 44。

除了诊断推理之外，确保评估的可扩展性和可靠性至关重要。涉及人类参与者 45 的对话评估的一个关键挑战是，这些评估是资源密集型的。CRAFT-MD 框架通过使用 LLM 作为主要评估者来解决这一限制，将人类参与保留给

置信度估计。它使用 AI 代理 46,47 来模拟患者交互

行动，允许进行大规模、快速的测试，而不会冒真实患者暴露于未经验证的 LLM 的风险。这些 AI 代理模拟真实的交互，患者只有在提示时才会披露信息，模仿欧安组织风格的评估。然而，我们的研究表明，这些代理在回答超出案例小插曲范围的问题时有时是不可靠的，可能低估了 LLM 的准确性。为了解决这个问题，未来的工作应该集中在开发更复杂的 AI 代理上，这些代理可以解释非语言线索，如面部表情、语气和肢体语言（建议 8）。此外，定期让人类评估人员参与评估 LLM 的可靠性对于它们的实际部署仍然至关重要（建议 9）。CRAFT-MD 的灵活设计允许在改进的患者 - AI 模型可用时进行集成，确保评估过程的持续推进。

最后，评估框架本身依赖于多样化的、公开的数据集。尽管我们的研究跨越了多个医学专业，但它没有评估种族和民族对

由于数据集的多样性有限，因此无法进行诊断。此外，许多病例片段缺乏足够的细节，无法在没有答案选项的情况下进行精确诊断。我们进行了 MELD 分析，并生成了一个私人病例片段数据集，以解决对训练集记忆的担忧 6。然而，我们无法进行更全面的分析，因为许多开源和商业 LLM 的训练数据集不可用 48。我们建议开发能够进行开放式分析并评估 LLM 中潜在偏差的案例片段，以更好地评估其在不同人群中的诊断性能。应鼓励完全透明，包括公众访问模型权重和训练数据集（建议 10）。这些建议为评估 LLM 的更细致和全面的方法奠定了基础，使我们的评估方法与现实世界医疗实践的复杂性和微妙性保持一致。

在线内容

任何方法、附加参考、Nature Portfolio 报告摘要、源数据、扩展数据、补充信息、致谢、同行评审信息；作者贡献和竞争兴趣的详细信息；以及数据和代码可用性声明可在An evaluation framework for clinical use of large language models in patient interaction tasks | Nature Medicine获得。

查看全文

http://www.kler.cn/a/583125.html