DrBioRight2.0:用于癌症蛋白组分析的生物学聊天机器人
功能蛋白质组学(functional proteomics)为了解癌症机制提供了关键见解,有助于发现新的生物标志物和治疗靶点。作者利用反相蛋白质阵列开发了一个全面的癌症功能蛋白质组学资源库,整合了来自癌症基因组图谱(The Cancer Genome Atlas)的近8000份患者样本数据以及来自癌细胞系百科全书(Cancer Cell Line Encyclopedia)的约900份样本数据。数据集包含一组经过筛选的近500种高质量抗体,涵盖了所有主要的癌症标志性通路。为了提高这一资源的可及性和分析能力,作者推出了DrBioRight 2.0(https://drbioright.org),这是一个由最先进的大语言模型驱动的生物信息平台。DrBioRight使研究人员能够探索以蛋白质为中心的癌症组学数据,进行高级分析,可视化结果,并使用自然语言进行互动讨论。通过简化复杂的蛋白质基因组分析,该工具加速了将大规模功能蛋白质组学数据转化为有意义的生物医学见解的过程。
来自:DrBioRight 2.0: an LLM-powered bioinformatics chatbot for large-scale cancer functional proteomics analysis, Nature Communications, 2025
目录
- 背景概述
- 结果
背景概述
在过去十年中,癌症组学数据的生成取得了显著进展,尤其是在患者肿瘤的DNA和RNA层面。诸如癌症基因组图谱(TCGA)和癌细胞系百科全书(CCLE)等具有里程碑意义的项目,在这个变革时代发挥了关键作用。尽管取得了这些进步,但我们对人类癌症的翻译后和翻译后修饰层面的理解仍存在重大差距,尤其是在多种癌症谱系中。为了填补这一关键空白,反相蛋白质阵列(RPPA)以灵敏、高通量且经济高效的方式,为获取癌症样本的大规模功能蛋白质组学数据提供了强大平台。此前,作者利用该平台对来自TCGA患者肿瘤的约8000份样本和来自CCLE细胞系的900份样本进行了分析,重点关注了200多种临床相关的蛋白质标记物。为了方便广大科研群体利用这些数据,作者构建了一个用户友好型的数据门户——TCPA,以便在丰富的背景下探索这些数据。
然而,有两个显著的挑战限制了TCPA的即时效用:
- 之前的RPPA数据对蛋白质标记物的覆盖范围有限(仅约200种)。
- 该数据门户仅提供几个预定义的分析模块,用户自定义分析的灵活性很低。
为应对这些挑战,作者最近将RPPA蛋白质检测组合扩展到了约500种高质量抗体。这一扩展促成了一个全面、高质量的泛癌功能蛋白质组学纲要,称为RPPA500,它整合了来自TCGA和CCLE样本的数据。随着蛋白质组数据集的扩展,作者在此推出DrBioRight 2.0(https://drbioright.org),这是一款由大语言模型(LLMs)驱动的前沿聊天机器人。该工具旨在降低技术门槛,实现对复杂组学数据的无缝分析。不同背景的用户可以通过直观的自然语言查询,轻松访问、分析和可视化数据。
结果
作者采用成熟的数据处理流程 ,并遵循业内既定的准则,构建的RPPA500纲要共涵盖9000个样本,包括患者肿瘤样本(来自患者)和癌细胞系样本(来自培养皿)。TCGA队列数据集包含来自32种不同癌症类型的7828例患者肿瘤的蛋白质表达谱(图1)。该数据集中主要的组织类型包括乳腺(BRCA,n = 881)、肾脏(KIRC / KIRP / KICH,n = 756)和肺(LUAD / LUSC,n = 693)。CCLE队列数据集涵盖878个癌细胞系,其中肺、血液、淋巴细胞和结直肠谱系的细胞系各自超过50种(图1)。这些细胞系大多具有相关的功能数据,如基因依赖性、转移潜能和药物敏感性数据 。最终的RPPA500蛋白质集包含447种蛋白质标志物,其中有357种蛋白和90种翻译后修饰(PTM)蛋白(例如磷酸化蛋白)(原文补充数据1)。为了突出对癌症相关通路覆盖范围的扩展,作者将蛋白质标志物与标志基因集进行了比对。RPPA500蛋白质检测组合全面覆盖了所有50个标志基因集(补充图1),其中对 apoptosis(n = 43)、PI3K - Akt - mTOR信号通路(n = 34)、雌激素反应(n = 32)、缺氧(n = 31)、IL6 - JAK - STAT3信号通路(n = 31)、顶端连接(n = 29)、干扰素反应(n = 26)、上皮 - 间质转化(n = 18)、G2M期检查点(n = 18)、P53通路(n = 17)、KRAS信号通路(n = 12)和DNA修复(n = 7)的覆盖尤为全面。与之前的蛋白质检测组合相比 ,这些基因集中总蛋白(翻译后未修饰的原始蛋白)数量显著增加了115%,PTM蛋白数量增加了67%,这突出表明在蛋白质水平上理解癌症生物学的能力大幅提升。
- 图1:一个工作流程展示了 DrBioRight 2.0 中数据整合的完整过程及各项功能,涵盖几个关键阶段:从样本队列开始,确定数据类型,详细说明基于 HDF5 的数据格式结构,并介绍三个功能特性。这些功能特性由五个前沿技术组件支持:对话式人工智能、领域特定提示、大语言模型(LLMs)、自动代码生成以及智能可视化。源数据以源数据文件的形式提供。
- 补充图1:network图展示了在50个标志基因集(hallmark gene sets)中注释的RPPA蛋白质标记物。每条边代表相连基因集之间存在共享蛋白质。每个节点内部的饼图描绘了总蛋白与翻译后修饰(PTM)蛋白的比例。每个节点中的数字表示蛋白质的数量。节点颜色对应更广泛的基因集类别:细胞周期和DNA修复(蓝色)、细胞应激和死亡(浅绿色)、细胞结构与相互作用(粉色)、细胞分化与发育(紫色)、细胞信号传导和生长调控(黑色)、免疫和炎症反应(深绿色)、代谢过程(红色)以及其他过程和途径(青色)。
基于大语言模型(LLM)的生成式人工智能最近取得的突破,为数据分析带来了一个变革性的时代。在本研究中,作者开发了一款全新的基于大语言模型的聊天机器人DrBioRight 2.0,它具备自然语言处理能力,能让用户直观、智能地探索、分析和可视化上述反相蛋白质阵列(RPPA)数据(图1)。具体而言,首先生成了一个统一的多组学数据集,对患者临床数据、DNA和RNA层面的分子谱数据、基于RPPA500的蛋白质层面数据以及细胞系表型数据集进行了标准化和归一化处理。总体而言,超过10亿个数据值经过整理,以HDF5格式重新构建,并存储在一个由高效I/O云服务器托管的非关系型数据库(No-SQL数据库)中。为解决长期存在的蛋白质注释不标准的难题,作者全面审查了蛋白质标记物,并将其与外部数据库进行交叉引用,从单个蛋白质、通路、功能和疾病等多个层面进行全面注释。这种详细的注释有助于用户围绕生物学相关问题对数据进行便捷分析。DrBioRight具有一些传统分析平台所没有的特性,包括自然语言理解、透明度和可重复性,以及用户友好性。这些特性由几项关键的前沿技术提供支持:
- (i)聊天用户界面(Chat UI):一个基于实时对话的聊天界面;(ii)提示(Prompts):高度可定制的、面向大语言模型且特定于领域知识的提示;(iii)大语言模型(LLMs):由大语言模型赋能的生成式人工智能;(iv)代码生成:无缝的代码生成 - 修正循环;(v)插件(Plugins):深度嵌套的交互式插件提供了一套独特的工具,可增强数据可视化和分析的有效性,例如交互式聚类热图。
为展示其效用,作者给出一个示例。用户可以轻松输入查询指令:“请为当前数据集的蛋白质表达数据生成一个热图”。DrBioRight会动态处理数据,并调用相应的热图插件生成一个交互式热图(图2A)。与其他交互式插件类似,热图插件能够高效处理大规模数据集。它不仅提供全面的全局概览,还具备众多功能(如选择、缩放、搜索、二维/三维散点图、通路映射以及链接外部资源等),以助力高效的数据探索。若要进行更详细的分析,用户可以进一步提问:“能否展示AKT2PS474与IL6表达之间的相关性?”DrBioRight会提取数据,进行相应的统计分析,并以清晰的散点图呈现结果。利用同一数据集,用户可以通过询问某一蛋白质与患者生存时间的相关性进行生存分析,随后通过 Kaplan-Meier 图进行可视化展示。与之前TCPA中的分析模块不同,DrBioRight的优势在于提供多样化的分析功能,包括与聊天机器人的定制化交互。例如,在对整个队列中的所有样本进行生存分析后,用户可以进一步研究男性或女性患者中的特定关联,或者更改图表颜色。DrBioRight的另一个值得关注的特性是,它能在分析性问题和一般性问题之间实现无缝切换。如图2A所示,用户可以要求聊天机器人总结结果。此外,DrBioRight允许用户将相应的项目报告下载为R markdown文件,并在本地的RStudio中运行。这些特性共同使DrBioRight成为一个极为便捷的分析工具,在数据分析方面提供了无与伦比的灵活性和可定制性。
- 图2:A 为 DrBioRight 用户界面的截图。B 展示了聊天机器人生态系统详细设计图的示意图。
DrBioRight 2.0的系统架构包含三个主要组成部分:(i)一个非关系型数据库(No-SQL数据库);(ii)一个由大语言模型驱动的后端分析模块;(iii)一个交互式聊天界面(图2B)。用户开始分析时,只需选择一种疾病(例如肺腺癌[LUAD])。随后,聊天机器人会自动将相关的多组学数据链接到用户的项目空间,使其可用于查询和分析。后端的大语言模型会预测用户意图,区分一般性询问和需要代码生成或生物信息学分析的问题。DrBioRight基于思维链方法输出逻辑流程,以增进用户理解。在后端,大语言模型会即时生成基于文本的答案或编程脚本。在提交到任务队列之前,平台会对代码进行审查和验证,自动纠正诸如缺少库或包版本不兼容等常见错误。成功生成结果后,用户友好的聊天界面会显示输出结果。为持续改进,作者集成了一个评分功能,允许用户评估分析结果,用户反馈与专家人工评估将共同通过人类反馈强化学习(RLHF)指导迭代优化,对大语言模型进行微调。