人工智能在肿瘤亚型分类、药物筛选以及模型可解释性方面的最新进展|顶刊速递·24-12-30
小罗碎碎念
推文速览
第一篇文章提出了一种名为SyntheVAEiser的工具,通过生成合成基因表达样本来增强机器学习模型,从而提高癌症亚型预测的准确性。
第二篇文章利用人工智能技术通过分析核仁凝集预测抗癌药物的免疫原性细胞死亡诱导能力。
第三篇文章介绍了TAVAC算法,用于量化视觉Transformer模型在生物医学图像分析中的解释可重复性,并评估模型是否过拟合。
背景补充
【1】AI合成基因表达样本并用于癌症亚型预测的流程
【2】AI筛选化学药物的流程图
【3】量化模型可解释&可重复性的流程
一、SyntheVAEiser:提升癌症亚型预测准确性的合成样本生成工具
姓名 | 角色 | 单位名称(中文) |
---|---|---|
Brian Karlberg | 第一作者 | 俄勒冈健康与科学大学生物医学工程系 |
Kyle Ellrott | 通讯作者 | 俄勒冈健康与科学大学生物医学工程系;莫菲特癌症中心机器学习部 |
文献概述
这篇文章介绍了一种名为SyntheVAEiser的新方法,旨在通过生成合成基因表达样本来增强传统机器学习方法,从而提高癌症亚型预测的准确性。
研究者们发现,机器学习方法的准确性常常受到可用训练数据量的限制,尤其是在稀有癌症的情况下,样本数量不足会影响模型性能。
-
背景与动机:机器学习在基因组学中的应用日益普遍,但在处理稀有癌症时,样本数量不足和类别不平衡问题显著影响模型的表现。合成数据生成被提出作为解决这些问题的一种方法。
-
方法:研究者们开发了一个基于变分自编码器(VAE)的工具SyntheVAEiser,通过对超过8000个癌症样本进行训练,生成合成样本。该方法通过在潜在空间中混合多个样本的特征,生成新的合成样本,从而增强训练数据集。
-
实验与结果:作者对25种癌症类型进行了实验,结果表明,使用合成样本可以显著提高分类器的预测准确性,尤其是在样本数量有限的情况下。与传统的随机噪声方法相比,基于潜在变量的混合方法(HLVS)在大多数情况下表现更好。
-
结论:该研究表明,结合生成模型与传统机器学习方法,可以有效生成合成基因表达样本,帮助提高稀有癌症亚型的预测能力。这种方法为未来的基因组学研究和临床应用提供了新的思路。
总的来说,文章强调了合成数据在改善机器学习模型性能方面的重要性,尤其是在样本稀缺的情况下。
代码链接和数据集
-
代码链接:
- SyntheVAEiser GitHub: https://github.com/ohsu-comp-bio/syntheVAEiser
- SyntheVAEiser Zenodo: https://zenodo.org/doi/10.5281/zenodo.13948571
-
数据集:
- TCGA-based curated dataset from the Tumor Molecular Pathology working group: https://gdc.cancer.gov/about-data/publications/CCG-TMP-2022
- 这篇文章使用的数据集来源于TCGA(The Cancer Genome Atlas),包含了8009个样本,覆盖25种主要肿瘤类型和99个亚型。这些数据被用于训练和测试SyntheVAEiser工具,以生成合成样本并评估其在机器学习分类任务中的性能。
AI合成基因表达样本并用于癌症亚型预测的流程
这张图和描述展示了使用SyntheVAEiser方法生成合成基因表达样本并用于癌症亚型预测的流程。
下面是详细的步骤解释:
-
样本准备:
- 从TCGA(The Cancer Genome Atlas)训练数据集中选择一个癌症队列(cohort n),并将其从数据集中移除,以便用于样本生成。
-
VAE训练和微调:
- 使用Tybalt VAE模型,该模型改编自Way和Greene的工作,对剩余的TCGA样本进行训练。
- 然后,从选定的癌症队列中随机选择40个样本,对VAE模型进行微调。
-
潜在特征提取和合成样本生成:
- 微调后的VAE模型用于从微调样本中提取潜在特征。
- 从每个亚型中随机选择三个样本,将它们的潜在特征值随机重组,形成一个新的潜在样本特征向量。
- 使用训练好的解码器将这个潜在样本特征向量解码,生成具有5000个输入基因特征维度的合成样本。
- 重复这个过程,为每个亚型生成200个合成样本。
-
模型验证和评估:
- 使用剩余的癌症队列样本作为验证集。
- 训练一个随机森林分类器,并在验证集上进行五次预测,以获得亚型预测的准确性和量化误差。
- 这个过程,包括在癌症队列n上的训练-验证分割,构成了一个实验重复,每个癌症队列重复25次。
-
合成样本的评估:
- 使用UMAP(Uniform Manifold Approximation and Projection)进行降维,以可视化样本。
- 进行聚类分析,以评估合成样本与原始样本在特征空间中的分布情况。
- 计算MMD(Maximum Mean Discrepancy),这是一种非参数距离统计量,用于比较不同分布的样本组,以评估合成样本与原始样本的相似性。
这个流程允许研究者通过增加合成样本来增强机器学习模型的训练,特别是在处理样本数量有限的稀有癌症亚型时,可以提高预测的准确性和模型的泛化能力。
二、智能药物筛选:基于AI的免疫原性细胞死亡诱导剂识别
作者角色 | 姓名 | 单位中文 |
---|---|---|
第一作者 | Giulia Cerrato | 法国巴黎大学索邦大学附属法国国家健康与医学研究院(Inserm)U1138单位,巴黎科尔代里研究所,法国癌症联盟标签团队 |
通讯作者 | Allan Sauvat | 法国巴黎古斯塔夫-鲁西研究所 |
通讯作者 | Guido Kroemer | 法国巴黎科尔代里研究所,巴黎第六大学医学院,法国巴黎 |
文献概述
这篇文章是关于一项研究,该研究利用人工智能(AI)技术来识别能够诱导免疫原性细胞死亡(Immunogenic Cell Death, ICD)的抗癌药物。研究的核心是发现核仁凝集(Nucleolar Condensation, CON)与DNA到RNA的转录抑制之间的强相关性,并将其作为ICD的一个标志。研究者们应用了基于AI的成像分析技术,通过分析Cell Paint染色的细胞暴露于药物库时的图像,识别出CON作为ICD的标记。他们还训练了一个基于神经网络的定量结构-活性关系(Quantitative Structure-Activity Relationship, QSAR)模型,将化合物的分子描述符与CON表型联系起来,并通过NCI(美国国家癌症研究所)策划的抗癌药物机制收藏中的独立数据集来验证分类器。
研究结果表明,抑制RNA合成的细胞毒性药物即使不引起DNA损伤也能有效地诱导ICD,这一点通过DAMPs的释放/暴露和在小鼠中的疫苗效力来证明。QSAR分类器成功预测了可能诱导CON的药物。这项研究提供了一种基于分子描述符的AI算法,用于预测能够诱导CON的药物,并通过自动化显微图像分析进行验证,为筛选具有最小副作用的ICD诱导剂提供了新方法。
代码链接和数据集
-
链接地址:https://github.com/kroemerlab/NucleolAI/tree/main/RESOURCES/NIH_320K
-
这个链接指向的是一个公共的开源数据库,其中包含了大约320,000个化合物的信息,这些化合物被用于预测它们诱导核仁凝集(CON)的能力。
-
这个数据库是利用文章中描述的神经网络模型(NN-based QSAR model)计算得出的,提供了每个化合物的CON概率。这个数据库的建立旨在帮助科研人员快速筛选出可能诱导免疫原性细胞死亡(ICD)的化合物,加速药物筛选活动。
AI筛选化学药物的流程图
这张图片展示了一个用于筛选化学药物的流程图。
具体步骤如下:
-
化学药物筛选(Chemical agents screening):使用自制的抗癌药物库对人类骨肉瘤U2OS细胞进行处理,药物浓度为3 µM,顺铂(cisplatin)为300 µM,奥沙利铂(oxaliplatin)为500 µM。同时,加入一系列抑制转录的药剂(例如:3 µM表柔比星(epirubicin)、3 µM伊达比星(idarubicin)、10 µM阿贝西利(abemaciclib)、1 µM贝卡替尼(becatecarin)、1 µM曲贝替定(trabectedin)、5 µM BMH21、1 µM CX5461、15 µM阿克拉霉素(aclarubicin)、1 µM卢比那替定(lurbinectedin)、50 µM拓扑替康(topotecan)、20 µM美他瑞辛(metarrestin)、200 µM双脱氧核苷酸(DRB)、1 µM氟达拉滨(flavopiridol)、1 µM曲波利定(triptolide))或不处理(CTR),处理时间为4小时。
-
染色:细胞绘画法(Staining: Cell Painting assay):根据细胞绘画法对细胞器进行染色,包括细胞核(Nucleus)、线粒体(Mitochondrion)、内质网(ER)、F-肌动蛋白(F-actin)、核仁(Nucleolus)和细胞质RNA(Cytoplasmic RNA)。
-
成像和图像分割(Imaging and image segmentation):使用高通量显微镜对染色后的细胞进行成像,并对图像进行分割。
-
特征提取和聚类(Feature extraction and clustering):从图像中提取特征,包括转录抑制剂(Transcription inhibitors)和对照组(CTR),然后进行聚类分析。
-
细胞特征(Cell features):提取的特征包括矩(moment)、形状(shape)和Haralick特征。原始特征共有2886个,经过筛选得到577个相关特征。
-
子采样(Subsampling):对数据进行子采样,扩大到10000倍。
-
随机森林分类器(RF classifier):使用随机森林算法训练二元分类器,并从中提取特征重要性。
-
特征重要性(Features importance):评估不同特征在分类中的重要性。
这个流程图概述了一个高通量筛选实验的策略,旨在通过图像分析和机器学习技术来识别能够诱导免疫原性细胞死亡(ICD)的抗癌药物。
三、TAVAC算法:量化视觉Transformer模型的解释可重复性
角色 | 姓名 | 单位名称(中文) |
---|---|---|
第一作者 | Yue Zhao | 基因组医学杰克逊实验室,康涅狄格州,美国 |
第一作者 | Dylan Agyemang | 北卡罗来纳大学数学与统计系,教堂山,北卡罗来纳州,美国 |
通讯作者 | Sheng Li | 南加州大学诺里斯综合癌症中心,洛杉矶,加利福尼亚州,美国 |
文献概述
这篇文章是关于一项名为TAVAC(Training Attention and Validation Attention Consistency)的新研究,它旨在量化视觉Transformer(Vision Transformer,简称ViT)模型在解释可重复性方面的过拟合问题。
-
背景介绍:深度学习算法,尤其是ViT模型,在生物医学图像分类任务中展现出了强大的预测能力。然而,由于标注的生物医学成像数据集有限,ViT模型可能会过拟合,导致因随机噪声而产生错误的预测。
-
TAVAC的提出:为了解决过拟合问题,研究者提出了TAVAC这一度量标准,通过比较训练和测试中的高注意力区域来评估ViT模型的过拟合情况,并量化解释的可重复性。
-
TAVAC的工作原理:TAVAC算法通过将数据集分为训练集和验证集,然后在这两个数据集上交替训练和验证ViT模型,比较相同图像在训练和验证阶段的注意力图,使用皮尔逊相关系数来计算TAVAC分数,反映模型在不同数据集上的注意力一致性。
-
实验结果:研究者在四个公共图像分类数据集和两个独立的乳腺癌组织图像数据集上测试了TAVAC。结果显示,过拟合模型的TAVAC分数显著较低,TAVAC还能够区分非目标和目标注意力,并在细粒度的细胞水平上测量解释的泛化能力。
-
TAVAC的应用:TAVAC不仅在诊断中增强了解释的可重复性,还在基础研究中揭示了生物医学图像和其他非生物医学图像的关键空间模式和细胞结构。
-
讨论:文章讨论了TAVAC如何量化ViT模型解释的过拟合影响,并评估模型在预测对象类型或肿瘤状态时所关注的视觉特征的泛化水平。TAVAC在多种图像基准数据集上具有泛化性,并且可以作为模型解释质量评估的工具。
-
结论:TAVAC作为一个独立的评估工具,与传统的预测性能指标(如准确率或验证损失)相比,提供了模型性能的独特见解。TAVAC分数可以作为过滤低质量数据点的依据,增加对模型解释的信心。
文章最后提供了TAVAC算法的伪代码、使用的材料和方法,以及对TAVAC算法的进一步讨论和未来工作的展望。
代码链接和数据集
-
TAVAC算法的代码可以在GitHub上找到,链接为:https://github.com/labShengli/tAvAc。
-
CIFAR-10、MNIST、Food-101、Cats vs. Dogs数据集可以在Hugging Face数据集中心找到,链接为:https://huggingface.co/datasets。这些数据集被用于测试TAVAC算法的有效性,通过在这些公共图像分类数据集上的应用,研究者展示了TAVAC在不同类型图像上的性能。
-
ST-NET数据集可以从Mendeley数据网站下载,链接为:https://data.mendeley.com/datasets/29ntw7sh4r/5。这个数据集同样用于评估TAVAC算法,提供了实际的生物医学图像数据。
量化模型可解释&可重复性的流程
这张图片展示了TAVAC(Training Attention and Validation Attention Consistency)算法的总体工作流程。
A部分
描述了ViT(Vision Transformer)模型如何通过注意力机制来解释输入图像:
- 输入图像是CIFAR-10数据集中的一张图片。
- 图像被分割成多个小块(patches),然后嵌入到一个低维空间中,并进行归一化处理。
- 这些嵌入的图像块通过多头注意力(Multihead attention)机制和多层感知机(MLP)进行处理。
- 通过注意力展开(Attention rollout)技术,可以生成每个像素的注意力权重,这些权重表示模型在做出预测时对图像中每个像素的关注程度。
- 输出是模型对输入图像的分类结果,例如“鸟”。
B部分
展示了TAVAC算法的两阶段过程,用于评估模型解释的内部一致性:
- 使用两折交叉验证(Twofold cross-validation)来交替训练和验证ViT模型。
- 在第一阶段(Stage 1),Fold 1用于训练,Fold 2用于验证。
- 在第二阶段(Stage 2),角色互换,Fold 1用于验证,Fold 2用于训练。
- 对于每个阶段,使用注意力展开技术生成训练和验证数据的注意力图。
- 然后,通过比较相同图像在训练和验证阶段的注意力图,计算TAVAC分数。这个分数基于像素级注意力图分布的皮尔逊相关系数,反映了不同ViT模型在处理相同图像时的注意力一致性。
- 图中还展示了一个具体的例子,即训练集中的一匹马的图像,以及对应的训练和验证注意力图,以及它们之间的TAVAC分数(在这个例子中,相关系数r=0.75)。
总的来说,这张图说明了TAVAC算法如何通过比较训练和验证阶段的注意力图来量化ViT模型解释的泛化能力。