医学AI公开课第二期|写给癌症研究者的人工智能指南|公开课·25-01-03
小罗碎碎念
昨天晚上进行了文献汇报,但是考虑到时间原因,很多内容我没能展开介绍。
昨晚不少内容一笔带过,但是还是讲了快两个小时,结束以后感觉嗓子都快哑了,看来最近有点缺乏锻炼,哈哈。
我知道自己很墨迹,不想花费太多时间打磨PPT,所以昨晚六点半开始汇报,早上才开始做,直到18:28分才做完(果然自己还是很了解自己)。
这一期推送内容很多,知识密度很高,从人工智能的基础,讲到病理组学、影像组学的最新应用,最后还提供了两个我觉得很有意思的研究方向——所以这期推送既适合初学者入门,也适合正在选题的老师作为参考。
推文速览
知识星球
如需获取推文中提及的各种资料,欢迎加入我的知识星球!
一、机器学习在临床研究中的应用
过去的15年中,AI在众多领域达到了人类水平的表现
图中用一条水平直线表示从左到右的研究进展,分别标记为“Basic research”(基础研究)、“Translational”(转化研究)和“Clinical research”(临床研究)。
基础研究(Basic research)
- 预测蛋白质结构(Predict protein structure):利用计算生物学方法预测蛋白质的三维结构,这对于理解蛋白质功能和设计药物至关重要。
- 自动化高通量分析(Automate high-throughput assays):开发和使用自动化技术进行大规模的实验,以快速筛选和分析大量样本。
转化研究(Translational research)
- 识别基因组结构(Identify genomic structures):研究基因组中的结构变异,这些变异可能与疾病相关。
- 病理生物标志物(Pathology biomarkers):发现和验证可以用于诊断或预测疾病进展的生物标志物。
- 结构非结构化数据(Structure unstructured data):整理和分析非结构化数据,如临床笔记或图像,以提取有用的信息。
临床研究(Clinical research)
- 改善反应评估(Improve response assessment):开发更准确的方法来评估患者对治疗的反应。
- 结合多模态数据(Combine multimodal data):整合来自不同来源和类型的数据,如基因组数据、临床数据和影像数据,以获得更全面的疾病理解。
AI方法在癌症研究中越来越常见
一些生物医学研究软件具有可针对特定任务进行训练的AI系统,例如带有图形用户界面的图像分析工具,允许用户训练自定义AI模型。
ilastik非常适合亚细胞分析,而QuPath和3D Slicer分别常用于组织层面和全身成像。Fiji、ImageJ和CellProfiler是多功能的工具,能够处理不同尺度下的广泛图像分析任务。
下面这张图可以分为两部分来理解,上半部分,是将肿瘤的研究从宏观到微观的层次进行划分——身体、组织、细胞、亚细胞结构,橙色的则是对应我前面提到的软件,我们研究病理AI的,接触的比较多的应该是Qupath。
上图的第二部分则是介绍了一个深度学习建模的套路——准备正负类型的样本进行训练(例如肿瘤患者vs正常人),模型在训练的过程就是一个不断调优和迭代的过程,达到指标以后,我们就可以进行测试(包括内部测试和外部测试);测试通过以后我们可以进行验证(同理,包括内部验证和外部验证),外部验证通过以后我们就可以部署模型。
医学人工智能领域发展现状如何?
数据统计截至24-12-30
在pubmed粗略检索与近五年发表的人工智能相关的文章,直接返回的数量是264,401,在筛选掉质量较差的一批文章后,还剩下5140篇,其中IF>10的文章有525篇。
上图列举了发文数量靠前的几个期刊,可以作为老师/同学投稿时的参考。
医学AI在15个常见癌种中的应用
我挑选了15个常见的癌种,分别调研了医学AI在各自领域的发文情况,发现乳腺癌、肺癌等领域的发文数量最多。我是研究鼻咽癌的,目前相关的研究仍远少于前面提到的乳腺癌、肺癌等。
医学AI在29个不同场景中的应用
除了研究不同癌种的应用情况,我们还需要关注不同应用场景的应用情况。无论是影像组学,还是病理组学的研究,对图像内容进行分类和识别是避免不了的,所以理所当然,这一部分的研究是最多的。
影像组学的研究起步最早,所以这一领域的研究数量很多,病理组学起步稍晚,因此数量相对较少(但是也已经开始趋于饱和)。
二、理解深度学习
早期人工神经网络(1940 - 1960年代)
第一个人工神经元模型,称为MP模型(McCulloch-Pitts模型),由McCulloch和Pitts于1943年提出。
该模型是对生物神经元的抽象,旨在模拟神经元如何处理信息。
-
树突:树突是神经元的输入部分,负责接收来自其他神经元的信号。
-
神经末梢:神经末梢是神经元轴突的末端,负责将信号传递给其他神经元。
-
郎飞氏结:这是髓鞘之间的间隙,有助于加速神经冲动的传导。
-
细胞体:细胞体包含细胞核和其他细胞器,是神经元的主要部分,负责处理输入信号并生成输出信号。
-
施万细胞:这些细胞形成髓鞘,包裹在轴突周围,有助于加快神经冲动的传导。
-
轴突:轴突是神经元的输出部分,负责将信号从细胞体传递到其他神经元。
-
髓鞘:髓鞘是包裹在轴突周围的绝缘层,有助于加快神经冲动的传导。
-
细胞核:细胞核包含遗传物质,控制细胞的活动和功能。
MP模型的核心思想是,神经元接收来自其他神经元的输入信号,这些信号通过带权重的连接进行传递。总输入与阈值进行比较,然后通过激活函数处理,最终产生神经元的输出。这个模型为人工神经网络的发展奠定了基础。
人工智能的诞生(1956)
1956年8月在美国新罕布什尔州汉诺斯的达特茅斯学院举行了一次历史性会议,这次会议被认为是人工智能领域的开端。
-
达特茅斯会议:这是人工智能领域的奠基性会议,由约翰·麦卡锡(John McCarthy)、马文·闵斯基(Marvin Minsky)、克劳德·香农(Claude Shannon)、艾伦·纽厄尔(Allen Newell)和赫伯特·西蒙(Herbert Simon)等著名科学家和组织。
-
与会者:
- 约翰·麦卡锡:计算机科学家,后来被称为“人工智能之父”。
- 马文·闵斯基:人工智能和认知科学领域的专家。
- 克劳德·香农:信息论的创始人。
- 艾伦·纽厄尔:计算机科学家,对人工智能和认知心理学有重要贡献。
- 赫伯特·西蒙:诺贝尔经济学奖得主,对决策理论和人工智能有深入研究。
-
会议内容:科学家们讨论了如何用机器模仿人类学习和其他智能行为。尽管会议没有达成普遍共识,但它为这一新兴领域命名,并确立了研究方向。
-
人工智能元年:1956年被认为是人工智能的元年,因为这次会议正式提出了“人工智能”这一术语,并开启了该领域的研究和发展。
卷积神经网络CNN(1987-1989年)
在1956年~1987年间,人工智能还有一些标志性的研究,我这里考虑到篇幅原因,不再展开介绍。
卷积神经网络(CNN)是一种深度学习模型,特别适用于图像识别和分类任务。它通过卷积操作从输入图像中提取局部特征,如边缘和纹理,然后通过池化操作降低数据的维度,减少计算复杂度并防止过拟合。
上图以灰度图像的处理为例,输入是一个32x32的灰度图像,经过第一层卷积生成28x28的特征图,然后通过池化层降维到14x14。接着,第二层卷积和池化进一步提取特征,生成10x10和5x5的特征图。每一步都逐步从局部特征整合到全局信息。
最终,经过全连接层处理,CNN将提取的特征用于分类或识别任务。这一流程展示了CNN如何从原始图像中逐步提取和整合信息,最终实现高效的图像处理和分析。Yann LeCun是这一领域的先驱,他的工作对CNN的发展起到了关键作用。
残差网络ResNet(2015年)
继CNN提出之后,除了Hinton的反向传播算法,我最青睐的研究莫过于何恺明的ResNet。
这一部分主要是想介绍一下残差学习(Residual Learning)的基本概念,这是深度学习中用于解决深度神经网络训练中退化问题的一种重要技术。
残差网络(ResNet)通过引入“残差块”结构,允许网络学习输入与输出之间的残差(即差异),而不是直接学习目标映射。这种方法使得训练非常深的网络变得更加可行和高效。
在残差块中,输入 ( x ) 通过一系列权重层和激活函数进行处理,生成 ( F(x) )。然后,原始输入 ( x ) 与 ( F(x) ) 相加,形成最终的输出 ( F(x) + x )。这种“跳跃连接”(skip connection)使得梯度能够更直接地传播,缓解了梯度消失问题,从而改善了深层网络的训练效果。
为了更方便大家理解,我还对比了普通卷积网络和残差卷积网络的结构——普通卷积网络直接学习目标映射,而残差卷积网络通过学习残差来简化学习过程。这种方法在图像识别等任务中表现出色,成为深度学习领域的一个重要里程碑。
UNet(2015年)+nnU-Net(2018年)
这一部分介绍了U-Net及其改进版本nnU-Net,这两种网络在生物医学图像分割领域具有重要应用。
U-Net由Olaf Ronneberger等人提出,其结构包括编码器和解码器两部分,通过跳跃连接将编码器中的特征图与解码器中的对应层结合,从而保留更多的空间信息。这种结构使得U-Net在处理医学影像时能够生成精确的分割结果。
nnU-Net是一个自适应的框架,旨在优化和自动化U-Net在不同医学影像数据集上的应用。它由Fabian Isensee等人开发,能够根据具体数据集的特点自动调整网络结构和训练参数,从而提高分割性能。nnU-Net的设计使其能够灵活适应各种新的医学影像数据,减少了手动调参的需求。
这两种网络在医学图像分割中表现出色,广泛应用于肿瘤检测、器官分割等任务。U-Net通过其独特的编码器-解码器结构和跳跃连接,有效地捕捉了图像的细节信息,而nnU-Net则通过自适应机制进一步提升了模型的泛化能力和实用性。这些技术为医学影像分析提供了强大的工具,推动了精准医疗的发展。
Transformers(2017年至今)
Transformer模型的核心架构,在论文《Attention Is All You Need》中由Ashish Vaswani等人提出。
Transformer模型彻底改变了自然语言处理(NLP)领域,摒弃了传统的循环神经网络(RNN)和卷积神经网络(CNN),完全依赖自注意力机制(Self-Attention)来处理序列数据。这种机制使得模型能够同时关注输入序列中的所有位置,从而更有效地捕捉长距离依赖关系。
Transformer模型由编码器(Encoder)和解码器(Decoder)两部分组成。编码器和解码器都包含多层,每层由多头自注意力机制(Multi-Head Attention)和前馈神经网络(Feed Forward Network)组成,并通过残差连接和层归一化(Add & Norm)来稳定训练过程。多头自注意力机制允许模型在不同的表示子空间中学习信息,增强了模型的表达能力。
Transformer模型的成功在于其并行处理能力和对长距离依赖关系的有效捕捉,这使得它在机器翻译、文本生成等任务中表现出色。此外,Transformer架构也为后来的大型语言模型(如BERT、GPT等)奠定了基础,推动了NLP领域的快速发展。
人工智能的诞生与崛起(1956 - 2024)
2024年诺贝尔物理奖颁给了两位AI大牛,引起了社会各界一阵又一阵的讨论热潮。
非工科专业的老师/同学很容易混淆一个概念——人工智能(AI)、机器学习(ML)和深度学习(DL)这三个相关但不同的概念。
人工智能是涵盖最广的领域,旨在创建能够执行通常需要人类智能的任务的系统。机器学习是人工智能的一个子集,专注于开发能够从数据中学习并做出预测或决策的算法,而无需显式编程。
深度学习是机器学习的一个更具体的分支,它使用多层神经网络来模拟复杂的模式和数据表示。深度学习的典型例子包括卷积神经网络(CNN)和循环神经网络(RNN),它们在图像识别、自然语言处理等任务中表现出色。反向传播算法是训练这些神经网络的关键技术,通过调整网络权重来最小化预测误差。
上图的左侧则是两位对于AI的发展影响颇为深远的两位大佬,旁边也附带了二位的成名之作,感兴趣的可以自行了解,这里不再展开介绍。
三、AI在病理组学中的应用
浅层模型到深度、多模态、通用模型的发展过程
计算机视觉从简单、专门、浅层模型到深度、多模态、通用模型的发展历程。
图a
-
早期(~1990年)
使用手工特征的机器学习模型进行监督学习。这些模型依赖领域专家手动从图像中提取相关特征,然后在标记数据集上训练模型。
-
2012年
监督深度学习出现。AI模型,特别是卷积神经网络(CNNs),在大型标记数据集上训练,直接从原始图像数据中自动学习分层特征。这种方法显著提高了AI模型在医学成像任务中的性能和泛化能力。
-
2020年代初
许多研究小组开始使用自监督学习方法。这种方法使模型能够通过预测数据本身的属性从无标记数据中学习有意义的模式,而不依赖外部标签。
图b
-
早期(~1990年)
机器学习结合手工特征:从医学图像中精心选择模式作为分析基础。
-
单领域、单用途模型
模型能够直接从数据中学习关键特征,无需手动选择特征。
-
多模态模型
强调通过多模态模型整合各种数据源,这些模型结合了来自不同数据模态的信息,如放射图像、病理切片、基因组数据和临床记录。
-
基础模型
基础模型是在多个模态的多样化无标记数据集上预训练的大规模、自监督模型。这些模型可以通过最少的特定任务训练数据进行微调,以完成各种下游任务。
-
通用模型
通用模型是一个多功能工具,能够分析、解释并与患者和医疗专业人员互动。这个通用模型将整合来自多个来源的数据,支持诊断和治疗建议,并以人类可理解的方式解释其决策。
病理AI是精准医疗的未来吗?
这一部分介绍了病理AI的一般研究流程以及当前的一个论文发表情况。
如左侧所示,从被诊断为癌症的患者身上获取肿瘤样本是我们获取WSI的必经步骤,活检取组织后,可以进行组织学和分子分析。这些数据为后续的AI分析提供了基础。
接下来,这些数据被输入到深度学习模块中,该模块通过训练模型来预测患者的诊断和预后特征。深度学习模型能够处理复杂的多模态数据,包括图像、基因组数据等,从而提高诊断的准确性和个性化治疗的可能性。
右侧这张图我非常喜欢,所以也频繁出现在我的推送中。这两张图分别介绍了病理、基因以及多模态领域的一个论文发表情况。基础部分对应的任务是诊断、分级和亚型分类,高级应用部分则是对应的突变预测、响应预测以及预后预测。
我们可以很明显的看到,目前多模态的模型无论是在基础应用还是高级应用中,出现的频率都很低。
病理AI领域2024年论文发表情况
这一部分的数据统计截至24-12-21
下图左侧列举了病理AI每个月的论文发表情况,我们会发现年中是一个发文高峰。
右侧则是列举病理AI领域发表的7篇基础模型——分别提供了论文名、发表时间、期刊以及模型的名字,这样看是不是一目了然,哈哈。
CONCH:零样本学习在病理图像分析中的基础模型
基础模型很多,我这里只挑出其中一个介绍。
CONCH是去年3.19发表在Nature Medicine上的一篇文章中提出的模型,通讯是哈佛的Faisal Mahmood。
这一部分已经有很多文字介绍,所以我就不展开介绍了。
四、AI在影像组学中的应用
影像组学的应用与挑战(肺癌)
如果是研究影像组学的,我强烈推荐张老师写的这篇综述。
放射组学(Radiomics)的工作流程
这张图片展示了放射组学(Radiomics)的一般工作流程,这是一种从医学图像中提取大量定量特征并用于临床预测的方法。首先,流程从加载原始图像开始,如CT或PET扫描,然后进行图像预处理,包括去噪、灰度窗化和重采样,以确保图像质量一致并适合后续分析。
接下来,进行肿瘤分割,这可以是无监督、有监督或自监督的方法,目的是准确识别肿瘤区域。然后,从分割后的肿瘤区域中提取特征,这些特征可以是手工设计的(如直方图、形状、纹理特征)或通过深度学习方法自动提取的。这些特征用于捕捉肿瘤的异质性和其他生物学特性。
最后,提取的特征被用于临床预测,如预测肿瘤的恶性程度、组织学类型、基因型或治疗反应。放射组学的目标是通过量化肿瘤的特征来提供更精确的诊断和个性化治疗策略。这一流程展示了如何将医学图像转化为有价值的临床信息,从而辅助医生做出更准确的决策。
此外,如果是初学者,我还推荐大家去阅读一下田老师主编的这本《影像组学基础》(星球有pdf版本)。
影像组学领域的51个公开数据集
巧妇难为无米之炊,我们很多时候不能仅靠收集内部中心的数据完成实验,这时候就需要外部中心的数据来测试和验证自己模型的性能了,所以公开数据集是我们必须要获取的信息。
经过我的整理,初步汇总了51个影像组学领域的公开数据集,每个链接我都测试过,可以打开。
影像组学领域的CT+MRI+PET公开数据集(75个)
上面提到的51个数据集大部分是挑战赛的数据,下面的这75个数据集,则是我从文献中一个一个筛选出来的。
目前数据为王的时代,手里拥有的数据自然是越多越好!有些论文发表会带着数据集一起发表,但是由于论文发表的期刊不是太好,所以可能就会导致这个数据没有太多人发现,你率先发现,那就是机会!
五、人工智能的新兴应用
利用单细胞和空间转录组学分析细胞身份和组织结构
这张图展示了从实验设计到生物学和临床发现的整个研究流程,特别是单细胞转录组学和空间转录组学的应用。
- 实验设计(Experimental design):研究从不同器官和物种中编目单细胞和空间转录组数据
- 单细胞转录组学(Single-cell transcriptomics):
- 细胞(Cells):从组织中分离出单个细胞。
- 单细胞RNA(Single-cell RNA):提取每个细胞的RNA。
- 细胞类型和状态(Cell types and states):分析RNA以确定细胞的类型和状态。
- 细胞轨迹(Cellular trajectories):通过分析细胞状态的变化来推断细胞的发育轨迹。
- 空间转录组学(Spatial transcriptomics):
- 多细胞邻域(Multicellular neighbourhoods):研究细胞在组织中的分布和相互作用。
- 空间生态型(Spatial ecotype):定义细胞在空间上的分布模式。
- 机器学习和人工智能(Machine learning and artificial intelligence):利用这些技术来分析和解释大量的数据,从而揭示细胞间的信号传递和相互作用。
- 生物学和临床发现(Biological and clinical discoveries):最终,这些研究有助于新的生物学理解和临床应用的开发。
整体而言,这张图强调了单细胞和空间转录组学技术在解析细胞多样性、组织结构和功能方面的重要性,以及这些技术如何通过机器学习和人工智能的应用来促进生物学和医学的进步。
Transformers在单细胞组学中的应用
这一部分展示了一个基于自然方法(nature methods)的单细胞数据分析框架。
图中包含多个模块,描述了从单细胞数据到不同层次分析任务的流程。
左侧:单细胞数据类型
- scRNA-seq:单细胞RNA测序数据。
- scATAC-seq:单细胞ATAC测序数据。
- CITE-seq:细胞表面蛋白和转录组联合测序数据。
- Spatial transcriptomics:空间转录组数据。
中间:模型架构
图中显示了一个Transformer架构,包含多个模块:
- Self-supervised training:自监督训练模块,用于训练模型。
- Attention:注意力机制模块,用于处理数据。
- Feed-forward:前馈神经网络模块,用于进一步处理数据。
- M layers:多层架构,用于处理复杂的数据分析。
右侧:分析任务
- Cell annotation:细胞注释,用于识别细胞类型。
- Cell-cell communication:细胞间通讯分析,用于研究细胞间的相互作用。
- Cell clustering:细胞聚类,用于将相似细胞分组。
- Perturbation effect:扰动效应分析,用于研究外部因素对细胞的影响。
- GRN inference:基因调控网络推断,用于研究基因间的调控关系。
- Gene function:基因功能分析,用于研究基因的功能。
- Simulation:模拟分析,用于模拟细胞行为。
结束语
本期推文的内容就到这里啦,如果需要获取医学AI领域的最新发展动态,请关注小罗的推送!如需进一步深入研究,获取相关资料,欢迎加入我的知识星球!
家教应聘
插播一个消息,北京昌平或者海淀区,如果近期有家教需求(数学)的老师/同学,可以联系我。