风格混合增强的解纠缠学习在医学图像分割的无监督域自适应中的应用|文献速递-医学影像人工智能进展
Title
题目
Style mixup enhanced disentanglement learning for unsupervised domain adaptation in medical image segmentation
风格混合增强的解纠缠学习在医学图像分割的无监督域自适应中的应用
01
文献速递介绍
随着深度学习的显著发展,其在医学图像分割领域已展现出令人瞩目的性能。这一成功在很大程度上依赖于训练数据和测试数据相互独立且同分布这一假设(强等人,2021)。然而,在临床应用中,医学数据的分布存在很大差异,这种差异被称为域偏移,它与不同模态间的图像风格变化密切相关(陈等人,2022b;蔡等人,2024b),其中涉及的因素包括多模态图像(如计算机断层扫描CT、磁共振成像MRI等)(李等人,2023;蔡等人,2024a)、扫描参数(吉布森等人,2018)以及受试者群体(卡米察斯等人,2017)。当将训练好的模型(源域)应用于测试数据(目标域)时,由域偏移导致的这种分布差异会致使模型性能下降(关和刘,2021;刘等人,2022b)。解决这一问题的一个直接方法是在目标域标签的监督下对源域预训练模型进行微调。然而,为每个新的目标域收集大量带有精确分割标签的数据既耗时又需要专业知识,这在临床场景中是不切实际的(蔡等人,2022a)。为了解决这一问题,无监督域自适应(UDA)方法应运而生,该方法旨在从有标签的源域中学习语义信息,并将学到的知识迁移到无标签的目标域中。 人们已经研究了多种旨在在目标域中取得良好性能的无监督域自适应方法,这些方法可以分为两类:(1)通过图像到图像(I2I)转换进行图像对齐(伊索拉等人,2017;朱等人,2017;霍夫曼等人,2018);(2)特征对齐,即通过在特征层面施加约束来对齐特征分布(费尔南多等人,2013;龚等人,2012;曾等人,2014)。前一类方法利用生成对抗网络(GANs)(古德费洛等人,2014)在原始图像和合成图像之间建立循环一致性。相比之下,后一类方法则是最小化预定义的分布对齐约束。到目前为止,这些无监督域自适应方法已成功应用于医学图像分割任务中(关和刘,2021)。吴和庄(2020,2021)在潜在特征空间中引入了显式距离对齐约束,用于多模态心脏分割。窦等人(2018)、陈等人(2020a)、韩等人(2022)、刘等人(2022d)提出了基于生成对抗网络的图像到图像转换方法,利用对抗学习来保留语义信息。然而,不同的医学图像模态中包含着复杂多样的解剖结构和模态因素,这使得在转换和重建过程中难以保持分割的语义准确性和一致性(查尔西亚斯等人,2019;关和刘,2021)。这就导致当像上述大多数方法那样直接将从源域学到的知识应用到目标域时,域不变性学习的效率较低。 最近的一些方法尝试使用解纠缠表示学习来学习域不变特征,以解决上述问题(陈等人,2019b;弗拉格曼等人,2022)。这种方法将潜在特征表示分离为域不变特征(例如结构或内容)和域可变特征(例如纹理或风格),有效地降低了域变化对自适应的影响(刘等人,2022a)。例如,杨等人(2019a)提出了带有解纠缠学习的图像到图像转换方法,以连接域不变内容空间和特定域风格空间。陈等人(2021a)结合了结构特征和外观特征,通过图像转换显式地生成多样化的增强数据。王和郑(2022)将在线图像增强集成到跨域图像转换中,并引入了语义一致性正则化用于无监督域自适应分割。孙等人(2022b)利用基于通道的解纠缠和注意力偏差来学习与任务相关的域不变特征。尽管这些基于图像转换的方法通过显式增强可能的数据分布表现出了理想的性能,但它们仍然存在三个局限性。首先,这些显式增强需要额外的多样性损失约束(杨等人,2019b),以防止模型陷入单一风格模式。这导致数据多样性有限,性能无法达到最优。其次,不可避免的多次解纠缠和纠缠操作使得难以完全保持语义一致性,也难以确保高质量的图像转换。第三,这些方法中的大多数主要利用跨域判别来提取具有判别性的语义信息,而没有考虑域内变化,这使得挖掘潜在的域不变表示变得困难。 在本文中,我们提出了一种新颖的风格混合增强解纠缠学习(SMEDL)方法,用于医学图像分割中的无监督域自适应,如图1所示。我们的方法无需图像转换和多样性正则化,而是通过解纠缠学习和混合算法在特征空间中生成具有多样风格的风格混合域,以提高模型的泛化能力。同时,我们引入了双层次域不变学习,以进一步增强在域内和域间变化下学习不变表示的能力。具体来说,我们采用了一种新颖的解纠缠风格混合和重组策略,通过在特征空间中对风格因子进行凸组合,隐式地生成两个新的风格混合域(源混合域和目标混合域)。然后,我们进一步提出了逐像素一致性正则化,以确保风格混合域的有效性并提供域一致性指导。对于双层次域不变学习,我们首先分别在源域和目标域中引入域内对比学习,以学习具有不同风格扰动的相同语义内容的域不变表示。此外,我们利用基于熵的域间对抗学习,通过区分具有相同混合风格的跨域内容表示,来学习最具判别性的语义域不变信息。 本文的主要贡献总结如下: - 我们提出了一种新颖的框架,称为风格混合增强解纠缠学习(SMEDL),用于跨模态医学分割,该框架隐式地提高了数据多样性,并增强了域不变表示学习。 - 我们没有采用图像转换和多样性正则化,而是引入了解纠缠风格混合(DSM)方法,在特征空间中创建具有多样风格的风格混合域,以提高模型的泛化能力。此外,我们采用逐像素一致性正则化来确保有效性和域一致性。 - 为了增强有效学习潜在域不变表示的能力,我们提出了双层次域不变学习(DDL),包括域内对比学习和域间对抗学习。 - 定性和定量的实验结果证明了我们的方法在无监督域自适应医学图像分割中的有效性。
Abatract
摘要
Unsupervised domain adaptation (UDA) has shown impressive performance by improving the generalizabilityof the model to tackle the domain shift problem for cross-modality medical segmentation. However, most ofthe existing UDA approaches depend on high-quality image translation with diversity constraints to explicitlyaugment the potential data diversity, which is hard to ensure semantic consistency and capture domaininvariant representation. In this paper, free of image translation and diversity constraints, we propose anovel Style Mixup Enhanced Disentanglement Learning (SMEDL) for UDA medical image segmentation tofurther improve domain generalization and enhance domain-invariant learning ability. Firstly, our methodadopts disentangled style mixup to implicitly generate style-mixed domains with diverse styles in thefeature space through a convex combination of disentangled style factors, which can effectively improvethe model generalization. Meanwhile, we further introduce pixel-wise consistency regularization to ensurethe effectiveness of style-mixed domains and provide domain consistency guidance. Secondly, we introducedual-level domain-invariant learning, including intra-domain contrastive learning and inter-domain adversariallearning to mine the underlying domain-invariant representation under both intra- and inter-domain variations.We have conducted comprehensive experiments to evaluate our method on two public cardiac datasets andone brain dataset. Experimental results demonstrate that our proposed method achieves superior performancecompared to the state-of-the-art methods for UDA medical image segmentation.
无监督域自适应(UDA)通过提高模型的泛化能力来应对跨模态医学分割中的域偏移问题,已展现出令人瞩目的性能。然而,现有的大多数无监督域自适应方法依赖于具有多样性约束的高质量图像转换,以此来显式地增加潜在的数据多样性,但这很难确保语义一致性,也难以捕捉域不变表示。 在本文中,我们提出了一种新颖的风格混合增强解纠缠学习(SMEDL)方法,用于无监督域自适应医学图像分割,该方法无需图像转换和多样性约束,能够进一步提高域泛化能力并增强域不变学习能力。首先,我们的方法采用解纠缠的风格混合,通过对解纠缠的风格因子进行凸组合,在特征空间中隐式地生成具有多样风格的风格混合域,这可以有效地提高模型的泛化能力。同时,我们进一步引入了逐像素一致性正则化,以确保风格混合域的有效性,并提供域一致性指导。其次,我们引入了双层次的域不变学习,包括域内对比学习和域间对抗学习,以挖掘在域内和域间变化下潜在的域不变表示。 我们在两个公开的心脏数据集和一个脑部数据集上进行了全面的实验来评估我们的方法。实验结果表明,与当前最先进的无监督域自适应医学图像分割方法相比,我们提出的方法取得了更优异的性能。
Method
方法
For the UDA setting, S is the source domain and 𝑥𝑠𝑟𝑐 is the sourceimage with label 𝑦𝑠𝑟𝑐 . In addition, T is the target domain and 𝑥𝑡𝑔𝑡 is thetarget image. Both domains share the same category set 𝐶. Our goalis to achieve promising performance in the target domain by applyingthe model trained on the labeled source domain to the unlabeled targetdomain. Fig. 2 illustrates the overview of the proposed approach toaddress domain shift in medical image segmentation. Our approach iscomposed of disentangled style mixup with consistency regularization(DSM) and dual-level domain-invariant learning (DDL). Firstly, wepropose a disentangled style mixup algorithm to implicitly generatestyle-mixed domains in the feature space to improve model generalization. Consistency regularization here is proposed to encourage thestyle-mixed domains to be effective and provide domain consistencyguidance. Secondly, we propose dual-level domain-invariant learningto further align the domain discrepancies by learning the underlyingdomain-invariant representation. The symbols used in the followingparts are summarized in Table 1.
对于无监督域自适应(UDA)的设置,(S)是源域,(x{src})是带有标签(y{src})的源图像。此外,(T)是目标域,(x_{tgt})是目标图像。两个域共享相同的类别集合(C)。我们的目标是通过将在有标签的源域上训练的模型应用于无标签的目标域,从而在目标域中取得良好的性能。图2展示了所提出的用于解决医学图像分割中域偏移问题的方法概述。 我们的方法由带有一致性正则化的解纠缠风格混合(DSM)和双层次域不变学习(DDL)组成。首先,我们提出了一种解纠缠风格混合算法,在特征空间中隐式地生成风格混合域,以提高模型的泛化能力。这里提出的一致性正则化旨在促使风格混合域有效,并提供域一致性指导。其次,我们提出双层次域不变学习,通过学习潜在的域不变表示来进一步对齐域差异。以下部分中使用的符号总结在表1中。
Conclusion
结论
In this paper, we proposed a novel Style Mixup Enhanced Disentanglement Learning method to address unsupervised domain adaptivemedical image segmentation. We introduced disentangled style mixupin the feature space to implicitly generate style-mixed domains withdiverse styles, which can effectively improve the model generalization. In addition, we adopted pixel-wise consistency regularization togenerate effective style-mixed domains and provide domain consistency guidance. To learn the most discriminative domain-invariantrepresentation, we proposed dual-level domain-invariant learning including intra-domain contrastive learning and inter-domain adversariallearning. Comprehensive experiments with quantitative and qualitativeevaluations on two publicly available datasets demonstrate the effectiveness of our method and confer significant advantages comparedwith the state-of-the-art UDA methods.
在本文中,我们提出了一种新颖的风格混合增强解纠缠学习方法,以解决无监督域自适应医学图像分割问题。我们在特征空间中引入了解纠缠风格混合方法,以隐式地生成具有多样风格的风格混合域,这能够有效地提高模型的泛化能力。此外,我们采用了逐像素一致性正则化方法,以生成有效的风格混合域,并提供域一致性指导。 为了学习最具判别性的域不变表示,我们提出了双层次域不变学习方法,包括域内对比学习和域间对抗学习。在两个公开可用的数据集上进行的包含定量和定性评估的综合实验,证明了我们方法的有效性,并且与当前最先进的无监督域自适应(UDA)方法相比,具有显著优势。
Figure
图
Fig. 1. Illustration of our proposed SMEDL, where different shapes refer to the featureof different organs in medical images. For the first step, we utilize the disentangled stylemixup (DSM) to generate style-mixed domains, including source mixed domain andtarget mixed domain, where style-mixed domains share the same semantic information(line color) as the original domains but are assembled with the mixed style (fill Color).For the second step, we introduce dual-level domain-invariant learning containing: (1)the intra-domain contrastive learning (ICL) between the original domains and contentrelated style-mixed domains to learn the invariant representation under intra-domainvariations; (2) the inter-domain adversarial learning (IAL) between two style-mixeddomains to capture invariant representation under inter-domain variations.
图1:我们所提出的风格混合增强解纠缠学习(SMEDL)方法的图示,其中不同的形状代表医学图像中不同器官的特征。在第一步中,我们利用解纠缠风格混合(DSM)来生成风格混合域,包括源混合域和目标混合域,这些风格混合域与原始域共享相同的语义信息(线条颜色),但采用了混合后的风格(填充颜色)进行组合。在第二步中,我们引入了双层次的域不变学习,其中包括:(1)原始域与内容相关的风格混合域之间的域内对比学习(ICL),用于学习在域内变化情况下的不变表示;(2)两个风格混合域之间的域间对抗学习(IAL),以捕捉在域间变化情况下的不变表示。
Fig. 2. Overview of our proposed framework. Firstly, we use a shared feature extractor followed by two separate extractors for content and style to decompose inputs into thedisentangled content feature 𝑓𝑠𝑟𝑐 𝑐 , 𝑓𝑡𝑔 𝑐 𝑡 and style feature 𝑓𝑠𝑟𝑐 𝑠 , 𝑓𝑡𝑔 𝑠 𝑡 representations. Then we feed the above disentangled factors into the DSM module to obtain the features of theoriginal domains 𝑓𝑠𝑟𝑐 , 𝑓𝑡𝑔𝑡 and style-mixed domains 𝑓𝑠𝑟𝑐𝑚𝑖𝑥, 𝑓𝑡𝑔𝑡𝑚𝑖𝑥. The predictor takes 𝑓𝑠𝑟𝑐 , 𝑓𝑠𝑟𝑐𝑚𝑖𝑥, 𝑓𝑡𝑔𝑡 and 𝑓𝑡𝑔𝑡𝑚𝑖𝑥 as input and generates the corresponding prediction 𝑝𝑠𝑟𝑐 , 𝑝𝑠𝑟𝑐𝑚𝑖𝑥,𝑝𝑡𝑔𝑡 and 𝑝𝑡𝑔𝑡𝑚𝑖𝑥. Intra-domain contrastive learning is conducted separately in 𝑓𝑠𝑟𝑐 , 𝑓𝑠𝑟𝑐𝑚𝑖𝑥*and 𝑓𝑡𝑔𝑡 , 𝑓𝑡𝑔𝑡𝑚𝑖𝑥* to enhance the domain-invariant learning. A discriminator is adopted todistinguish 𝑝𝑠𝑟𝑐𝑚𝑖𝑥 and 𝑝𝑡𝑔𝑡𝑚𝑖𝑥 for the inter-domain adversarial learning. 𝑝𝑠𝑟𝑐 and 𝑝𝑠𝑟𝑐𝑚𝑖𝑥 are supervised by the source label to provide the source supervision and consistency. 𝑝𝑡𝑔𝑡and 𝑝𝑡𝑔𝑡_𝑚𝑖𝑥 are further used to ensure the target consistency
图2. 我们所提出框架的概述。首先,我们使用一个共享的特征提取器,随后是两个分别用于提取内容和风格的独立提取器,将输入分解为解纠缠的内容特征(f{src}^c)、(f{tgt}^c)以及风格特征(f{src}^s)、(f{tgt}^s)表示。然后,我们将上述解纠缠的因子输入到解纠缠风格混合(DSM)模块中,以获得原始域的特征(f{src})、(f{tgt})以及风格混合域的特征(f{src}^{mix})、(f{tgt}^{mix})。预测器将(f{src})、(f{src}^{mix})、(f{tgt})和(f{tgt}^{mix})作为输入,并生成相应的预测结果(p{src})、(p{src}^{mix})、(p{tgt})和(p{tgt}^{mix})。在(f{src})、(f{src}^{mix})以及(f{tgt})、(f{tgt}^{mix})中分别进行域内对比学习,以增强域不变性学习。采用一个判别器来区分(p{src}^{mix})和(p{tgt}^{mix}),用于进行域间对抗学习。(p{src})和(p{src}^{mix})在源域标签的监督下,提供源域的监督和一致性。(p{tgt})和(p{tgt}^{mix})则进一步用于确保目标域的一致性。
Fig. 3. The detailed architecture of DSM module. MLP takes the style feature fromand target domains as input to generate the style factor 𝛾 and 𝛽. Then weadopt the mixup algorithm for style factor 𝛾 and 𝛽 to get the mixed style factor𝛾𝑚𝑖𝑥and 𝛽𝑚𝑖𝑥. With cascade AdaIN, the content feature can be combined with thestyle factors to obtain self-assembled domain features 𝑓𝑠𝑟𝑐 , 𝑓𝑡𝑔𝑡 and style-mixed domainfeatures 𝑓𝑠𝑟𝑐𝑚𝑖𝑥, 𝑓𝑡𝑔𝑡𝑚?
图3:解纠缠风格混合(DSM)模块的详细架构。多层感知器(MLP)将来自源域和目标域的风格特征作为输入,以生成风格因子(\gamma)和(\beta)。然后,我们对风格因子(\gamma)和(\beta)采用混合(mixup)算法,得到混合后的风格因子(\gamma^{mix})和(\beta^{mix})。通过级联自适应实例归一化(cascade AdaIN),内容特征可以与风格因子相结合,从而获得自组装的域特征(f{src})、(f{tgt})以及风格混合域特征(f{src}^{mix})、(f{tgt}^{mix}) 。
Fig. 4. Illustration of our proposed Intra-domain Contrastive Learning
图4:我们所提出的域内对比学习方法的图示。
Fig. 5. Qualitative comparison of different methods on the MM-WHS Challenge dataset. Top two rows: MR is set as the source domain and CT is set as the target domain;bottom two rows: CT is set as the source domain and MR is set as the target domain. The structure of LAC, LVC, MYO and AA are indicated by purple, yellow, orange, and blue,respectively
图5:在MM-WHS挑战数据集上不同方法的定性比较。前两行:将磁共振成像(MR)设为源域,计算机断层扫描(CT)设为目标域;后两行:将CT设为源域,MR设为目标域。左心房(LAC)、左心室(LVC)、心肌(MYO)和升主动脉(AA)的结构分别用紫色、黄色、橙色和蓝色表示。
Fig. 6. Qualitative comparison of different methods on the MS-CMRseg Challenge dataset. The structure of RV, LVC and Myo are indicated by purple, yellow, and orange,respectively
图6:在MS-CMRseg挑战数据集上不同方法的定性比较。右心室(RV)、左心室(LVC)和心肌(Myo)的结构分别用紫色、黄色和橙色表示。
Fig. 7. Qualitative comparison of different methods on the BraTS18 dataset to segment the whole tumor. For the target, the first row corresponds to the FLAIR modality, and thesecond row represents the T2 modality
图7:在BraTS18数据集上针对全肿瘤分割的不同方法的定性比较。对于目标数据,第一行对应的是液体衰减反转恢复(FLAIR)模态,第二行代表的是T2模态。
Fig. 8. Qualitative comparison of different methods for DSM on MM-WHS Challengedataset
图8:在MM-WHS挑战数据集上,针对解纠缠风格混合(DSM)的不同方法的定性比较。
Fig. 9. Sensitivity analysis to hyperparameters on all datasets.
图9:在所有数据集上对超参数的敏感性分析。
Table
表
Table 1Definitions of Important Symbols.
表1 重要符号的定义。
Table 2Quantitative comparison between our method and the other SOTA methods on the MM-WHS challenge dataset
表2:在MM-WHS挑战数据集上,我们的方法与其他最先进(SOTA)方法的定量比较。
Table 3Quantitative comparison between our method and the other SOTA methods on the MS-CMR challenge dataset
表3:在MS-CMR挑战数据集上,我们的方法与其他最先进(SOTA)方法的定量比较。
Table 4Quantitative comparison between our method and the other SOTA methods on theBrat18 challenge dataset.
表4:在BraTS18挑战数据集上,我们的方法与其他最先进(SOTA)方法的定量比较。
Table 5Quantitative results of ablation study for the influence of different components on the MM-WHS dataset.
表5:关于不同组件对MM-WHS数据集影响的消融实验定量结果
Table 6Quantitative Dice results of complementary between intra-domain contrastive learningand consistency regularization.
表6:域内对比学习与一致性正则化之间互补性的定量Dice系数结果。
Table 7Quantitative comparison of Mixup operation for DSM on the MM-WHS challenge dataset..
表7:在MM-WHS挑战数据集上,针对解纠缠风格混合(DSM)的混合(Mixup)操作的定量比较。
Table 8Evaluation of different 𝛼 settings on DSM
表8:对解纠缠风格混合(DSM)中不同(\alpha)设置的评估。
Table 9Evaluation of different settings on intra-domain contrastive learning
表9:对域内对比学习的不同设置的评估。
Table 10Evaluation of different scenarios for inter-domain adversarial learning.
表10:对域间对抗学习的不同场景的评估。
Table 11Evaluation of different cascade times in Cascade AdaIN.
表11:对级联自适应实例归一化(Cascade AdaIN)中不同级联次数的评估。