当前位置：首页 > article >正文

人工智能在鼻咽癌中的应用综述｜文献精析·24-09-13

article 2025/2/22 2:27:59

小罗碎碎念

这篇文章系统回顾了人工智能在鼻咽癌管理中的应用，发现AI在提高诊断、预后评估和放疗计划的自动化方面具有积极影响。

10.2147/cmar.s341583

作者角色	作者姓名	单位（中文）
第一作者	Wai Tong Ng	香港大学深圳医院临床肿瘤中心，中国；香港大学李嘉诚医学院临床肿瘤学系，中国香港
通讯作者	Barton But	香港大学李嘉诚医学院临床肿瘤学系，中国香港

通讯作者：Barton But

Barton But教授是香港大学李嘉诚医学院临床肿瘤学系的一名资深教授，同时也是香港大学深圳医院临床肿瘤中心的重要成员。他在临床肿瘤学领域有着丰富的研究和实践经验，特别是在头颈部肿瘤，包括鼻咽癌的诊断和治疗方面。

But教授在国际学术界享有盛誉，发表了多篇高质量的研究论文，并在多个专业期刊上担任编委或审稿人。他的研究工作不仅推动了鼻咽癌治疗的进步，也为其他头颈部肿瘤的治疗提供了重要的参考和指导。

文献概述

文章主要探讨了人工智能（AI）在鼻咽癌（NPC）管理中的应用，包括自动勾画（auto-contouring）、诊断（diagnosis）、预后（prognosis）和其他应用（如放疗计划）。

研究方法包括从PubMed、Scopus和Embase数据库中检索相关文献，并使用特定的搜索策略和纳入排除标准筛选文章。最终纳入了60篇论文进行质量评估，并使用QUADAS-2工具评估了这些研究的偏倚风险和适用性关注点。

研究结果表明，AI在NPC管理中具有积极的影响，尤其是在提高诊断准确性、预后评估和放疗计划的自动化方面。文章还讨论了AI模型在实际临床设置中的应用前景，并指出了目前AI应用的一些限制，如数据集的普遍性和多样性、模型的泛化能力以及与人类专家的比较结果。

文章最后得出结论，随着AI算法的改进，预计AI将很快成为临床设置中的常规应用。

一、绪论

根据国际癌症研究机构的报告，鼻咽癌（NPC）在全球癌症中排名第23位。

2020年，全球新发病例和死亡病例分别为133,354例和80,008例1,2。鼻咽癌虽然并不罕见，但其地理分布具有显著特点，在东亚和东南亚地区最为流行，占全球病例的76.9%，其中近一半新发病例发生在中国2。

由于其晚期症状和解剖位置的特殊性，鼻咽癌在早期难以被发现。放疗是主要的治疗方式，对于晚期局部区域性疾病，通常需要联合/辅助化疗3。此外，附近存在许多对辐射敏感的器官-风险部位，包括唾液腺、脑干、视神经、颞叶和耳蜗4。

因此，探讨人工智能（AI）在鼻咽癌的诊断、治疗过程及预后预测方面的应用具有重要意义。

过去十年，AI技术在许多行业中发挥了重要作用，包括癌症治疗领域。

医学专业人士正在寻找利用AI提高治疗质量的方法。AI是指任何允许算法模仿智能行为的方法，其包含两个子集：机器学习（ML）和深度学习（DL）。

ML使用统计方法使算法能够学习和提高性能，如随机森林和支持向量机。人工神经网络（ANN）是ML的一个例子，也是DL的核心部分5。DL可以定义为通过多层ANN自动更新参数的学习算法。深度神经网络，如卷积神经网络（CNN）和循环神经网络，都是DL架构。

在制定个性化治疗方案时，除了组织学、临床和人口学信息外，医生还需整合从基因组学、蛋白质组学、免疫组化到影像学等多种数据。这促使人们开发计算方法，以提供有助于提高患者预后和工作流程的见解，从而改善医疗管理。

鉴于AI在癌症治疗中的广泛应用，本研究通过系统文献回顾，收集并研究了关于AI在鼻咽癌管理中应用的论文，以提供当前趋势的概述。此外，本文还探讨了文章中讨论的可能局限性。

二、方法

2-1：搜索协议

进行了一项系统的文献搜索，以检索在鼻咽癌（NPC）管理中使用人工智能（AI）或其子领域的研究。通过布尔逻辑组合关键词，形成了以下搜索短语：

（“artificial intelligence” OR “machine learning” OR “deep learning” OR “Neural Network”）AND（“nasopharyngeal carcinoma” OR “nasopharyngeal cancer”）

使用该搜索短语，在PubMed、Scopus和Embase数据库中搜索了过去15年至2021年3月的研究文章。合并了三个数据库的结果，并去除了重复项。尽可能遵循系统评价和元分析的首选报告项目（PRISMA），并使用PRISMA流程图和清单作为系统文献回顾的关键方面的指南6。

2-2：纳入与排除标准

确定了排除和纳入标准，以评估检索到的出版物的合格性。

首先检查文章以排除不符合排除标准的文献，包括书籍章节、会议报告、文献综述、社论、给编辑的信件和病例报告。此外，非英语或中文以外的语言文章以及无法获取全文的论文也被排除。

剩余的研究通过阅读标题和摘要进行筛选，以排除不符合纳入标准（AI或其子领域应用以及NPC实验）的文章。进一步进行了全文审查，以确认文章是否符合这些标准。

该过程由两名独立审稿人（B.B & H.C.）进行。

2-3：数据提取

从每篇文章中提取基本信息，并将其放入数据提取表（表1）中。

这些信息包括作者、出版年份、国家、样本类型、样本大小、使用的AI算法、应用类型、研究目标、报告的性能指标、结果、结论和局限性。从每项研究中选择了性能指标最佳的AI模型。

此外，通过评估测试队列而非训练队列，获取了用训练队列训练的模型的性能结果，以防止使用相同数据集训练和测试模型导致的过拟合。

三、结果

66.7%（n=40）的研究仅使用影像学数据，如磁共振成像、计算机断层扫描或内窥镜图像15,16,18,19,21–24,26–28,30,32,34,37–39,41–43,45–56,58–63,67,69。

还有四项研究除了影像数据外，还包含了临床病理学数据用于训练模型25,31,36,40，而另外三项研究则使用了影像、临床病理学数据和血浆Epstein-Barr病毒（EBV）DNA来开发模型29,33,35。

此外，4项研究使用了治疗计划64–66,68，而蛋白质和microRNA表达数据各有一项研究提取10,44。还有四篇文章使用临床病理学和血浆EBV DNA/血清学数据进行了训练12–14,17，而一项研究使用临床病理学和剂量学数据训练其模型57。风险因素（n=2），如人口统计、病史、家族癌症史、饮食、社会和环境因素，也被用来开发AI模型11,20。

研究可以分为四个领域，分别是：

自动勾画（n=21）15,16,18,22,24,30–32,45–55,67,69
诊断（n=17）10,15,16,23,26,27,49,52,54,56–63
预后（n=20）12–14,17,19,25,28,29,33–44
杂项应用（n=7）11,20,21,64–66,68，包括风险因素识别、图像配准和放射治疗计划（图2A）。

五项研究同时检查了诊断和自动勾画15,16,49,52,54。

对应用目的的分析显示，只有在自动勾画中，深度学习（DL）被最频繁使用（22个实例中有19个）。对于其他类别（NPC诊断、预后和杂项应用），机器学习（ML）是最常见的技术（每个类别中超过一半的出版物）（图2A）。

此外，本研究文献回顾中应用的DL模型研究发表于2017年至2021年，其中实验重点放在DL上。观察到大多数应用DL模型的论文使用了各种形式的卷积神经网络（CNN）（n=30）15,18,19,21–24,28–34,36,45–53,55,56,60,65,67,69，而主要的ML方法是人工神经网络（ANN）（n=12）13,16,26,42–44,54,61–64,68。

报告的主要指标包括接收者操作特征曲线下面积（AUC）、准确度、灵敏度、特异性、骰子相似系数（DSC）和平均对称表面距离（ASSD），如图2B所示。

AUC用于评估25篇论文中模型的性能，其中大多数测量预后能力（n=13）12–14,19,28,33–35,37,39,40,42,44和诊断能力（n=10）15,23,26,27,49,56–60。

应用方法中有五个或以上实例的性能指标以箱线图（图3）展示。

预后中位数AUC、准确度、灵敏度和特异性分别为0.8000、0.8300、0.8003和0.8070，其范围分别为0.6330–0.9510、0.7559–0.9090、0.3440–0.9200和0.5200–1.000。对于诊断，AUC的中位数为0.9300，而准确度的中位数为0.9150。

此外，灵敏度和特异性的中位数分别为0.9307和0.9413。诊断的AUC、准确度、灵敏度和特异性的范围分别为0.6900–0.9900、0.6500–0.9777、0.0215–1.000和0.8000–1.000。自动勾画的中位数DSC值为0.7530，其范围为0.6200–0.9340。

此外，自动勾画的中位数ASSD为1.7350毫米，研究中发现的最低和最高值分别为0.5330毫米和3.4000毫米。

四、任务类型

4-1：自动勾画

关于自动勾画的研究集中在分割大体肿瘤体积、临床靶体积、器官-at-risk（OARs）和原发肿瘤体积。最常勾画的靶体积是大体肿瘤体积（n=7），30,48,49,51,53,55,69，其次是OARs（n=3）。50,52,67临床靶体积和原发肿瘤体积分别在两篇和一篇论文中进行了研究。46,55,56然而，有九篇文章没有提及具体勾画的靶体积。

15,16,18,22,24,31,32,47,54两篇论文报告了分割视神经的DSC明显低于其他OARs。52,67相比之下，尽管视神经的分割不是最差的，但另一篇论文报告了其测试的三种OARs，包括视神经，特别难以勾画。50这是由于CT图像中软组织对比度低以及其形态特征的多样性。在分析OARs时，自动勾画眼睛获得了最佳的DSC。此外，除了脊髓外，AI模型在勾画OARs时DSC值大于0.8。50,52,67

4-2：诊断

对于NPC的检测，六篇论文比较了AI和人类的表现。其中两篇发现AI的诊断能力优于人类（肿瘤学家和经验丰富的放射科医生）。15,49而另两篇报告AI的表现与耳鼻喉科专家相似。16,62但最后两篇论文发现这取决于经验。

例如，经验丰富的临床医生比AI表现更好，而初级水平的医生表现更差。23,60这是由于NPC的可能大小、形状、位置和图像强度的变化，使得诊断变得困难。这些因素使得经验较少的临床医生面临挑战，表明AI诊断工具可以支持初级水平的医生。

另一方面，在17篇探讨AI诊断应用的论文中，有三篇分析了辐射诱导损伤的诊断。27,57,58其中两篇关注辐射诱导的颞叶损伤，57,58而另一篇预测了放疗后颈部肌肉的纤维化水平。27建议通过早期检测和预测辐射诱导的损伤，可以采取预防措施，以最小化副作用。

4-3：预后

对于NPC预后的研究，20篇出版物中有11篇专注于预测治疗结果，大多数研究将无病生存作为研究目标之一。12,13,17,19,29,33,36,39–42其余研究治疗反应预测（n=2），35,43预测患者的生存风险（n=5），14,25,37,38,44预测T分期（n=2）。

28,34因此，AI在不同功能上的多样性得到了展示。模型的表现已在（表1）中报告，主要指标是AUC，13篇论文中有25篇（图2B）进行了分析。

4-4：杂项应用

除了上述方面，AI还被用于研究风险因素识别（n=2），11,20图像配准（n=1）21和剂量/剂量-体积直方图（DVH）分布（n=4）。64–66,68特别是，剂量/DVH分布预测在治疗计划中经常使用。更好地了解给靶体积和OARs的剂量可以帮助临床医生制定更个性化的治疗计划，具有更好的一致性和更短的计划时间。

然而，为了获得与人类设计者相似的计划质量，还需要进一步的发展。这是因为一篇论文的模型显示了与经验丰富的物理学家手动计划相同的质量，64但另一项使用不同模型的研究甚至无法达到初级物理学家设计的计划质量。68

五、讨论

人工智能（AI）在鼻咽癌（NPC）的临床管理中的应用正呈指数级增长，收集到的文章中有45篇发表于2019至2021年，相比之下，2010至2018年间发表的文章只有15篇。

在AI的特定领域中，重点更多地放在机器学习（ML）和深度学习（DL）上。只有三篇关于AI的报道，而关于ML和DL的研究分别为31篇和37篇。选择AI子领域有时取决于任务。例如，86%的论文专注于DL进行NPC自动勾画（n=19），而在其他应用中，尽管大多数研究使用ML，但它们的分布更加均匀（图2A）。

自动勾画中AI类型使用上的显著差异可能是因为算法的功能和数据的性质。由于医疗图像获取受多种因素影响，包括肿瘤大小和形状的变异、图像分辨率、区域之间的对比度、噪声以及从不同机构收集的数据缺乏一致性，因此基于ML的算法在NPC的自动分割上存在困难。此外，由于NPC在大小和形状上存在显著变异，因此需要手工制作的特征来精确勾画每个器官或肿瘤。另一方面，DL不需要手工制作的特征，可以直接处理原始数据。

神经网络是DL的核心，因为DL算法是具有多个（2层或更多）隐藏层的ANN。在NPC的AI应用开发中，80%的研究文章在其模型中整合了ANN或DL技术，12,13,15–19,21–26,28–34,36,38,39,42–56,60–69，因为神经网络通常在图像识别方面表现更好。然而，一项研究警告称，ANN在NPC识别方面并不一定优于其他ML模型。61因此，尽管DL模型和ANN应被视为主要的发展重点，其他ML技术仍不应被忽视。

根据收集的文献，AI应用在各个类别中的整合对实践者是有益的。AI的自动勾画不仅可以使临床医生更节省时间，46,51,53,64还可以提高用户的精确度。51同样，AI可以用来减少放射治疗的计划时间，64从而提高放射治疗计划过程的效率和有效性。

对于一些NPC研究，从图像和参数中提取了额外的特征，以进一步提高模型的性能。然而，应注意并非所有特征都适合使用，因为某些特征对模型性能的影响比其他特征更大。40,57,58,61因此，在可能的情况下应考虑特征选择。