AI在医学领域:GluFormer一种可泛化的连续血糖监测数据分析基础模型
糖尿病是一种全球性的健康挑战,影响着各个年龄段和不同地理区域的人群。根据最新数据,全球糖尿病患者人数已超过5亿,且每年以惊人的速度增长,相关的医疗费用也居高不下。2型糖尿病(T2DM)作为最主要的糖尿病类型,其主要风险因素包括不良的饮食习惯和缺乏体育锻炼,这些因素都是可以通过生活方式干预来改变的。糖尿病不仅是许多慢性并发症的主要风险因素,如心血管疾病、肝病、呼吸系统疾病、癌症、慢性肾病和心理健康问题等,而且这些并发症往往也是导致患者死亡和残疾的主要原因。
连续葡萄糖监测(CGM)作为一种新兴的血糖管理工具,在改善糖尿病患者血糖控制方面展现出了显著的优势。与传统的自我血糖监测(SMBG)相比,CGM能够更全面地反映患者的血糖波动情况,提供更准确的血糖数据,从而帮助医生制定更为精确的治疗方案。此外,CGM还有助于减少低血糖事件的发生,提高患者的生活质量。
本文介绍的GluFormer是一个基于Transformer架构的生成式基础模型,使用来自HPP数据集的CGM数据进行自监督训练,能够生成CGM信号,捕捉个体血糖动力学特征,并预测广泛的临床参数。
1 方法
1.1 数据集
- HPP数据集:来自HPP的10,812名非糖尿病参与者的CGM数据,每个参与者监测两周,并进行饮食记录、运动记录、睡眠记录;临床数据包括DXA、睡眠评估、肝脏和颈动脉超声、血液血清NMR代谢组学等。
- 外部数据集:来自15个外部数据集的CGM数据,4936名参与者,包括不同地区、不同CGM设备和不同代谢疾病人群(例如:糖耐量正常、糖尿病前期、1型糖尿病、2型糖尿病、妊娠糖尿病和肥胖)。
1.2 数据预处理
- CGM数据:将血糖测量值量化为460个离散区间,并将数据组织成长度为1200个测量值的序列(相当于12.5个连续的监测日)。
- 膳食数据:将膳食记录与CGM数据进行时间对齐,并将饮食数据分解为其宏量营养素含量。
- 时间信息:将日期和时间信息转换为学习到的嵌入,并将其添加到CGM和膳食数据中。
1.3 模型架构
- Transformer架构:使用16个注意力头和16个Transformer层,输入序列长度为1200个标记。
- 嵌入层:将每个标记嵌入到1024维空间。
- 位置编码:使用正弦和余弦函数添加位置编码,以帮助模型理解序列中标记的顺序。
- 因果掩码:使用因果掩码确保模型只能根据过去的信息预测未来的标记,从而实现自回归生成。
1.4 预训练
- 下一标记预测:使用交叉熵损失函数,训练模型根据过去的信息预测下一个标记。
- 优化器:使用AdamW优化器进行模型训练。
- 学习率调度器:使用StepLR调度器调整学习率。
- 模型选择:根据验证集的性能指标选择最佳模型。
1.5 评估方法
- 生成CGM信号:将生成的CGM信号与真实CGM数据进行比较,评估模型生成真实CGM信号的能力。
- 预测临床参数:使用岭回归模型,比较GluFormer嵌入和iglu指标在预测临床参数方面的性能。
- 预测未来临床结果:使用GluFormer嵌入预测未来几年的临床结果。
- 预测临床试验结果:使用GluFormer嵌入预测临床试验的基线和后续临床结果。
- 预测葡萄糖反应:将膳食数据集成到模型中,并使用生成的CGM信号预测个体对特定食物的反应。
1.6 模型变种
- 时间编码:将日期和时间信息添加到模型中,以提高生成CGM信号的性能。
- 多模态GluFormer:将膳食数据与CGM数据进行整合,以提高预测葡萄糖反应的准确性。
2 结果
2.1 生成CGM信号
- GluFormer能够生成与真实CGM数据高度相似的信号,并捕捉个体血糖动力学特征。
- 生成的CGM信号与真实CGM信号在多个iglu指标(例如平均血糖、GMI、低于70 mg/dL的血糖)上具有显著相关性。
2.2 预测临床参数
GluFormer嵌入在预测临床参数方面优于传统iglu指标,包括:
- 腹部脂肪组织
- 肝脏衰减
- 睡眠呼吸暂停低通气指数(AHI)
- 收缩压
- 血脂
- 肝功能
- 肾功能
- 身体测量
- 睡眠指标
GluFormer嵌入能够预测未来几年的临床结果,包括HbA1c、空腹血糖水平、腹部脂肪组织等。
2.3 预测未来临床结果
- GluFormer嵌入能够预测未来几年的临床结果,包括HbA1c、空腹血糖水平、腹部脂肪组织等。
- GluFormer嵌入在预测未来临床结果方面优于传统iglu指标。
2.4 预测临床试验结果
- GluFormer嵌入能够预测临床试验的基线和后续临床结果,包括HbA1c、血脂、血糖、身体脂肪百分比、淋巴细胞计数等。
- GluFormer嵌入在预测临床试验结果方面优于传统iglu指标。
2.5 预测葡萄糖反应
- 将膳食数据集成到GluFormer模型中后,模型的预测准确性显著提高。
- GluFormer嵌入能够预测个体对特定食物的葡萄糖反应。
2.6 模型优势与局限
2.6.1 模型优势
- 强大的预测能力:GluFormer模型能够准确预测HbA1c、肝功能、血脂、睡眠指标等多种临床参数,并且预测能力优于传统的CGM指标。
- 广泛的适用性:GluFormer模型能够在不同人群、不同CGM设备和不同代谢疾病中发挥作用,具有良好的泛化能力。
- 潜在的健康信息:GluFormer模型的嵌入空间包含了丰富的生理信息,揭示了CGM数据中隐藏的健康指标,为全面的健康评估和监测提供了新的可能性。
- 临床应用潜力:GluFormer模型可以用于预测临床试验结果,并可能有助于优化临床试验设计,加速药物开发和精准医疗的进程。
2.6.2 模型局限
- 数据集限制:HPP数据集主要包含非糖尿病人群,模型的泛化能力可能受到限制。
- 膳食数据准确性:膳食数据依赖于自我报告,可能存在不准确性和偏差。
- 模型复杂性:Transformer模型的复杂性和可解释性较差,限制了其在临床实践中的应用。
因果关系:模型目前只能预测相关性,无法确定因果关系