我的医学预测模型评价步骤(仅供参考)
我的医学预测模型的评价步骤
个人意见,仅供参考
一切变化都是源于决策曲线分析,据说决策曲线分析已经获得了预测模型界的认可,也已经被写进了预测模型的报告指南–TRIPOD 中。一篇在pubmed上发表的关于如何使用决策曲线分析的指导论文,给出了使用决策曲线分析的几点推荐:1.
确定临床使用场景,也就是预测模型后续的临床操作,比如活检还是其它的诊断或治疗措施;2.确定一个决策阈值范围而不是单一的决策阈值;3.使用DCA分析后解释净收益的含义等等(有的与本文无关未罗列)。
决策曲线分析带来的最明显的一个变化就是给预测模型的使用确定了一个阈值范围,高于该阈值范围的患者一定要接受后续的诊断或者治疗措施,低于该阈值范围的患者就一定拒绝后续的诊断或者治疗措施,而在阈值范围之内的患者需要一个个性化的阈值来决定是否进行后续的诊断或者治疗措施。大部分(?)患者应该落在阈值范围之内,是最能体现模型优劣的部分,对阈值范围内的数据的区分程度和校准程度的评价也就可以用来区分模型的优劣,这或许是局部评价指标存在的理由。如果想要计算精确度等指标时,数据要局限在阈值范围之内,才能与局部指标相匹配。
step1. 确定预测模型的临床使用场景。
目前,医学预测模型构建的目的是预测某种疾病的预后,比如死亡、复发和肿瘤转移,或者诊断某种疾病的状态,比如是否患病,疾病的分期等等,除此之外我们需要明确,在上述构建的模型得出阳性结果后,我们采取的诊断和治疗的措施是什么,这就是所谓的“临床使用场景”。这样做的好处是:1. 为了绘制临床决策曲线,明确cost-benefit 比值,进而确定模型使用的阈值范围;2.使后续的预测模型研究更加有针对性;3.使模型最终进入临床时更加有明确的使用场景,避免误用。
step2.对多个模型进行整体评价。
模型的整体评价仍然是必要的。大家对整体评价指标已经有约定俗成的认识,通过模型可以初步判定一个模型的好坏,也是因为后面的模型的局部评价还不多见,没有形成共识,还不能单一地作为模型评价的标准。
非平衡数据建议使用AP,也就是PR曲线下面积进行评价,而不是仅仅使用ROC曲线下面积进行评价(过于乐观)。
step3.绘制临床决策曲线,确定决策阈值范围。
预测模型需要绘制临床决策曲线 已经有广泛的共识。通过临床决策曲线确定预测模型决策阈值的范围,也规定了预测模型使用的范围,也引出了后续要进行的局部评价。
step4. 在决策阈值范围内,考察多个模型进行局部指标。
讨论局部评价已经有几年时间了,整体评价的缺陷,不够敏感,特别是非平衡数据,这在医学数据中是很常见的。使用过程中还是建议结合整体评价。局部评价是计算决策阈值范围内的各种曲线下面积,借助现有的R包基本都能实现。
总之,决策曲线分析将预测模型预测模型的阈值范围划分为区域,这对于预测模型的评价有何影响和要求?局部评价指标是不是满足了这样的要求?还有待于进一步思考。