R语言机器学习算法实战系列(十五)随机森林生存预后模型+SHAP值 (Random Survival Forest + SHAP)
禁止商业或二改转载,仅供自学使用,侵权必究,如需截取部分内容请后台联系作者!
文章目录
-
- 介绍
-
- 教程
- 加载R包
- 案例数据
- 数据预处理
- 数据描述
- 构建randomForestSRC模型
- 评估模型
-
- C-index
- Brier score
- 特征重要性
- 构建新的随机森林生存模型
-
- 风险打分
- 高低风险分组的生存分析
- 时间依赖的ROC(Time-Dependent ROC)
- 模型解释SHAP
- 保存模型
- 总结
- 系统信息
介绍
随机森林生存分析(Random Survival Forest,简称RSF)是一种用于处理右删失数据(即生存时间数据)的机器学习方法,它是传统随机森林算法在生存分析领域的扩展。RSF的目标变量是生存时间,它考虑了每个样本的生存时间(T)和删失时间(C),其中删失时间指的是在观察期间内未发生感兴趣事件的时间。RSF框架的核心步骤包括:
- 数据重采样:从原始数据中抽取多个bootstrap样本,每个样本平均排除一定比例的数据,称为袋外数据(Out-Of-Bag, OOB)。
- 构建生存树:对每个bootstrap样本构建一棵二叉生存树。在树的每个节点上,随机选取一定数量的候选变量,并使用最大化子节点之间生存差异的候选变量进行拆分。
- 生长限制:在