因果推断与机器学习—用机器学习解决因果推断问题
Judea Pearl 将当前备受瞩目的机器学习研究戏谑地称为“仅限于曲线拟合”,然而,曲线拟合的实现绝非易事。机器学习模型在图像识别、语音识别、自然语言处理、蛋白质分子结构预测以及搜索推荐等多个领域均展现出显著的应用效果。
在因果推断任务中,在完成因果效应识别之后,需要进行曲线拟合来估测一系列数据分布。在条件因果效应估测中,若可忽略性假设成立的情况下,需要用一个模型去估测条件分布,从而推断每个协变量的值和处理变量的值所对应的潜在结果的值。
1. 基于集成学习的因果推断
1.1 贝叶斯加性回归树(Bayesian additive regression tree,BART)
(1)集成学习与 BART 的关系
- 集成学习通常先通过 Bootstrap 方法从训练集中抽取部分样本或特征,然后用每个样本训练一系列弱预测器(例如浅回归树)。
- BART 作为一种基于集成学习的回归算法,其工作原理与其他基于回归树的集成学习算法类似。