全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析与数据挖掘
5782 0
2020-12-17
累积局部效果(ALE)–功能效果全局可解释性
与许多领域相比,随着更大范围和更丰富数据集的可用性,黑匣子监督学习模型(例如,复杂树,随机森林,增强树,最近邻居,支持向量机等)正变得更加重要,与更加透明和可解释的相比线性和逻辑回归模型以捕获非线性现象。即使目的是纯粹预测性的,理解预测器的效果可能仍然非常重要。
如果预测变量的效果违反直觉(例如,从监督学习模型中发现,随着患者年龄的增长,发生心脏事件的风险会降低),那么这要么表明拟合模型不可靠,要么表明出现了令人惊讶的新现象已被发现。此外,预测模型在许多监管环境中必须透明,例如向监管者证明消费者信用风险模型不会基于年龄,种族等对信用申请人造成不利影响。
当拟合黑匣子监督学习模型时,可视化各个预测变量的主要作用及其低阶交互作用通常很重要,而偏相关(PD)图是实现此目的的最常用方法。
但是,它们有一个严格的假设:特征必须不相关。在现实世界中,特征通常是相关的,无论是因为某些特征是直接从其他特征中计算出来的,还是因为观察到的现象会产生相关的分布。 因此,我们需要一种无偏技术,该技术在很大程度上忽略了特征之间的相关性。累积局部效应(ALE)可以处理相关的预测变量。
PDP vs M-图vs累积局部效应(ALE)
在本文中,我们将解释房价预测示例。要构建部分依赖图,请遵循以下步骤:
选择功能
定义网格
每个网格值:
用网格值替换特征
平均预测
画曲线
例如,如果要查找与房间数相比的sqft_living变量的特征效果,则为计算PDP的第一个网格值(例如40 m 2),我们将所有实例的sqft_living面积替换为40 m 2,即使是最多有8个房间的房屋。部分依赖图将这些不切实际的房屋包括在特征效果估计中,并假设一切都很好。
高度相关的特征x 1和x 2。为了计算的X中的特征效果1为0.75,该PDP内容替换X 1所有实例的与0.75,错误地假定的x中的分布2位于x 1 = 0.75是相同的x的边缘分布2(垂直线)。这导致x 1和x 2的不太可能的组合(例如x 2 = 0.2,x 1 = 0.75),PDP将其用于计算平均效果。
为了找到相关特征的特征效果,我们可以对特征的条件分布求平均值,即在x 1的网格值处,对x 1值相似的实例的预测取平均值。使用条件分布计算特征效果的解决方案称为边际图或M图。但是这里我们也有问题。如果我们对所有大约40 m 2的房屋的预测取平均值,则由于相关性,我们将估算sqft_living和房间数量的组合影响。即使sqft_living对房屋价格没有影响,M绘图仍将显示sqft_living的增加会增加房屋的价格。下图显示了两个相关特征的M-plots工作方式。
高度相关的特征x 1和x 2。M-图在条件分布上取平均值。此处x 2在x 1 = 0.75处的条件分布。平均局部预测会导致两种特征的混合效果。
M曲线避免了对不太可能出现的数据实例的平均预测,但是它们将特征的影响与所有相关特征的影响混合在一起。 ALE图通过计算 预测差异而不是平均值来解决此问题。对于值为40 m 2的sqft_living变量,ALE技术使用所有40 m 2左右的房屋,得到假装这些房屋为41m 2的模型预测减去假装为39 m 2的预测。这为我们提供了sqft_living变量的纯特征效果,而没有考虑相关特征的影响。下图直观地说明了如何计算ALE图:
特征x 1的ALE的计算,与x 2相关。首先,我们将特征划分为间隔(垂直线)。对于间隔中的数据实例(点),当我们用间隔的上限和下限(水平线)替换特征时,我们计算预测值的差异。这些差异随后被累积并居中,从而形成ALE曲线。
实作
让我们看看如何针对预测金县房价的回归问题实施ALE。该数据集包括2014年5月至2015年5月之间出售的房屋。该数据集具有21项功能和21613观测值。数据集已分为训练,验证和测试,测试数据具有2217个观测值,而训练和验证数据分别具有9761和9635观测值。我们在训练数据上训练模型。在验证数据上评估几个模型。然后,将最终模型用于预测测试数据的目标变量(价格)。
我们需要执行数据清理和探索性数据分析才能进入模型构建阶段。您可以在此处找到代码:  链接到代码
清除数据并执行EDA之后,我们以以下变量结束:
预测变量–卧室,浴室,对数转换的sqft_living,对数转换的sqft_lot,等级,对数转换的sqft_above和yr_built。
目标–原木改变了房屋的价格。
我们将执行多元线性回归和随机森林模型以了解该技术。我们使用了“ alibi ”库。
累积局部效应
接下来,我们将ALE技术用于回归和随机森林模型。
累积局部效应
解释
让我们考虑sqft_living变量的ALE图来解释结果。
累积局部效应
上图的y轴上的ALE以预测变量为单位,即以$为单位的对数转换后的价格。平方英尺的生活= 8.5的ALE值为?0.4,这说明对于平均经对数变换的sqft_living为约8.5的邻域,该模型预测对数变换后的0.4单位价格的上涨由于有关平均预测的特征sqft_living。
另一方面,对于平均对数转换后的sqft_living低于?7.5的邻域,特征对预测的影响变为负值,即,对数转换后的美元价格下降。
线性回归模型的ALE图本身就是线性的-根据定义,特征效果毕竟是线性的。实际上,ALE线的斜率正好是线性回归的系数。
因此,用于线性回归的ALE图的斜率与所学模型的系数(全局特征效应)具有完全相同的解释。
我们可以比较两个模型的ALE结果。
在上面的图中,我们可以看到sqft_living的线性回归特征效应是正相关的,而sqft_living的随机森林特征效应不是单调的。
为了比较多个模型和多个特征,我们可以在足够大以容纳所有感兴趣特征的公共轴上绘制ALE:
累积局部效应
的优势累积局部效果(ALE)地块
ALE图是无偏的,这意味着它们可与相关特征一起使用。
ALE图的计算速度很快。
ALE图的解释很清楚。
累积局部效应(ALE)图的缺点
ALE图的实现复杂且难以理解。
如果要素紧密相关,则解释仍然很困难。
结论
为了可视化黑盒监督学习模型中预测变量的效果,PD绘图是使用最广泛的方法。在累计局部效应(ALE)图是对PD图的工作以及对中度相关变量的选择。本文致力于“克里斯托夫·莫尔纳爵士”的创作。其动机是他的整体著作“使黑匣子模型可解释的指南”。
题库
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群