日志模型简介
为什么在回归分析中采用变量日志?
我们应该记住,回归方程有两个部分
i)因变量(Predictand)
ii)自变量(预测变量);可以是一个或多个,也可以是不同的类型(分类或连续)。
我们应该运行的回归的性质取决于我们在模型中处理的因变量的类型。例如,如果因变量是“连续”,那么我们可以运行OLS(尽管这确实需要满足一些其他条件才能获得更好的结果)以获取参数的估算值,或者如果我们的Predictand是“分类变量”(Binomial Categorical,0)或1),那么我们可能要运行Logistic回归。
必须注意的是,线性回归具有某些条件,必须满足某些条件才能提供良好/理想的结果,其中之一是法线残差,而在许多情况下不是。如果观察值和期望值之间的误差不是正态分布的,那可能是因为响应变量偏斜了。在这种情况下,我们可以对变量进行对数转换以对其进行归一化。问题是,我们是否应该这样做。根据一些统计学家的说法,还有其他回归方法可以有效地解决这些问题,而无需进行此类转换,理由是,“使用适合数据的方法而不是使数据适合方法”是可取的。因此,如果残差不正常,我们可以借助“稳健回归”,分位数回归或在某些情况下为MARS。这里必须注意的是,OLS回归不要求变量是正态的,而仅要求由残差估计的误差。但是,如果模型中的因变量或自变量中有异常值,则采用对数转换可以减少这些观察的影响。
因此,如果为了规范化变量而对变量进行转换不是一个大动作,那么在实践中仍然可以对变量进行转换的原因还有哪些呢?
一个很好的理由是,因为它可以具有实质意义,一个原因是变量的原始值不完全线性相关。例如,X的单位变化会导致Y的百分比变化恒定。因此,从X开始,X的单位变化可能会对Y产生较小的影响,但是X的后续增量可能会对Y产生越来越大的影响,因此得出变量原始值之间的非线性关系。对响应变量进行对数变换有助于我们估计关系。如果X的百分比变化导致Y的单位不变,则可以进行类似的X转换。通常,当自变量对因变量的影响随自变量值的增加而减小时,通常采用这种转换。最后,如果X的百分比变化导致Y的百分比变化恒定,我们甚至可以记录响应和自变量的日志,这称为Double-log或log-log模型。这里的估计参数被解释为弹性。
在某些情况下,变量之间的关系可以通过
Y = K ^ a。L ^ b,其中a和b是要估计的参数。取两边的对数并添加常数c可以帮助我们使用线性回归来估计关系。
或者,在其他一些情况下,可以使用转换来稳定方差(减少异方差)。
归根结底,我们要做的就是选择最适合数据的行/函数形式,而这样做的主要考虑因素必须是评估响应和自变量之间关系的性质。无论我们做什么,都必须有一个很好的理由。

关注 CDA人工智能学院 ,回复“录播”获取更多人工智能精选直播视频!