全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析与数据挖掘
993 0
2020-09-29
删除回归模型中串行相关性的简单技巧
这是一个可以解决许多问题的简单技巧。
如果误差项(残差)是自动相关的,则您不能相信对数据执行的线性或逻辑回归。有多种方法可以使观测值不相关,但是它们通常涉及引入新的矩阵来解决由此产生的偏差。例如在这里看到。  
线性回归的要求
根本不同且简单得多的方法是随机重新排列观察值。如果不能解决问题(重新关联后自相关减弱,但仍然很重要),则意味着数据集可能存在根本性的错误,也许与收集数据的方式有关。在那种情况下,清除数据或获取新数据是解决方案。但是通常,重新改组(如果随机进行)将消除这些讨厌的相关性。
诀窍
改组操作如下:
在您的数据集中添加一列,其中包括伪随机数,例如用Excel中的RAND函数生成的列。
根据新添加的列中的值对整个数据集(所有列,再加上包含伪随机数的新列)进行排序。
然后再次进行回归,并查看模型性能的改进。R平方可能不是一个好的指标,但是应该使用基于交叉验证的技术。
实际上,任何观察顺序无关紧要的回归技术都不会对这些自相关敏感。如果您要坚持使用基于矩阵的标准回归技术,然后将所有观察值重新组合10次(以生成10个新数据集,每个数据集具有相同的观察值,但排序方式不同)。然后,您将获得10种不同的估计和预测变量集:每个数据集一个。您可以比较它们;如果它们之间存在显着差异,则您的数据中会有问题,除非需要进行自相关,如时间序列模型中那样(在这种情况下,您可能仍想使用其他技术,例如适用于时间序列的技术,请参见此处。 )。
测试观测值中的自相关
如果您有n个观测值和p个变量,则没有全局自相关系数可测量一个观测值与下一个观测值之间的关联。一种方法是分别对每个变量(列)进行计算。这将为您提供p lag-1自相关系数。然后,您可以查看这些p中的最小值(绝对值高吗?)或最大值(绝对值高)?系数。您还可以检查lag-2,lag-3自相关等。尽管观测值之间的自相关与残差之间的自相关并不相同,但是它们是关联的,它仍然是衡量数据质量的有用指标。例如,如果数据来自采样并且由连续的观察数据块组成,每个数据块对应一个段,那么您可能会在观察数据和残差中找到自相关。或者,如果出现数据故障并且某些观察值重复,则您可能会遇到相同的问题。  
1
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群