回归是一种非常强大的统计分析。它允许您隔离和理解单个变量、模型曲率和交互的影响,并进行预测。回归分析提供了很高的灵活性,但也存在各种潜在的缺陷。大权力需要大责任!
在这篇文章中,我提供了五个技巧,它们不仅可以帮助您避免常见问题,还可以简化建模过程。最后,我将向您展示顶级分析师使用的建模过程与不太严格的分析师的程序之间的区别。
提示 1:在开始之前进行大量研究
在开始回归分析之前,您应该查看文献以了解相关变量、它们的关系以及预期的系数符号和影响大小。开发知识库可以帮助您首先收集正确的数据,并允许您指定最佳回归方程,而无需求助于
数据挖掘。
令人遗憾的是,塞满方便数据的大型数据库与自动化模型构建程序相结合,使分析师远离了这种基于知识的方法。数据挖掘程序可以使用随机生成的数据构建具有显着变量和良好 R 平方的误导性模型!
在我的博客文章中,使用数据挖掘选择回归模型会产生严重的问题,我在实践中展示了这一点。下面的输出是一个由完全随机数据构建的逐步回归模型。在最后一步中,R 平方相当高,并且所有变量的 p 值都非常低!
自动化模型构建程序可以在探索阶段占有一席之地。但是,您不能指望他们准确地生成正确的模型。有关更多信息,请阅读我的逐步回归和最佳子集回归指南。
提示 2:尽可能使用简单模型
似乎复杂的问题应该需要复杂的回归方程。然而,研究表明,简化通常会产生更精确的模型。* 模型应该有多简单?在许多情况下,三个自变量足以解决复杂问题。
技巧是从一个简单的模型开始,然后只有在真正需要它时才让它变得更复杂。如果您使模型更复杂,请确认预测区间更精确(更窄)。当您有多个具有可比预测能力的模型时,请选择最简单的模型,因为它可能是最好的模型。另一个好处是更简单的模型更容易理解和解释给其他人!
当您使模型更加精细时,R 平方会增加,但您更有可能对其进行自定义以适应特定数据集的变幻莫测,而不是人口中的实际关系。这种过度拟合会降低泛化性并产生您无法信任的结果。
了解调整后的 R 平方和预测的 R 平方如何帮助您包含正确数量的变量并避免过度拟合。
提示 3:相关性并不意味着因果关系。. . 即使在回归
相关性并不意味着因果关系。统计学课已经把这句熟悉的口头禅烙进了所有统计学学生的脑海里!看起来很简单。但是,分析师在执行回归分析时可能会忘记这一重要规则。当您构建一个具有显着变量和高 R 平方的模型时,很容易忘记您可能只是在揭示相关性。因果关系是完全不同的问题。通常,要确定因果关系,您需要执行设计的随机化实验。如果您使用回归分析未在此类实验中收集的数据,则无法确定因果关系。
幸运的是,在某些情况下,相关性可能很好。例如,如果您想预测结果,您并不总是需要与因变量有因果关系的变量。如果您测量与结果变化相关但不影响结果的变量,您仍然可以获得良好的预测。有时更容易测量这些代理变量。但是,如果您的目标是通过设置输入变量的值来影响结果,则必须确定具有真正因果关系的变量。
例如,如果维生素消耗仅与改善健康有关,但不会带来良好的健康,那么改变维生素的使用不会改善您的健康。两个变量之间必须存在因果关系,一个变量的变化会导致另一个变量的变化。
编辑推荐
1、
2022年300个以上最佳免费数据科学课程
2、
大厂数据分析面试指南!来自亚马逊、谷歌、微软、头条、美团的面试问题!
3、
机器学习模型方法总结
4、
历史最全机器学习/深度学习/人工智能专业术语表中英对照表
5、
机器学习如何应用于商业场景?三个真实的商业项目
6、
数据工作者的自我修养 | 哪些技能是必不可少的?
7、
《汗牛充栋:数据分析书籍分享》CDA网校新课上线
8、
文本挖掘常用的107个语料库
9、
一图读懂“东数西算”工程
10、
零基础转行数据分析,看这篇文章就够了
DA内容精选