我打算用主成分回归建立“电视剧播放量影响因素”模型,以下是我的实证步骤,麻烦帮看下是否正确,缺少哪些应有的步骤?
1.对虚拟变量进行频数统计,以算出各变量在总样本中的占比。
2.对连续变量进行描述统计,检查是否有极端值和缺失值。并进行缺失值替换,采用均值法。
3.检验自变量和因变量之间的相关性。
问题:发现3个自变量与因变量相关性不显著,在后续的模型中要剔除这3个变量吗?如果不剔除要怎么解决?如图一,表格最后一排是因变量与自变量之间的相关性。
4.检验自变量和因变量之间的线性关系,采用线性回归。
问题:
回归模型的R方和显著性都不错。
但有5个自变量的sig值大于0.05,说明线性关系不显著?需要剔除吗?有没有什么解决办法?
5.对自变量进行主成分分析,得出三个主成分。
其中KMO检验和球形检验值都不错。
6.因子旋转,优化主成分。
7.第二次因子旋转,固定为4个因子,继续优化主成分。解释度从64.7提升至72.6.
8.对主成分进行回归。
问题:得出模型的R方却比之前直接用自变量线性回归的模型R方要低。从0.9下降至0.68.
并且其中一个主成分的显著度大于0.05.
以上是我能想到的全部步骤?是否缺少了应有的步骤?
另外怎样对因变量和自变量进行单独的检验?
直方图如何看因变量是否符合正态分布?要看那个指标?
自变量和因变量之间是否需要散点图?不符合线性关系的变量除了剔除有无其他办法使其符合线性?
最终的模型如何检验?
先想到这些问题,希望得到大神们的帮助和解答!!
小弟感激不尽!谢谢!