数据预处理是数据正式分析前的必要环节。
很多初学统计的人往往不够重视数据预处理,但事实可能正好相反,预处理的重要性等同于真正的数据分析或建模。我相信很多做计量的朋友都会有同感。可能的原因如下:
1.最直接的感觉就是数据预处理的好坏直接关系到分析结果的准确性。这不用多说。
2.数据预处理需要更强的统计学背景,因为每种统计模型都有其严格的假设,对数据质量的要求很高,预处理需要这些背景知识,才能清洗出更合适的数据,以便分析。
3.就软件操作上,分别从两款风格迥异的软件来看(SAS和SPSS),预处理的难度和数据分析大致等同,甚至过之。尤其在计量经济领域尤为明显,不过在计量社会领域的差别不是很明显。