随着统计学应用越来越广泛,越来越多非统计科班出身的兄弟也开始在学习、研究统计学,本人也是一名统计爱好者。在学习和交流中,我个人有个体会,部分非统计科班出身(比如,从计算机出发研究数据挖掘的)的兄弟在分析数据时,往往对统计量认识不足,而科班出身的则没有这个问题,应用统计量时也很自然。所以,我要提示非科班出身的兄弟:注意,统计量。
统计量是什么,数理统计学上有定义。但举例来说,统计量有众所周知的平均数、中位数、众数、方差、变异数,也包括统计指数、聚类分析中的距离、余弦系数等等。
数据分析包括了提出指标、构建统计量、建立模型、求解等步骤。指标就像应用统计学门外的台阶,它将实际问题引上统计学大门,但它本身并不是应用统计学知识。比如,医学研究中的治愈率、经济学中的产量等等,都属于指标,但都是各自应用领域的专家提出的。而应用统计学是从统计量开始,统计量是应用统计学的门槛,跨过这道门槛,才真正进入统计学范畴。
统计学中有一个著名的“水深1米,淹没统计学家”的故事。某个统计学家要过一条河,通过统计资料发现水深1米,于是放心大胆地趟河而过,熟料被淹没了。原因大家都知道,水深1米是河道的平均水深,其中自然有高有低。过河要看最深处水深,起码也要看10%位水深之处。不同的统计量对应着不同实际意义,平均水深水是为统计河道径流量服务的;而最深水深水是为安全过河服务的。统计量的错误应用会让模型出错,而对统计量的充分认识,乃至构建新的统计量,都能够极大提高数据分析质量。部分非科班出身的兄弟,非常注意学习数据分析方法,往往忽略了统计量的研究,限制了模型的创新性和实用性,值得注意。
现在许多招聘上要求应聘者对数字敏感。我想,这种敏感可能包括很多内容,但对统计量的充足认识应该也是其中之一。