在C.R.劳的《统计与真理》一书的扉页上,有这么三句并列的话:在终极的分析中,一切知识都是历史;在抽象的意义下,一切科学都是数学;在理性的基础上,所有的判断都是统计学。前两句话与统计学有间接关系,而第三句话则直接点出了统计学的特性。对于第三句话,我们的理解是:理性判断应该是基于统计学的判断,即统计判断。换言之,统计判断必然是理性判断。
那么统计判断为什么是理性判断呢?我认为可以从以下四个方面加以理解。
第一,统计学作为一门收集数据、分析数据的科学与艺术,是以哲学的认识方法论和数学的公理体系为基础的。因为,统计学为什么会成为一门学科,要研究什么、干什么用、如何研究等问题,首先是哲学问题,它们决定着统计学的学科定位及其发展方向。同时,为了收集和分析数据,统计学自然必须遵循数学的基本原则和公理体系。因此,我们可以认为统计学是哲学和数学的完美结合体,或者说它既是定量的哲学,又是定性的数学;既依循哲学逻辑,又遵循数学逻辑;既具有哲学思维,又拥有数学思维。由于哲学是一切科学的科学,数学是一切科学的基础,因而C.R.劳认为统计学是一切学问的学问。我们知道,哲学和数学都是十分注重推理逻辑的,它们的思维都是理性思维,因而综合了哲学思维和数学思维的统计思维就像一架坚固耐用的梯子,可以帮助人们在各个不同的研究领域,面对复杂的不确定因素,抓住问题的本质,从数据攀登到信息,在客观掌握所研究事物的总体数量特征的基础上形成有用的结论。不难发现,统计学天生具有理性的基因。例如,对于一组变量数列,我们既计算平均指标以反映其集中趋势(例如算术平均数),又测度离散指标以反映其离中趋势(例如方差或标准差),充分体现了统计学的哲学与数学相结合的定量辩证思维特征。当然,统计学具有自身的、区别于哲学和数学的不同之处。统计学区别于哲学的是它用定量的语言和手段来研究事物而不只是进行定性的推理分析,区别于数学的是它用实际的数据做分析而不是用抽象的数字做运算。无疑,统计研究是定性定量相结合的典范。
第二,统计学之所以以现实数据为研究对象,之所以不断发展和完善定量分析的方法,目的就在于用客观数据说话,而且要让数据说真话。当我们要对事物的本质或规律做出判断的时候,当我们要对所讨论的有争议的问题做出结论的时候,最有说服力的依据就是客观数据以及基于客观数据的科学分析结论。因为用客观数据说话,才有理有据、不偏不倚。也只有掌握真实客观的数据,才能做到心中有数。统计学发展历史上曾经有一个很著名论战——皮尔逊论战。作为统计学家,皮尔逊带领团队针对当时禁酒运动的一个普遍论点——父母酗酒对儿童造成的伤害是饮酒的主要危害之一,运用统计方法开展了研究。1910年,他的团队发表了题为“初探父母酗酒对后代的体格及能力的影响”的小册子,研究结论是父母的饮酒嗜好似乎与后代的任何可度量的健康和智力指标完全不相关。在给出孩子年龄的情况下,其偏相关性也不高。其研究所需的数据包括被调查家庭的父母饮酒倾向和孩子身心健康特征,来源于爱丁堡慈善组织协会的报告和曼彻斯特一所接收“心理障碍”孩子的特殊学校的数据集。但小册子遭到了著名经济学家因 A·马歇尔教授、凯恩斯教授等的质疑和批评,双方你来我往展开了激烈的争论。尽管火药味很浓,但双方都拿数据说话,都基于理性的数据分析,只是立场、视角以及对数据的解读不同而已。对于这种质疑,皮尔逊有一句名言:请把统计(数据)摆到桌面上来。这一方面说明统计认识过程并不简单,另一方面也说明正因为统计认识不简单才更需要以客观数据为依据进行理性分析和判断。也就是说,由于信息的不充分以及我们获取信息能力的不完备,人类在认识事物的过程中往往会遇到各种迷惑或困境,这时候我们去获取尽量多的数据并加以科学的分析,才是最理性的选择,也是最有效的途径。正如著名遗传学家、统计学家高尔顿曾经感叹:统计学具有处理复杂问题的非凡能力,当科学的探索者在前进的过程中荆棘载途时,或许唯有统计学可以帮助他们打开一条通道。
第三,统计分析研究的过程是一个循序渐进的过程,它既容忍误差的存在,又不断在认识过程中去控制和降低误差,同时还及时对分析结论进行评估。统计分析研究遵循“初步的定性认识——科学的定量分析——理性的定性认识”这样一个过程,其中科学的定量分析又包含数据收集、数据整理和数据分析三大环节,各个环节也都还有各自严密的方案,甚至包含了试调查、数据的审核与再补充、必要的口径调整、模型选择与试算、初步结果的逻辑检查等步骤,可谓每一阶段、每一环节、每一步骤循序渐进、紧密衔接。只要不存在人为的违规行为,这样的分析研究过程不可能是非理性的。我们之所以要这样做,就是为了控制好各种可能出现的误差,以使最终的统计分析结论尽量接近实际情况。面对所研究事物客观存在的各种不确定性,如何从中揭示出其确定性的本质特征?显然,误差问题是不可回避的,因为统计分析研究不是做算术。我们在用统计事实说明客观事实、用统计规律反映真实规律的过程中,唯一能做的就是尽量降低误差,以使分析结论可用。事实上,统计学的终身任务就是不断创新和完善各种统计方法以使统计分析推断的精度不断提高。但我们永远不可能消灭统计误差,大数据时代也是如此(因为大数据本身存在更为复杂的各种不确定性因素)。这种既承认误差存在、又敢于面对困难去千方百计控制误差的态度,正是统计学的实事求是的理性态度。更难能可贵的是,统计分析在给出定量结论后,还会对其加以必要的解释和评估,指出其适用范围和可能存在的不足。若是基于样本的推断统计结果,一定会有相应的可靠性说明和精确度(或误差率)估计。
第四,基于上述的事物的不确定性及其误差的存在,统计分析研究不可能只存在唯一的结果,而是要在多个可能的结果中选择出那个最可能的结果。我们知道,对于哲学问题只能给出定性的答案,而且往往有很多个不同的答案(难以评判谁对谁错);对于数学问题只能给出定量答案,而且肯定存在唯一正确的答案。所以,作为哲学与数学之结合的统计学,面对问题时不仅既要定性又要定量,而且既要给出答案但又不只是存在唯一的答案。统计学难就难在这里,奥妙也在这里。怎么办?那就是要在充分论证事物的不确定性和科学定量分析的基础上,给出那个最可能接近实际、最具有说服力的答案。那么如何确定最可能的答案?这当然是一个需要十分慎重对待的问题。统计学上最常用的方法有这样两种:一是概率判断法,这是推断统计的基本方法。如果事物的不确定性可以用概率来度量(例如随机抽样),如果所构建的模型符合某种分布的假设条件,那么基于概率测度的统计判断是具有说服力的。具体判断标准是:在相同概率下选择推断精度最高的(误差最小的)或期望收益最大的(期望损失最小的),在相同推断精度或期望收益下选择概率最大的。当然,有时候也可以根据实际情况在概率与精度(期望收益)之间进行某种平衡。二是比较验证法,就是对若干种可选择的统计分析研究结果,分别从其内在逻辑性、与其他相关已知信息的吻合性、历史发展的可比性、横向同类比较的可信性和对实际问题的可解释性等方面进行比较验证,从中选择出相对最佳的结果。其中,可重复、可回溯、可解释是认定统计分析研究方法科学合理的评判标准。只要所使用的数据真实,所采用的方法符合科学合理的标准,那么所给出的分析结果就应该是可用的结果。
一句话,统计的核心功能就是“告知最可能的结果”或者“给出最可能的判断”。这样的一种定位,无疑就是一种理性的定位。我们要紧握理性判断的统计武器,客观地看待事物、看待世界,让统计学在大数据时代再展雄姿、再显身手。
(已刊登于《中国统计》2020年第7期)