梗概
本文初衷在理清中心极限定理,第一部分探讨了正态分布现象背后隐藏的人
们对一致、一样的哲学态度。第二部分严格地论证了标准正态分布从构造到
形成函数表达式的过程。整片文章是个探索的过程,凝聚了比较多的思考,
最后也得到令自己比较满意的结果。历时两周,欢迎感兴趣的同学指正。
---------------------------------------------------------------------------------------------------------------------------------------------------------
正态分布真的普遍吗?
1935年中心极限定理被证明。我们需要重新梳理下,我们想证明的问题是什么。就是为什么现实生活中会有那么多的正态分
布,有吗?你是否有观察到这样的现象?其实这些东西对我来说是说法,因为大家都这么说的。一个对称的,均值的密度函
数最大的分布。如果它是那么寻常的存在,我们可以从身边找到这样一个例子吗?那干脆这样好了,就在现在这样一个时刻
我去版上发帖列表里面,每一页抽取排在第一行的发帖的人,我们观察他发一共发了几个帖子,就在这会儿,他们还不知道
我的计划,他们不会要有意影响我的结果。我抽取了20个,样本量太小了,即便按照区间做依然看不出规律。
310 1 1257 25 6516 12 518 487 487 18 5 97 10 219 201 5 2398 15 321 482
不知道高斯当年研究了多少测量的误差才发现的规律,怎么构造出来的函数。如果我就要针对我设定的这种场合抽样,为了
显得均匀我应当抽986个,要做到这个靠人效率太低了,如果知道网页的结构,这样的去去抽样应该是会很容易的。是啊,这
里的问题其实就变成了,如何得到想要的网页位置上的字符这样的问题,其实会很有意思啊,但是我自己不会做。我觉得就可以按照我自己这个思路做一下。在互联网的世界里信息太丰富了,自己取来的数据会最放心咯。其实就是获取第一手的数据。
如果想得到第一手的关于事实的信息,需要一点
技术,但是也不会难。
为什么正态分布这么普遍的存在?
正态分布是高斯在研究非系统性误差是发现构造出来,当有很多因素都会影响到一个随机变量,而且影响都不大时,就会
呈现出正态分布的形态。这种类标准化的情形是广泛存在的,对于人类的标准生产领域是很容易理解的,我们力争生产出
其他商品能够顺利“接口”被广泛使用的“标准”产品。人类的努力就在减少各种系统性的误差。对于自然的现象其实也能找
到合理的解释方法,就以人各个方面的特性为例,身高,体重,这些,本质的原因在基因,人类的基因是一套的,信息也
是可以融合,基因的特性就在于以信息的方式“植入”动物,植物个体,让他们携带着它们长存。个体所带信息是可以互换
重组的,必然要求“标准化”方便碱基对配对,人类也算大自然的一种产品,他们会自发的完成基因交予的种种使命,长大
互惠、敌对、生育。人类排斥异类,接近平均值被认为是美。生物共用基因组,同种具有一样的染色体条数,就能解释
人的性状的标准性。这启示我们正态分布的背后必然存在某种很确定的一致性。当然,我们也可以通过验证我们认为应该
是正态的事物来确定背后的某种一致性是否已经遭到破坏。为什么正态分布这么普遍,因为世界上存在很多在某个范畴下
是“一样”的事物。NB。这还启示我们,要探索正态分布背后“一样”的东西,要上升一个范畴层次。这竟然是可以量化的!!!
而且还是在研究非系统性误差时发现的,有点不可思议,如果一些东西它们没有系统性的差异,那么它们有的就是各个层
面上的一致性,这是再自然不过的,如果非系统性的差异是正态的,那么在加上大家一致性的那一部分得到的那个量也就
是正态的,所以正态分布的存在就是那么的广。
系统性差异和系统一致性以及一致性下差异
我们想做的事情就是将这么普遍存在是的事物用数学描述,这个过程必须严格。其实大家都会有感受就是数学的两重特性
General和严格,她让这两种貌似相悖的东西并行不悖。所以一开始我们越不限定条件越好。我们先看自己如何理解系统性
误差,其实就是能够统一影响我们关注的一类事物的信息的改变,对是改变、差异这样的描述更准确,比如,确真存在的
例子:生物体的变异,如果一些具有26条染色体的生物变成成52条并且作为物种生存了下来,这就是一种系统性的改变,
基因信息的改变直接导致生物各种性状质的改变,这种质的改变,就是基因信息再无法与改变之前的个体进行交流。从一
个例子,我们能抽取到描述系统性误差关键的因素,信息不可交流。这里你可能会说这个例子显得有点特殊,其实不然,
我们再以人类的标准化生产为例,同一品牌下同一型号产品,它们里面的元件是可以互换的,这时候你也许会说同一个元
件是可以装在不同型号的手机里面的,但是,你也一定认同,两种型号的手机对于它们各自所使用的元件的集合而言,两
个集合一定是不一样,也就是不是所有的元件是可互换的。这样我们更加清晰了系统性差异的特性——
所有的构成信息不
可互换。同时我们将高斯研究误差时候的“误差”概念更一般的推广到“差异”。也正是因为这种信息的不可互换,我们能显
著的观察到系统性差异。相对的,我们可以这样描述系统
一致性,就是
所有的构成信息在两个体之间可互换,可互换意味
着不容易观察到,也是为什么比较远的人难以分辨双胞胎,为什么两个同款的手机比较难分辨。因此,我们的
研究对象是
没有系统性差异而具有系统一致性下差异的事物。当然问题的精细程度是由目的决定的,为不同身高人群的人定制衣服和
为需要器官移植的人进行配型,这两个问题的一致性关注点不一样,可互换的信息精度要求也不样,可以穿同一款衣服的
两个人不一定能通过器官移植配型,可以给A进行器官捐献的B也不一定能和A穿同一款衣服。但是我们此处的概念却对两
种一致性都是适用的。NB。
------------------------------------------------------------------------------------------------------------------------------------------------------
直观地理解中心极限定理
首先我们必须承认一个事实:最严格的意义下,世上没有两件完全一样的东西。那一样、
一致是什么意思?一致、一样必
然存在于某个“一致性空间”中。有了“东西都是不一样”的这个假设,接下去的工作变得容易。对于上面例子里面的两个一致
性空间度量的变量都是有限个的,不管是定义一款衣服,还是定义可以给A提供器官的若干人体数值,它们都是可操作的,
也就是说它们的一致性空间的一致性标度必然是有限的,我们定义n个独立的一致性标度,\[\xi_1,\xi_2,...,\xi_n.\]
一致性空间中的标度反应出影响这个空间的若干因素,每个因素在这个一致性空间中都接近一个特定的值,具体的观测
值在一个值附近扰动。划分一致性空间的依据就在规定若干对外有显著比较意义的标度值。标度对自己所在特定的一致性空
间职能不在度量显著性差异,因为没有,它的职能就只能是度量那部分扰动量,而如何度量那部分扰动量正是本文探索的焦
点。有点像文化大革命和在广义第二高价的一篇文章里类似描述地专有市场。下图示意一致性空间: