大话t检验 - Stata专版

1013

收藏 2019-07-26

根据是什么和怎么做的科研思维，t检验其实是一种检验(是什么)，这种检验应用t分布进行的(怎么做)。那么我们将t检验分为是什么和怎么做两块来分析。

   1.  t检验其实是一种检验(是什么)

      1）什么是假设-检验？

   人类不是上帝，人类自诞生起不可能知道世间万物的真相及其运作规律，人类现在所知道的万物真相和规律都是先产生假设，然后经过无数次的检验，然后才得出的结论。比如说你最近感觉无精打采、头晕、一看论文就困，你去看医生，医生看你油红色白，油光满面，耳垂还撅着，医生怀疑你高血脂(产生假设)，然后医生让你抽血化验一下(检验)，检验结果发现你的甘油三酯超标了很多，医生得出你犯困基本上、或应该是由血脂高导致的(结论)，医生让你控制饮食，多注意锻炼等等(政策建议)。

   2）假设-检验为什么和概率有关？

      医生用“基本上、应该”意味着说你无精打采、头晕、犯困95%概率上是由高血脂引起的。那么为什么不说你无力、头晕、犯困100%是由血脂高导致的？因为医生知道颈椎病也会导致头晕、犯困，搞科研的人多少都有点颈椎病。或许你头晕、犯困也有可能是颈椎病导致的呢(搞科研的人到哪都能被看粗来，医生看破不说破)。

   3）检验时为什么要引入各种分布？

   当医生准备叫下一位患者时，只是因为医生又多看了你一眼，医生头脑里产生了一个大胆的猜测，你最近头晕、无力是因为你天天科研，忽视了你的女朋友，你女朋友发现最近不见你人影不见你图像，晚上发功且嘴里念念有词埋怨你，于是你应验了。或者是因为单身的你去食堂吃饭，进门时还在思考学术问题，一不留神脑袋被食堂的大门夹了，这都可能引起头晕、无力。为了方便分析，医生内心列出了假设-检验的零假设H0和备择假设H1分别如下：
         H0：患者头晕、无力是被女朋友埋怨的    H1：患者头晕、无力不是被女朋友埋怨
   或  H0：患者头晕、无力是脑袋被门夹了       H1：患者头晕、无力不是脑袋被门夹了
   然后医生看了一眼自己内心的灵魂深处，灵魂告诉他这不可能把！还是收回这些假设吧！那么医生拒绝这些假设的依据是什么？对！就是小概率事件不可能发生。那么问题来了，如何测度小概率事件，这时我们就要引入各种分布来量化事件发生的概率，当样本较少(小于等于30个)时常常引入t分布，当样本较多(大于30个)时常常引入z分布。

   2. 采用t分布进行检验(怎么做)

   1）t分布长什么样？t分布外表下的内涵又是什么？

      如果一个随机变量是由一个服从正态分布的随机变量除以一个服从卡方分布的变量组成的，则该变量服从t分布。t分布又称学生t分布，我们来看下标准化后t分布的概率密度函数(probability density function，pdf)的样子。

   标准化的t分布概率密度函数关于y轴对称，在t=0时，这里概率密度值最大，总体中的对象在此集聚程度最高(像驼峰一样隆起，因而随机抽样的话，最有可能抽到分布在驼峰处的对象)。而概率密度在t=Xi处就有所下降，对象在此集聚程度较低，进一步向t轴的正方向移动，进入图中阴影部分，分布在图中阴影部分对象的密度就非常小了(随机抽样的话，抽到此处对象的概率非常小)，通常称为小概率事件，金融学中也称为“黑天鹅”事件。
   对于随机事件，我们可以理解为上帝在昨天就设计好的，在今天某个时间点有可能发生的所有事件理解为总体中的对象，而今天该时间点随机发生的事件是所有设计出事件中的某一件，即对总体的随机抽样，称为样本。显然抽到t=0处的点的概率极高，抽到图中阴影部分的点的概率较低，小概率事件几乎不可能发生。

   2）图中α/2是什么？

   我们在前面讲过，可以采用t分布来量化测度小概率事件，α/2就是判断小概率事件的标准。不太可能吧！这也可以啊？且看我娓娓道来。
   全国头晕、无力且查出高血脂的患者呈正态分布(多数头晕、无力的人都是高血脂，但少数头晕、无力的人血脂正常)，称之为总体。但是全国头晕、无力的患者不可能全都去这位医生那里看病。去这位医生处看病的m位患者只是总体服从正态分布的一个抽样，采用变量x表示。现在医生假设H0为真，即头晕、无力就是因为脑袋被门夹了，用x'表示，因而t值可以写为：

                                                   t = ( x - x' )/se( x ) ~ t( m-1 ); 自由度 n=m-1 se表示标准误(standard error)

   再重复这句话：如果一个随机变量是由一个服从正态分布的随机变量除以一个服从卡方分布的变量组成的，则该变量服从t分布。我们计算发现t值非常大或非常小，落入了图中阴影部分，而阴影部分表示小概率事件，不太可能发生，因而拒绝H0。那么在t轴上，区分阴影部门与非阴影部分竖线处的t值是多少呢？即如果上式计算出的t值大于竖线处的t值，不就可以断定头晕、无力就是因为脑袋被门夹了是小概率事件吗？就可以拒绝这种假设了。显然竖线处的t值受阴影部分面积以及t分布自由度决定。我们可以查t分布表，t分布表具体如下：

   α 称为显著性水平，当双侧(两个阴影部分加在一起)面积α=0.05，由于t分布的概率密度函数沿纵轴对称，单侧面积α/2=0.025。从t分布的概率密度函数可以看出，分布于该区域中的对象密度已经非常低了，单次随机抽样不太可能抽到，可以认为进入了小概率事件的区域。如果自由度n=24，则t轴竖线处的值为±2.064。即如果显著性水平α=0.05，自由度为24，上式计算出的t值大于2.064或小于-2.064，事实上该小概率事件发生的概率为0.05，即P{|t|>2.064} = 0.05。

   3）p值是什么？
   我们可以借助计算机计算出t值，然后根据显著性水平α 和自由度m确定出t分布概率密度函数t轴竖线处的值，然后比较二者的大小。但是每做一次检验，都需要比较大小一次，有点复杂。由于显著性水平α在每次检验是都是固定不变的，可不可以直接计算出某个值，直接跟α比较呢？可以的，这个值就是p值。

   显著性水平α实际上是概率，要想与之比较，p值也必须是概率。假设自由度仍为24，显著性水平仍为0.05，通过t值公式计算出t=t1，由于P{t≤t1}的概率是概率密度函数从负无穷到t1的积分，那么p值=P{|t|>t1}=2*(1- P{t≤t1})，如果p值小于等于0.05，说明t1>2.064，进入小概率事件的发生域，由于单次抽样小概率事件不可能发生，因而有理由拒绝原假设H0，备着假设H1成立，医生假设你头晕、乏力是因为被女朋友埋怨；或者是因为脑袋被门夹了的这种原假设H0，计算出来的p值一定小于0.05，因而有充分的理由去拒绝。

   如果p值大于0.05，则不能拒绝原假设H0，医生假设你头晕、乏力是因为高血脂的这种原假设H0，计算出来的p值一定大于0.05，因而没有理由去拒绝H0。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

栏目导航

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群