瞎子炒豆理论与统计,计量,回归理论中的基本原则
宝兜原创,欢迎扩展,补充瞎子炒豆理论与学术理论的联系。如果引用,请注明出处以及宝兜大名。
从前,有个瞎子,站在锅前炒豆,炒了一会,瞎子闻到了糊味,瞎子知道豆已经炒好了。你问瞎子,锅里的豆是生的,熟的还是糊的?
1)
旁白:豆的生熟程度可以测量,生豆测量结果是负无穷,糊豆测量结果是正无穷,中间的豆子都有一个数值。生熟程度可用一个连续变量进行表示(总体用Y,样本用Y1,Y2,。。。)。
瞎子说,绝大部分豆子是熟的,很小一部分豆子是生的,很小一部分豆子是糊的。
2)
旁白:使用Y代表豆的生熟程度,Y大约服从一个一维正态分布;亦即你在书本上看到的正态分布图形。这亦可称为总体分布,相对于下文讲的样本分布。
瞎子右手拿着一双筷子,在锅里顺手夹起一个豆。你问瞎子,这颗豆是生的,熟的还是糊的?
瞎子说,这颗豆子很有可能是熟的,很小可能是生的,很小可能是糊的。
3)
旁白:使用Y1代表这颗豆的生熟程度,Y1大约服从一个一维正态分布;亦即你在书本上看到的正态分布图形。这亦可称为一个样本点的单独分布。这个样本点的分布,很容易看出,与总体分布相同。
假设锅里的豆子够多,瞎子右手拿着一双筷子,在锅里顺手夹起第二个豆。你问瞎子,这颗豆是生的,熟的还是糊的?
瞎子说,这颗豆子很有可能是熟的,很小可能是生的,很小可能是糊的。
4)
旁白:使用Y2代表这颗豆的生熟程度,Y2大约服从一个一维正态分布;亦即你在书本上看到的正态分布图形。这亦可称为一个样本点的单独分布。这个样本点的分布,很容易看出,与总体分布相同。
瞎子把夹出的这两颗豆放在碗里,你问瞎子,这两颗豆是生的,熟的还是糊的?
瞎子说,这两颗豆很有可能都是熟的,很小可能都是生的,很小可能都是糊的。
5)
旁白:使用(Y1,Y2)代表这颗豆的生熟程度,(Y1,Y2)大约服从一个二维正态分布;亦即你在现实中看到的一个钟的形状。这亦可称为两个样本点的联合分布。这两个样本点的联合分布等于第一个样本点的单独分布乘以第二个样本点的单独分布。这两个样本点的联合分布,很容易看出,与总体分布不同。
6)
旁白:假设锅里的豆子足够多,这是你的总体;瞎子夹到碗里的豆子则是你的样本。以上例子,样本点数等于n=2。
旁白:以上的小故事讲述了总体分布和抽样分布的相关核心概念。
瞎子问你,为什么有的豆子是生的,有的豆子是熟的,有的豆子是糊的?你说,据我所知,有个因素影响豆的生熟程度,种植天数,种植天数越长,豆子越易炒糊,种植天数越短,越易炒生。
7)
旁白:种植天数可以测量,假设相对天数可从负无穷延续到那正无穷,中间天数都有一个数值。种植天数可用一个连续变量进行表示(总体用X,样本用X1,X2,…)。这个统计模型即为:总体模型Y = XBeta + Epson;样本模型Yi = XiBeta + Epsoni I = 1, …, n。
瞎子说到,我明白了,每个豆子都有一个标签,表明生熟程度以及种植天数。Epson代表众多众多其他因素,海拔高度,等等等等,这些其他因素互为影响,这些其他因素总体影响呈现一种随机形式。
你说,瞎子,锅里有些豆子,种植天数等于100,你问瞎子,锅里的这些豆子是生的,熟的还是糊的?瞎子说,绝大部分豆子是熟的,很小一部分豆子是生的,很小一部分豆子是糊的。
8)
旁白:使用(Y|x=100)代表这些豆子的生熟程度,(Y|x=100)大约服从一个一维正态分布;亦即你在书本上看到的X是非随机的。这亦可称为总体分布,相对于下文讲的样本分布。但是这个总体分布与旁白1)中的总体分布不同.瞎子知道更多的信息,两种分布的均值不同,方差不同。
你知道的,大部分豆子种植天数刚好,很少豆子种植天数不够,很少豆子种植天数超期。
9)
旁白:种植天数可以测量,假设相对天数可从负无穷延续到那正无穷,中间天数都有一个数值。种植天数可用一个连续变量进行表示。使用X代表豆的生熟程度,X大约服从一个一维正态分布;亦即你在书本上看到的正态分布图形。这亦可称为总体分布,相对于下文讲的样本分布。
你说,瞎子,这些豆子是哪里来的?瞎子说道,老子走南闯北,到处要饭,都是各地要的。
旁白:
10)
旁白:使用X1代表这颗豆的种植天数,X1大约服从一个一维正态分布;亦即你在书本上看到的正态分布图形。这亦可称为一个样本点的单独分布。这个样本点的分布,很容易看出,与总体分布相同。
旁白:这就是所谓的X同为随机变量。那么,总体分布(X,Y),样本联合分布(X1,X2,…,Y1,Y2,…)以及各种单独分布,期望,方差,均可进行推导。
旁白:以上的小故事讲述了回归理论的相关核心概念,这些概念对于理解估计方法,最小二乘,最大似然,理解抽样分布,检验变量分布,等等核心概念,很有帮助。