今天在汇报的时候,脚注中写的内容栽了跟头,写在这里,share给大家
1. 想讲一下为什么我们需要稳健标准误:
首先要明确,回归自动输出的标准误是什么,是谁的标准误?输出的是回归系数的标准误差。我们在回归的时候,是估计的conditional on X的时候,X的系数(对Y的影响)是多少。因为不同的观测值是有不同取值的,所以估计出来的系数和真实观测到的数据是有误差的,这部分就是我们输出的标准误差。
为什么要用稳健的标准误呢?因为不用的话,就代表着我们要假设样本观测值之间是完全独立iid的。但是现实中,样本观测值之间完全独立同分布是不太可能的。或多或少存在相关(有些样本的取值是类似的)或者异质性(不同样本更类似于从不同的分布中抽取出来)。所以为了更贴近现实,我们是需要使用稳健标准误的。
2. 稳健标准误的分类:
第一种就是聚类稳健标准误:认为在某一个group内部,个人的观测值取值是相关的,比如一个区县,一个家庭内部等等。可以用cluster来处理。
第二类就是异方差稳健标准误:认为观测值的取值在不同group或者不同的个体之间,是类似于从不同的分布中抽取出来的。具有不同的均值和方差等等,而不是说从同一个分布中抽取,只是具有相关性而已。可以用robust来处理。
3. 稳健标准误的效果:
一般稳健性的标准误会让标准误增大,这样会让我们的估计系数变得更不显著。但是还是应该要进行处理,因为这样更贴近现实。
另外就是,聚类稳健标准误理论上来说cluster在最高的层面最好,但是这样会让标准误变得很大,所以一般我们不用cluster那么高的层面。
具体的推导和延伸阅读,大家可以继续参考这一份PPT,我觉得讲的很清楚。
http://econweb.umd.edu/~sarzosa/teach/2/Disc2_Cluster_handout.pdf\
很多人无法下载附件,我上传一下原文件: