于论坛,于计量,楼主都是个新手,所以这是篇新手写给新手看的帖子。毕竟新手更了解新手。这里简单讨论两个方面问题:一,简单回归中的一些基本问题;二:是建议打好基础,掌握做简单的回归方程,并“灵活运用虚拟变量、交互项来建立模型”,这些基础的技能都非常的实用,初学者不要盲目的追求SVAR、ARIMA等等唬人花哨的模型。 初学者最喜欢问的问题中,看似低级的莫过于:我的这么个模型需要多少样本?抱着教材尝试着读过前两章的同学都能找到答案:不得少于待估参数的个数。如果这么个问题问老师,得到的应该就是一句越多越好,然后再也不会有下文。虽然最终的答案确实也是越多越好,可是在做任何一个回归之前,还是先检查下你的模型能不能满足那些最基本的高斯马尔科夫假定。
假设你想研究你们学院的学生(这是总体)中,消费跟收入的关系,将消费对收入做个回归,Y=B0+B1X,待估参数两个,你至少需要两个样本。什么意思呢,我只需要你加上你一个SB同学的消费和收入数据就可以估计出这条回归直线上的参数了——两点确定一条直线嘛(当然样本的取值要有变异)。只要你能保证满足那些基本假定,估计出来的这条直线的系数就是无偏的:如果你把全院同学的数据拿出来做了回归,答案 X的系数为0.6,那么你随机的挑选两个学生的数据估计出来的样本回归直线,得到的系数值会有偏差,但平均而言你得到的回归系数也是0.6。这就是所谓的小样本性质。你可以使用非常少的样本做回归,只要你能满足严格的基本假定。但是OLS可以在更宽松的假定下(在横截面数据中,即便模型的误差不服从正态性的假设;在时间序列中,只要你用的时间序列是平稳且弱相关的,即便解释变量不是严格外生的,误差不是正态的)得到大样本的渐进性质——只要样本量足够大,所有的参数估计假设检验都还能用。由于最基本的假设太过苛刻所以才需要更多的样本量使得在更宽松的假设前提下使得做出的回归依然有效。另外,即便你能满足有限样本性质的严格假设,样本依然是越多越好。原因很简单,你估计出来的B1的系数的方差部分取决于样本的变异程度(看系数的方差公式就知道了),也就是上例中的:得到的系数值会有偏差,平均而言你得到的回归系数也是0.6。你的样本变异越小,偏差越大。这也是很好理解的,你用两个学生的数据来做回归,估计出来的直线的斜率有各种奇葩的可能,但如果你随机抽取了半个学院的学生的数据来估计这根直线,斜率差不多就是0.6了。
整本伍德里奇导论,讲的最多的就是前提假设,和T检验F检验LM检验了。毫不夸张的说能掌握这些假设和T、F检验的应用,你的计量就能达到中级水平了。如果能灵活运用虚拟变量、交互项来建立模型,做计量对你来说就如鱼得水了。那些看似高大上的BP检验、怀特检验、RESET检验、布罗施 戈佛雷检验、邹至庄检验.....全部都是对T检验F检验的应用。修正异方差、序列相关的GLS,不过是用了下高三数学。可惜很多初学者刚刚学到T检验F检验就烦了开始追求一些华丽的模型....虽然很能理解这些同学的心情,但真正踏实学计量,未必真要砸那么多时间才能开始出文章。在一次中山大徐现详老师的讲座中,他汇报的论文采用了对照组、处理组的方法,台下学生顿时觉得高大上再也跟不上节奏了。其实这是个很实用很好掌握的跨时横截面数据的处理方法,只要掌握好了横截面数据的各种,甚至可以跳过时间序列拿下这一方法,然后用来写篇漂亮的毕业论文。
相关理论和方法有兴趣的同学参考伍德里奇导论第四版 13章 “跨时横截面的混合”,书中案例的具体STATA操作可以参考 胡咏梅《计量经济学基础 与STATA应用》 12章混合横截面与面板数据方法。顺带再提两点:一,理论上,两期的面板数据用差分方法消除了各个截面的非观测效应,所以优于两期的混合横截面。二,操作上,两期的跨时横截面用的完全是横截面的方法,STATA操作上完全按横截面数据来处理。而两期面板是面板数据,在导入数据后还需用tsset命令对数据格式进行定义。
以上都是些自己的见解,不准确之处还望见谅并指教。