在我主要的参考文献 Bingjing Li (2018)里, 其回归模型是类似于:
\[\Delta y_{it}= \alpha_{1}\Delta x_{it}+\alpha_{2}\Delta z_{it}+\phi_{pt}+\epsilon_{it}\],其中 \[\Delta y_{it}\] 和 \[\Delta x_{it}\] 分别表示为变量 y ,x 和 z 在城市 i 在t-1 和 t 时期 的变化量, \[\phi_{pt}\] 表示 省份 p在t 时期 的dummy variable (p是城市 i 所在的省份), \[\epsilon_{it}\] 是误差项。其所用的stata指令为
由于所有城市的样本区间都是1990-2005,Li (2018)把1990-2005统一分为 1990-2000 和 2000-2005 两部分,样本数据是平衡的,所以 Li(2018)的样本数据 及 province_t 的 取值情况是如下表
city | province | year | y | delta_y | delta_x | delta_z | province_t |
1101 | 11 | 1990 | .6641747 | | | | 1 |
1101 | 11 | 2000 | .6743087 | .010134 | .7488091 | .6341835 | 2 |
1101 | 11 | 2005 | .7006277 | .026319 | 2.262.935 | 1.981.459 | 3 |
1201 | 12 | 1990 | .5382662 | | | | 4 |
1201 | 12 | 2000 | .6650644 | .1267982 | .6257004 | .7536179 | 5 |
1201 | 12 | 2005 | .6903915 | .0253271 | 1.885.867 | 2.324.683 | 6 |
1301 | 13 | 1990 | .3507099 | | | | 7 |
1301 | 13 | 2000 | .5929871 | .2422772 | .184033 | .4294735 | 8 |
1301 | 13 | 2005 | .6867322 | .0937451 | .5607296 | 1.321.728 | 9 |
1302 | 13 | 1990 | .3637108 | | | | 7 |
1302 | 13 | 2000 | .4932936 | .1295828 | .1866016 | .2550632 | 8 |
1302 | 13 | 2005 | .5333334 | .0400398 | .5640315 | .737752 | 9 |
1401 | 14 | 1990 | .4725537 | | | | 10 |
1401 | 14 | 2000 | .702788 | .2302343 | .6461676 | .5377736 | 11 |
1401 | 14 | 2005 | .7851373 | .0823493 | 1.972.943 | 1.653.893 | 12 |
1402 | 14 | 1990 | .3188498 | | | | 10 |
1402 | 14 | 2000 | .4629499 | .1441001 | .2265032 | .3066486 | 11 |
1402 | 14 | 2005 | .6103448 | .1473949 | .6568476 | .9007557 | 12 |
由上表中可看出,由于城市1301和1302同属于省份13,所以它们的province_t取值在1990,2000和2005的取值分别为7,8和9。而同属于省份14的城市1401和1402这两个城市的province_t 取值也遵循同样的逻辑。(附件中也包括 Bingjing Li (2018) 在JIE的论文及其原始数据,代码,有兴趣的朋友也可下载查阅。)
我的回归模型为:\[\Delta y_{it}=\alpha_{1}\Delta x_{it}+\phi_{pt}+\epsilon_{it}\],我把样本区间2000-2006年分为2000-2004和2004-2006两部分,参考Bingjing Li (2018)的论文想使用的指令是
我的数据结构类似于:
city | prov | year | y | delta_y | delta_x | province_t |
1101 | 11 | 2000 | .3507142 | | | 1 |
1101 | 11 | 2004 | .4369361 | .0862219 | 0.6743 | 2 |
1101 | 11 | 2006 | .4071562 | -.02978 | 0.2582 | 3 |
1401 | 14 | 2000 | .2418307 | | | ? |
1401 | 14 | 2004 | .4488599 | .2070293 | 1,3255 | ? |
1401 | 14 | 2006 | .424867 | -.023993 | 0.4392 | ? |
1402 | 14 | 2002 | .2364954 | | | ? |
1402 | 14 | 2004 | .1886766 | -.0478189 | 0.3824 | ? |
1402 | 14 | 2006 | .2562406 | .067564 | 0.542 | ? |
在我的数据中,由于城市的样本区间不同,我不知道province_t的取值应该取多少。以上表中城市1401和1402为例:1401的样本区间为2000-2006,被分为2000-2004和2004-2006两部分,而1402的样本区间为2002-2006,被分为2002-2004和2004-2006两部,此时1401和1402的province_t应该如何取值了?
之前看连老师的帖子,areg和xtreg的原理是相通,得到的结果也是一样的,所以使用xtreg的话关键也是province_t的取值设定。