如何在面板数据中做分组回归？

5760

收藏 2022-12-23

如果在平衡面板数据中，我按年份提取出某个指标（是解释变量x）的中位数，然后我要用每年大于中位数的样本为高投入组，小于中位数的样本为低投入组，做分组回归（假设是固定效应回归），那么我的回归命令按照下面列的做对吗？主要是第③步对吗？（我的主要模型分析的时候就是xtreg y x···,fe r）.如果不对，哪里需要改正呢？另外，我想知道这样做分组回归跟手动筛选数据重新分为高和低投入组两个面板数据出来的结果一样吗？

①按年份提取中位数 bystore year:egen median_x =median(x)
②列条件 gen above=0
replace above=1 if x>= median_x
③回归分析高投入组：xtreg y x ···if above=1,fe r
低投入组：xtreg y x ···if above=0,fe r

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

黃河泉

2022-12-23 19:27:03

看起来没错。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

青柠味的阿C

2022-12-23 20:40:17

黃河泉发表于 2022-12-23 19:27
看起来没错。

谢谢老师，我想继续问一下这样做分组回归跟手动筛选数据重新分为高和低投入组两个面板数据出来的结果是一个意思吗？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

黃河泉

2022-12-24 08:27:12

青柠味的阿C 发表于 2022-12-23 20:40
谢谢老师，我想继续问一下这样做分组回归跟手动筛选数据重新分为高和低投入组两个面板数据出来的结果是一 ...

应该一样，除非你的手动弄错了！

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

13654393280

2023-12-28 16:18:18

应该是above==1？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

13654393280

2023-12-28 16:18:42

13654393280 发表于 2023-12-28 16:18
应该是above==1？

第三步里面的

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

点击查看更多内容…

究极无敌鬼屎

2024-4-3 13:02:50

我想问一下这样做出来面板式平均分开的吗？我做的是30个省份的，使用分组回归后一个面板数是23，一个是24。但两个组的样本量是平均分开的，这样的结果是可靠的吗？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

赵安豆

2024-9-23 11:33:08

在面板数据中进行分组回归，你的步骤基本上是正确的，但有几个点需要注意以确保分析的准确性和效率。

首先，关于提取年份的解释变量x的中位数和标记高于或低于中位数样本的过程（步骤①和②），你的代码逻辑是对的。但是，在实际操作时要确保`bystore year: egen median_x =median(x)`这一步正确地为每一年生成了对应的中位数值，因为Stata中的`bystore`命令可能需要在较新版本中才能使用。如果你使用的Stata版本不支持`bystore`，你可以考虑先按年份排序数据，然后用`egen`命令加上适当的by选项来计算每年的中位数。

接下来，在标记高于或低于中位数样本时（步骤②），你的代码是正确的。`gen above=0`初始化一个变量为0，之后使用`replace above=1 if x>= median_x`将满足条件的观测值标记为1，这一步没有任何问题。

然而，在进行分组回归分析时（步骤③），直接在xtreg命令中添加筛选条件如`if above=1`或`if above=0`是可行的。但是要注意的是，这样的处理方式会从模型估计中排除不满足条件的观测值，而这些被排除的观测值可能仍然包含了有用的异质性信息。

如果你想要确保高投入组和低投入组回归时不会受到对方数据的影响，上述步骤是没有问题的。但如果你想保留所有样本的信息（即使是在分组分析时），可以考虑在模型中加入一个与解释变量x交互的虚拟变量（例如，`above`），这样可以在固定效应回归模型中同时估计高投入和低投入的不同影响。

下面是一个使用交互项的方法：

```stata
xtreg y x i.above##c.x ..., fe vce(cluster id)
```

这里假设`id`是你的面板单位标识符。通过在模型中加入`i.above#c.x`，你可以同时估计当`above=0`（低投入组）和`above=1`（高投入组）时x对y的影响。

至于是否手动筛选数据重新分为两个面板数据进行分析的问题，在理论上这两种方法应该给出相同的结果。但是，使用交互项的方法在实际操作中更高效，并且能更好地处理可能的数据缺失问题。直接筛选出两组数据并分别做回归可能会导致模型估计的不准确性，尤其是在数据有缺失的情况下。因此，推荐使用包含交互项的统一回归分析方法。

此文本由CAIE学术大模型生成，添加下方二维码，优先体验功能试用

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群