数据处理方式对回归模型影响的问题

1989

收藏 2015-04-10

请教高手：假设数据是100（组）*200（观测值），两种处理方式：
1）100组数据分别算出均值，然后将这些均值放入regression中。
2）将20000条数据一起放入regression中。
请问结果相同吗？原理是什么？（自己没想清楚啊~）

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

shi465456609

2015-4-10 21:05:35

初学者的理解：第二种方法较第一种更好。第一种的方法的数据处理方法可能失去了数据原始特性，并且当各组都取平均值可能导致数据过于集中，影响回归模型的构建。但是如果每一组数据异常值较多的话，第一种方法可以使数据更平滑点。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

michelle915lmm

2015-4-10 21:16:59

shi465456609 发表于 2015-4-10 21:05
初学者的理解：第二种方法较第一种更好。第一种的方法的数据处理方法可能失去了数据原始特性，并且当各组都 ...

两种方法都是科学合理的吗？

我问这个问题的原因之一是，如果每个组内的200个样本之间有相关性，比如是时间序列数据，那么整个样本就是panel了，不适合做整体层面的regression。但是我还是想粗粗的看一下regression的结果。。。
这种情况下是不是第一种更可取些？至少不会犯原则性的错误，虽然会丢失一些信息？

谢谢！

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

nuomin

2015-4-10 21:44:47

第一种是分层的，第二种是混合的。差别在于第二种假装不存在组间差异。这样的问题用面板模型来估计。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

michelle915lmm

2015-4-11 10:56:33

nuomin 发表于 2015-4-10 21:44
第一种是分层的，第二种是混合的。差别在于第二种假装不存在组间差异。这样的问题用面板模型来估计。

好的，谢谢！

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

michelle915lmm

2015-4-11 11:29:27

nuomin 发表于 2015-4-10 21:44
第一种是分层的，第二种是混合的。差别在于第二种假装不存在组间差异。这样的问题用面板模型来估计。

再请教一下有没有比较好的面板数据模型的参考资料呢？比较具体的那种~：）
谢谢~

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

点击查看更多内容…

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群