全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 R语言论坛
1885 9
2015-04-10
请教高手:假设数据是100(组)*200(观测值),两种处理方式:
1)100组数据分别算出均值,然后将这些均值放入regression中。
2)将20000条数据一起放入regression中。
请问结果相同吗?原理是什么?(自己没想清楚啊~)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2015-4-10 21:05:35
初学者的理解:第二种方法较第一种更好。第一种的方法的数据处理方法可能失去了数据原始特性,并且当各组都取平均值可能导致数据过于集中,影响回归模型的构建。但是如果每一组数据异常值较多的话,第一种方法可以使数据更平滑点。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-4-10 21:16:59
shi465456609 发表于 2015-4-10 21:05
初学者的理解:第二种方法较第一种更好。第一种的方法的数据处理方法可能失去了数据原始特性,并且当各组都 ...
两种方法都是科学合理的吗?

我问这个问题的原因之一是,如果每个组内的200个样本之间有相关性,比如是时间序列数据,那么整个样本就是panel了,不适合做整体层面的regression。但是我还是想粗粗的看一下regression的结果。。。
这种情况下是不是第一种更可取些?至少不会犯原则性的错误,虽然会丢失一些信息?

谢谢!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-4-10 21:44:47
第一种是分层的,第二种是混合的。差别在于第二种假装不存在组间差异。这样的问题用面板模型来估计。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-4-11 10:56:33
nuomin 发表于 2015-4-10 21:44
第一种是分层的,第二种是混合的。差别在于第二种假装不存在组间差异。这样的问题用面板模型来估计。
好的,谢谢!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-4-11 11:29:27
nuomin 发表于 2015-4-10 21:44
第一种是分层的,第二种是混合的。差别在于第二种假装不存在组间差异。这样的问题用面板模型来估计。
再请教一下有没有比较好的面板数据模型的参考资料呢?比较具体的那种~:)
谢谢~
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群