全部版块 我的主页
论坛 计量经济学与统计论坛 五区 计量经济学与统计软件
5856 4
2020-08-19
像大神们求助计量模型。因变量的设定是一个人在一段时间内贡献自己页面的次数/贡献总次数计算出的一个百分比,可能的情况有三种,贡献了自己的页面,贡献了朋友的页面,贡献了其他页面。因为百分比的分布情况导致0%和100%的极端值很多,分布图是和正态分布完全不同,请问这样进行OLS回归分析是否会影响结果呢?
除此之外,看到类似的文章有提到说因为这个百分比是一系列的选择最后形成的结果,因此假设binomial分布会更合理。
想请问这种情况下,用简单的OLS回归好好一些还是用其他的模型回归会好些呢?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2020-8-20 01:00:10
这种情况下OLS是不合适的,OLS会导致有很多大于1小于0的预测值,而真实的y的范围是在0-1之间的。如果真实的y集中在0.2-0.8,那么仍然实用OLS是可行的,但是由于你有很多0%和100%,那么OLS结果就会出现问题。另一个问题是你的X和y之间的关系很大可能不是线性的。
你说有很多0%和100%,有一种可能的解决方法就是把百分比看作一个0-1变量,用logistic或者probit回归。
更加复杂的模型也有很多,这里推荐了解一下two-limit tobit model,我把信息放在这里你可以去看一下。希望可以帮助到你。
Long, J.S. (1997). Regression Models for Categorical and Limited Dependent Variables.
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2020-8-20 21:07:06
小和和HARMONY 发表于 2020-8-20 01:00
这种情况下OLS是不合适的,OLS会导致有很多大于1小于0的预测值,而真实的y的范围是在0-1之间的。如果真实的 ...
非常感谢你的帮助!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2020-8-21 17:40:40
小和和HARMONY 发表于 2020-8-20 01:00
这种情况下OLS是不合适的,OLS会导致有很多大于1小于0的预测值,而真实的y的范围是在0-1之间的。如果真实的 ...
你好,了解了一下probit和logit模型,尽管有一部分的数据集中于1和0,但是还是有很多数据是0-1之间的离散变量,请问这种情况下也能用probit和logit模型吗?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2020-9-8 08:07:17
nhl5189366 发表于 2020-8-21 17:40
你好,了解了一下probit和logit模型,尽管有一部分的数据集中于1和0,但是还是有很多数据是0-1之间的离散 ...
可以的,非常推荐了解一下sigmoid function的形状,就会对probit/logit模型有更加直观的认识。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群