想对收入分组，但不想按频数来分，请问如何操作

8441

收藏 2010-01-10

在变量income下有几千条数据，每一收入数据出现的频数不一定为1，比如
income
800
800
960
980
1020
1020
1020
2000
2400
2400
......
2400
2700
2800
3000
3000
......
如果想对收入按照从低到高排列分为5组，但不想通过频数来分（我的意思是想把每一收入出现的次数视为1），请问如何操作，如何才能找出排在20%、40%、60%、80%的收入数值？

ps：我之前试过用group（5）处理，但由于有些收入数值对应的样本很多，因此出现了同一收入出现在不同的组的情况，这就不是我想要的结果。。。

请大虾们赐教啊！~~谢谢~~

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

eblog

2010-1-11 08:59:40

cherrypie 发表于 2010-1-10 23:25

如果想对收入按照从低到高排列分为5组，但不想通过频数来分（我的意思是想把每一收入出现的次数视为1），请问如何操作，如何才能找出排在20%、40%、60%、80%的收入数值？

ps：我之前试过用group（5）处理，但由于有些收入数值对应的样本很多，因此出现了同一收入出现在不同的组的情况，这就不是我想要的结果。。。

请大虾们赐教啊！~~谢谢~~

sort income
bys income: gen id=_n
keep if id==1
gen group=group(5)
_pctile income, p(20,40,60,80)
return list

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

cherrypie

2010-1-11 10:09:36

明白啦~这种方法就是将所有不同的收入数值抽出来进行排列然后计算百分位数吧，我已经试过了，确实很好，感谢啊！

有个小疑问，以前我曾试着拿一组数（有些数值多次出现）直接计算其p20、p40，但没有成功，p25、p50、p75倒是可以直接计算出，请问是不是因为排列中的某些数值其频数不唯一的缘故呢？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

sungmoo

2010-1-11 22:31:32

cherrypie 发表于 2010-1-10 23:25 如果想对收入按照从低到高排列分为5组，但不想通过频数来分（我的意思是想把每一收入出现的次数视为1），请问如何操作，如何才能找出排在20%、40%、60%、80%的收入数值？ps：我之前试过用group（5）处理，但由于有些收入数值对应的样本很多，因此出现了同一收入出现在不同的组的情况，这就不是我想要的结果。。。

cumul income, g(s) eq

*你看s最接近0.2、0.4、0.6、0.8的观测值。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

金黄

2010-1-12 12:08:05

sungmoo 发表于 2010-1-11 22:31
cumul income, g(s) eq

*你看s最接近0.2、0.4、0.6、0.8的观测值。

找到以后用怎么把数据分成五组呢？用什么命令？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

chinhsi

2010-1-12 12:36:00

xtile dincome=income, nq(5)
应该就可以解决你的问题

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

点击查看更多内容…

sungmoo

2010-1-12 16:37:20

金黄发表于 2010-1-12 12:08 找到以后用怎么把数据分成五组呢？用什么命令？

这里的关键是，当观测值数不能被5整除且存在ties（重复值）时，你的分组原则是什么？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

金黄

2010-1-12 21:42:08

分组原则就是把收入按大小排序后五等分：最低收入组、较低收入组和中等收入组、较高收入组、最高收入组。应该不必考虑重复值的问题。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

sungmoo

2010-1-12 21:43:54

金黄发表于 2010-1-12 21:42 分组原则就是把收入按大小排序后五等分：最低收入组、较低收入组和中等收入组、较高收入组、最高收入组。应该不必考虑重复值的问题。

若存在ties，且ties归入同一组，则分组未必是五等分的。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

金黄

2010-1-13 21:26:48

金黄发表于 2010-1-12 21:42
分组原则就是把收入按大小排序后五等分：最低收入组、较低收入组和中等收入组、较高收入组、最高收入组。应该不必考虑重复值的问题。

我没有处理这种问题的经验，我只是觉得应该这样。
在我的个人文件中，有些人是来自同一家庭的，所以他们的“家庭收入”这一变量的值相同。我是想把所有人按照家庭收入多少分成五组。那么应该怎么操作才合适呢？请指点。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

sungmoo

2010-1-13 21:45:47

金黄发表于 2010-1-13 21:26 我是想把所有人按照家庭收入多少分成五组。那么应该怎么操作才合适呢？

关键是说清楚你的分组规则：

（1）五组各自的观测值数；

（2）ties是否在同一组。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

金黄

2010-1-13 22:33:32

我想了一下，如果将重复值包含在内而进行的五等分应该是没有意义的，因为如果刚好在两组界限上有相同的值就无法解释它到底属于哪一组了。所以，应该是剔出重复值以后，将收入五等分；然后再将重复的观测值加入相应的组中。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

sungmoo

2010-1-13 22:58:29

金黄发表于 2010-1-13 22:33 我想了一下，如果将重复值包含在内而进行的五等分应该是没有意义的，因为如果刚好在两组界限上有相同的值就无法解释它到底属于哪一组了。所以，应该是剔出重复值以后，将收入五等分；然后再将重复的观测值加入相应的组中。

但是，就收入分布而言，重复值的频数（从而各收入水平的频率或比重）是有意义的。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

金黄

2010-1-13 23:08:06

那还是说将收入排序后，将所有人等分成五组就可以了，是吗？比如共有100个人，那就每组20人，共五组。可是如果人数不能被五整除呢？或者同一个收入属于两个组，怎么办？这是您#7提到的问题。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群