求助：对数值进行指定范围分组

5588

收藏 2009-11-21

各位老师：有一个数据库data1，其中有一个变量id，另外一个数据库data2，包含三个变量；group,begin,end.如下表，现想对data1用data2指定的分组办法分组（begin & end指data1中id的范围，group为组别），，请各位老师帮助！

data1	data2
id	group	begin	end
1	1	1	3
2	2	4	6
3	3	7	8
4	4	9	10
5	5	11	18
6	6	19	28
7	7	29	30
8	8	31	52
9	9	53	55
10	…	…	…
11
12
13
14
15
16
17
18
19
20
…

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

sungmoo

2009-11-22 16:50:55

*设data2中end的最大值即data1中id的最大值，且data1中每个id可以有多个观测值
use data2,clear
expandcl end-begin+1,cl(group) gen(id)
keep group id
save data,replace
use data1,clear
joinby id using data

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

jzhyue

2009-11-22 21:19:09

谢谢sungmoo老师：
您的这种思路很巧妙！将分组巧妙的转化，非常感谢！

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

jzhyue

2009-12-5 19:26:15

经调试，有一个问题不好解决：如果data1中的数据id有不连续的，比如10直接到15,则sungmoo老师的语句会出现错误，由expandcl end-begin+1,cl(group) gen(id)产生的是一个连续的id。与data1中的id没有对应。
请路过的老师帮助解决一下！
（我暂时用的方法是将data1拆分成几个文件产，然后再用sungmoo老师的方法）

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

sungmoo

2009-12-5 21:52:11

*data1中id在data2中begin最小值与end最大值之间，且data1中id在data2中均出现过。
use data1,clear
keep id
bys id: keep if _n<2
save data,replace
use data2,clear
expandcl end-begin+1,cl(group) gen(id)
keep group id
append using data
bys id: g g=_N
keep if g>1&group<.
drop g
save data,replace
use data1,clear
joinby id using data

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

sungmoo

2009-12-6 09:34:54

*以下更一般（data1中id在data2中begin最小值与end最大值之间），并涵盖了2楼。
use data2,clear
expandcl end-begin+1,cl(group) gen(id)
bys group: replace id=begin[1]+_n-1
keep group id
append using data1
bys id: g g=_N
drop if g<2&group<.
bys id: egen mn=min(group) if g>1
drop if group<.&g>1
drop g group
ren mn group

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

点击查看更多内容…

jzhyue

2009-12-6 21:58:43

jzhyue 发表于 2009-12-5 19:26
经调试，有一个问题不好解决：如果data1中的数据id有不连续的，比如10直接到15,则sungmoo老师的语句会出现错误，由expandcl end-begin+1,cl(group) gen(id)产生的是一个连续的id。与data1中的id没有对应。

sungmoo 老师：可能我的问题没有表述清楚，data1中缺失的id，不参与data2中的分组，不在任何一个begin与end之间，（即在data2中没有data1中缺失的id,缺失的id在组与组之间，即，第n组的end与第n+1组的begin相差的大于1,相差的号码就是缺失的id.）这样的话expandcl end-begin+1,cl(group) gen(id)产生的id中间有部分就多出来。data1中的id最大值等于data2最大的一个end值。
谢谢sungmoo老师！

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

sungmoo

2009-12-6 22:04:10

jzhyue 发表于 2009-12-6 21:58 可能我的问题没有表述清楚，data1中缺失的id，不参与data2中的分组，不在任何一个begin与end之间，（即在data2中没有data1中缺失的id,缺失的id在组与组之间，即，第n组的end与第n+1组的begin相差的大于1,相差的号码就是缺失的id.）这样的话expandcl产生的id中间有部分就多出来。data1中的id最大值等于data2最大的一个end值。

如果，data1中id均在data2中出现（data2中begin最小值与end最大值之间的值未必属于在data1中id的值）5楼与6楼是等价的，你可以试一下。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

jzhyue

2009-12-7 11:10:43

问题解决，需要增加一下代码

sungmoo 发表于 2009-12-6 09:34
*以下更一般更简洁（data1中id在data2中begin最小值与end最大值之间），并涵盖了2楼。
use data2,clear
sort group
gen begin1=end[_n-1]+1
replace begin1=begin in _n==1
expandcl end-begin1+1,cl(group) gen(id)
keep group id
append using data1
bys id: g g=_N
keep if g>1
bys id: egen m=min(group)
drop if group<.
drop g group
ren m group

谢谢sungmoo老师

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

sungmoo

2009-12-7 17:03:04

jzhyue 发表于 2009-12-7 11:10 问题解决，需要增加一下代码

可否把你的data2贴出来？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

jzhyue

2009-12-7 17:21:12

数据在压缩包中，data1中有两个变量。再次感谢

附件列表

data.rar

大小:12.21 KB

马上下载

本附件包括：

data2.dta
data1.dta

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

sungmoo

2009-12-7 19:27:06

jzhyue 发表于 2009-12-7 17:21 数据在压缩包中，data1中有两个变量

请看6楼。

（这里的关键是，实际的数据中，data1中与data2中id的值集互不包含）

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

jzhyue

2009-12-7 21:14:02

data2的所有的begin与end之间的所有值列出来连在一起将与data1（除id在11011/11040之间没有对应）中id一一对应，在处理的过程中，我可以将id=11011/11040这段数据先删去。
不知sungmoo老师有什么比较好的办法加以解决？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

sungmoo

2009-12-7 21:24:43

jzhyue 发表于 2009-12-7 21:14 我可以将id=11011/11040这段数据先删去

请见6楼。

data1中id有但data2中id无的观测值不参与分组（group=.）。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

jzhyue

2009-12-8 09:44:04

问题解决。
在sungmoo老师解答中，我学到了许多处理数据的思路和方法。
感谢sungmoo版主！

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群