按数值相似度编入已有分组并标记

13371

收藏 2013-01-30

悬赏 10000 个论坛币已解决

有如下面板数据：
ID    group year       MV          MB    MV_Deciles    MB_quintiles    R
1          N    2001    689          0.6          1                   1             886
1          N    2002    886          3             1                   2             333
...
6          N    2008    10369       9             10                   9             217
...
66       Q    2003    987          3.6          .                   .
...
88       A       2001    682          0.596       .                   .
...
99       A       2007    369          1.2          .                   .
...
目前只有group为N的数据每year依据MV数值大小分为10组（MV_Deciles），并在每MV分组中按MB大小分为5组（MB_quintiles）。其他group（Q、A等）均未分组，因此MV_Decile和MB_quintiles位置均显示为缺失值。现要求其它group的数据要按照MV和MB数值大小和已有group N的MV和MB近似程度进行分组标记，并将该组对应的RE值（每年每MV，MB分组都有一R值）填入本行R对应位置。例如：在以上示例中ID为88，group为A，year为2001这个观察值应标记为：MV_Deciles为1， MB_quintiles为1，R为886

示例文件如下：

example.rar
大小:(721.16 KB)

马上下载

本附件包括：

example.dta

最佳答案

sungmoo 查看完整内容

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

sungmoo

2013-1-30 01:14:38

/*重新总结一下楼主的原数据中的问题：

（1）原数据并非panel data

（2）原分组（N组）中，当year相同时，MV_、MB_并未按MV、MB的大小生成

（3）原分组（N组）中，当数组(year, MV_, MB_)相同时，R未必相同*/

*如果，当group="N"时，MV_=1组内的MV的最大值a小于MV_=2组内的MV的最小值b，而group!="N"时，MV存在介于a与b之间的值，这样的MV值归入哪组？

**********

*针对楼主的原数据库，先做以下预处理（可产生panel data；且当year相同时，MV_按MV大小得出；当数组(year, MV_)相同时，MB_按MB大小得出）：

duplicates drop ID year,force
drop MV_ MB_
bys year: cumul MV if group=="N",eq g(MV_)
replace MV_=ceil(10*MV_)
bys year MV_: cumul MB if group=="N",eq g(MB_)
replace MB_=ceil(5*MB_)

*以下忽略各原分组的上临界值（只采用下临界值），对非N组观测值分组（以p与q标识）：

sort year MV MV_
egen t=tag(year MV_) if MV_>1
by year: g p=sum(t)+1
sort year MV_ MB MB_
egen s=tag(year MV_ MB_) if MB_>1
by year MV_: g q=sum(s)+1
drop t s

*若R严格代表组共值（即当数组(year, MV_, MB)相同时，R也相同），可接着：
bys year p q: egen r=min(R)

*本题其实并不是很复杂的问题，关键在于原始数据以及处理规则是否清晰。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

monstersivle

2013-1-30 23:59:20

请问：数据相似度那个R是怎么定义的，如何计算得到的，请提供算法、公式、函数，多谢

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

xingxf

2013-1-31 01:51:09

monstersivle 发表于 2013-1-30 23:59
请问：数据相似度那个R是怎么定义的，如何计算得到的，请提供算法、公式、函数，多谢

R不是什么计算得到的，对于已经分好的组，每一组有一个R值对应。数据相似度，就是说一个未分组的观察值，先看其MV值应该在哪个MV_Decile里面，确定好这个MV_Decile分组后，再看MB值与这个MV_Decile中的哪组MB分组相似，从而确定其MB_quintile分组。每个MV_Decile,MB_quintiles组合都有一个对应的R值，只要能确定分组，那R值自然也就确定了。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

monstersivle

2013-1-31 02:29:12

xingxf 发表于 2013-1-31 01:51
R不是什么计算得到的，对于已经分好的组，每一组有一个R值对应。数据相似度，就是说一个未分组的观察值， ...

这个R的值稀奇古怪的（跟观测值的其它变量值都沾不上边），
不知道是怎么来的（而且A组、Q组的R还要单独生成，有必要知道其算法），
上面给的解释还在琢磨，
楼主可以进一步用以下这个数据样本举例说明么？先表示感谢（这是跟聚类分析这个领域有关么？以前没有接触过，或者接触过基础的，但是不知道专业叫法）：

ID	group	year	MV	MB	MV_Deciles	MB_Quintiles	R
83335	N	2001	477	6.558141	1	3	22.29092
83334	N	2001	700.89	0.052175	1	1	-1.27571
88393	N	2001	828	6.522094	1	3	22.29092
80859	N	2001	2527.84	16.8	1	4	43.50494
86366	N	2001	2706	4.918033	1	2	14.32766
85777	N	2001	3306	7.962617	1	3	22.29092
88483	N	2001	3442.775	0.315788	1	1	-1.27571
85254	N	2001	3630.5	10.66667	1	4	43.50494
59256	N	2001	3874.05	36	1	5	150.2128
84782	N	2001	4064	20	1	4	43.50494
79655	N	2001	4545.84	133.3714	1	5	150.2128
86750	N	2001	5759.05	9.031803	1	3	22.29092
84164	N	2001	5877.08	11.04	1	4	43.50494
81031	N	2001	6599.85	9.000001	1	3	22.29092
10753	N	2001	6662.72	27.77143	1	5	150.2128
87444	N	2001	6772.5	1.268291	1	1	-1.27571
79059	N	2001	6870.5	37.5	1	5	150.2128
77162	N	2001	6920.85	46.56	1	5	150.2128

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

xingxf

2013-1-31 08:02:38

monstersivle 发表于 2013-1-31 02:29
这个R的值稀奇古怪的（跟观测值的其它变量值都沾不上边），
不知道是怎么来的（而且A组、Q组的R还要单独 ...

这个不用管R是怎么来的，R是对于每一个MV_deciles和MB_quintiles分组，都有一个R值对应。比如你看第一行数据和第三行数据，这两个观察值的MV_Deciles均为是1，MB_Quintiles均为3，他们的R值就一样。我不知道解释清楚没有，这个R是每一个MV，MB分组的一个共有特性。找到合适的分组，也就找到了R值。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

点击查看更多内容…

monstersivle

2013-1-31 08:32:09

xingxf 发表于 2013-1-31 08:02
这个不用管R是怎么来的，R是对于每一个MV_deciles和MB_quintiles分组，都有一个R值对应。比如你看第一行数 ...

好吧，那就痛快点吧，我舍掉R好了：
以下是对照情况：
group -> year -> mv -> mv_decile -> mb -> mb_quintile每组每年生成MV的10个十分位（存入MV_dec）标记1-10，每组十分位（1-10中取一个）观测值下，
依据MB做五分位标记（存入MB_quin）
程序（生成quantiles用xtile命令, 要几个quantiles，就在选项nquantile()填几个，这里就分别是10和5）：（我先删掉了已有的十分位和五分位，这样干净一点儿，且不知道之前它们是怎么做出来的）
use example,clear
drop MV_* MB_*
sort group year MV MB
gen MV_dec=0
gen MB_quin=0
qui levelsof group, local(group)
foreach g of local group {
      forv i=2001/2011{
            xtile dec=MV if group=="`g'" & year==`i', nq(10)
            forv j=1/10{
                     xtile quin=MB if group=="`g'" & year==`i' & dec==`j', nq(5)
                     replace MB_quin=quin if group=="`g'" & year==`i' & dec==`j'
                     drop quin
            }
            replace MV_dec=dec if group=="`g'" & year==`i'
            drop dec
      }
}
sort group year MV MB
sort group year MV_dec MB_quin
br
嵌套循环很慢，1分多钟才跑完，必有更快办法，还望集思广益刚查看了，出来的结果与源数据不一致（组N的R值不同）

因为组A，组Q的R变量都是missing，程序里没法加到什么条件里，难道你的意思是说，各组group各年生成完十分位和五分位以后，用组N的R值替换掉组A，组Q中跟组N同年同十分位标识mv_dec同五分位标识mb_quin的观测值的R值？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

xingxf

2013-1-31 08:55:13

monstersivle 发表于 2013-1-31 08:32
好吧，那就痛快点吧，我舍掉R好了：
以下是对照情况：
group -> year -> mv -> mv_decile -> mb -> mb ...

这个可能是我描述不清，你没理解。你第一句就drop掉了MV_Deciles和MB_quintiles了，这个是不允许的。我是要求其他Group的观察值必须按照目前Group N的分组情况，以MV和MB值相似Group N的情况进行分组，不能去掉原分组。所以为什么R总是困扰你，看来是我没让你明白意思。只要依据N组的分组，找到Q和A的分组，直接将N分组的R值替换进去就行了。
至于Group N是怎么分组的，确实有准确和高效的方法：
bys year: cumul(MV), gen (cumMV) equal
gen MV_Deciles=ceil(10*cumMV)
bys year MV_Deciles: cumul(MB), gen (cumMB) equal
gen M2B_Quintiles=ceil(5*cumMB)
这是我在前面的帖子里的问题，这个程序的写法是sungmoo的建议，讨论过程你可以去那个帖子看看。

谢谢啦！

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

monstersivle

2013-1-31 09:30:32

xingxf 发表于 2013-1-31 08:55
这个可能是我描述不清，你没理解。你第一句就drop掉了MV_Deciles和MB_quintiles了，这个是不允许的。我是 ...

这程序结果有问题：
use example,clear
keep if group=="N"
bysort year: cumul MV, gen(cumMV) equal
gen MV_dec=ceil(10*cumMV)

确定原数据是按着这个方法生成的十分位和五分位标记？
(即组N每年的MV_Deciles, MB_Quintiles)

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

xingxf

2013-1-31 22:18:51

monstersivle 发表于 2013-1-31 09:30
这程序结果有问题：
use example,clear
keep if group=="N"

这个程序没问题，我是按这个程序出的十分位和五分位。这个程序的合理性你可以通过tab MV_Deciles M2B_Quintiles 看看分布是否均匀，通过by year MV_Deciles: sum MV和by year MV_Deciles M2B_Quintiles: sum MB来检验各分组是不是严格按照大小分布的。

cumul这个函数是得出百分比分布情况，ceil这个是强制进位，这两个函数结合起来很科学。

至于您出的那个问题，我不清楚是怎么回事。而且这个问题和我一开始怎么得到的Group N的分组没关系，核心是按照N的情况，把group Q和A对号入座。举个别的例子吧，好比是现在有一群人排队，已经按身高分了十组并在每组中按体重分了5组，这样就分了50组。现在还有别的人要加入队伍，要求就不再折腾已经分好组的人了，别的人按自己的身高体重找已经分的组，加进去就行了。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

luckykong

2013-1-31 23:49:15

看了一会，不明白为什么不用 gen里面的group命令，是有特殊顾忌吗？可是没看到啊
sort group MV
by group: replace MV_Deciles = group(10) if MV_D == .
sort group MV
by group: replace MB_Q = group(5) if MB_Q == .

这样之后不就都分好组了吗？
preserve
keep if group == "N"
keep MV_D MB_Q R
duplicates drop _all, force
save new.dta
restore
然后按照m:1 将 new.dta， merge进来不可以吗

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

xingxf

2013-2-1 01:11:58

luckykong 发表于 2013-1-31 23:49
看了一会，不明白为什么不用 gen里面的group命令，是有特殊顾忌吗？可是没看到啊
sort group MV
by group ...

您试试就知道了，您的答案和我的要求不是一个意思

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

xingxf

2013-2-1 08:26:20

luckykong 发表于 2013-1-31 23:49
看了一会，不明白为什么不用 gen里面的group命令，是有特殊顾忌吗？可是没看到啊
sort group MV
by group ...

不是让重新分组，而是让每分组的按照已经分好组的情况标记。
请看上面一帖“举个别的例子吧，好比是现在有一群人排队，已经按身高分了十组并在每组中按体重分了5组，这样就分了50组。现在还有别的人要加入队伍，要求就不再折腾已经分好组的人了，别的人按自己的身高体重找已经分的组，加进去就行了。”

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

monstersivle

2013-2-1 09:14:07

xingxf 发表于 2013-1-31 22:18
这个程序没问题，我是按这个程序出的十分位和五分位。这个程序的合理性你可以通过tab MV_Deciles M2B_Qui ...

好，醍醐灌顶般的例子，肯定地回答了前贴的疑问。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

monstersivle

2013-2-1 23:19:02

仍无解？提一个dirty的思路吧(估计跑起来也不慢)：

先：
楼主跟帖已描述清任务：
根据R变量已有值的组N的分年mv_dec和mb_quin分位标记符，给其它组（如A、Q）的R变量复制

再：
思路：
1、只保留组N的观测值, 另存数据库N.dta。
keep if group=="N"
之后，只保留：年变量、分位标记符、R变量，去掉重复观测值，导出重命名数据集（比如：R.dta）
keep year mv_dec mb_quin R
duplicates drop
save R, replace
2、按着sungmoo版主的办法，即cumul, equal + ceil()取上界整数，分别得到它组分位标记符（十分位、五分位），分别用组名另存为数据集（比如：A.dta, Q.dta）
实现的话可：
qui levelsof group if group!="N", local(group)
foreach i of local group {...}
里面导出的时候可直接：save `i', replace具体（为检验，重思路）：
qui levelsof group if group!="N",local(group)
foreach i of local group{
      bys year: cumul mv if group==`i', equal gen(dec)
      replace mv_dec=ceil(dec*10) if group==`i'
      bys year mv_dec: cumul mb if group==`i' , equal gen(quin)
      replace mb_quin=ceil(quin*5) if group==`i'
      drop dec quin
      save `i',replace
}
3、循环merge， A.dta跟R.dta， Q.dta跟R.dta merge, (merge有选项是直接用using的变量值覆盖掉main数据集里的，即update)
foreach i of local group{
      use `i',clear
      merge m:1 year mv_dec mb_quin using R, update
      save `i',replace
}
4、A.dta, Q.dta append到 N.dta，
foreach i of local group{
      use `i',clear
      append using N
      save final,replace
}
注：因需用到本地宏local macro，需整体一并执行：
以下程序经测，可行，很快跑完，请检验（怎么检验啊？）
use example,clear
keep if group=="N"
save N,replace
keep year MV_Deciles MB_Quintiles R
duplicates drop
save R,replace
use example,clear
qui levelsof group if group!="N",local(group)
foreach i of local group{
      bysort year: cumul MV if group=="`i'", equal gen(dec)
      replace MV_Deciles=ceil(dec*10) if group=="`i'"
      bysort year MV_Deciles: cumul MB if group=="`i'" , equal gen(quin)
      replace MB_Quintiles=ceil(quin*5) if group=="`i'"
      drop dec quin
      save "`i'",replace
}
foreach i of local group{
      use "`i'",clear
      merge m:1 year MV_Deciles MB_Quintiles using R, update
      save "`i'",replace
}
foreach i of local group{
      use "`i'",clear
      append using N
      save final,replace
}
sort group year MV_Deciles MB_Quintiles R
br
此法太麻烦（merge不用其它组一个一个倒腾，输出个R的nonmissing数据集，直接回来按着year MV_Deciles MB_Quintiles 定位做R的update就好了），参：楼下解（根据luckykong解法改制）
检查了此贴方法，组N的分位标记与源不一致：
use example,clear
bysort year: cumul MV if group=="N", equal gen(dec)
replace dec=ceil(dec*10) if group=="N"
bysort year dec: cumul MB if group=="N" , equal gen(quin)
replace quin=ceil(quin*5) if group=="N"
sort group year MV_Deciles MB_Quintiles
br if group=="N"

是这么个分组方法么？？？哪里错了？？？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

monstersivle

2013-2-2 05:07:57

luckykong 发表于 2013-1-31 23:49
看了一会，不明白为什么不用 gen里面的group命令，是有特殊顾忌吗？可是没看到啊
sort group MV
by group ...

这个在gen下的group()函数是做什么的？没找到help。
只见过egen下的group(varlist)（多）变量值分组。
难道这个group(#)，就是按着by中变量值从大到小排序，平均分配观测值个数给各组（组定义依据的varlist分别是：1st. group year MV; 2nd. group year MV_Deciles MB)
高啊！
那精确解是这个咯：
use example,clear
bysort group year MV: replace MV_Deciles = group(10) if MV_Deciles==.
bysort group year MV_Deciles MB: replace MB_Quintiles=group(5) if MB_Quintiles==.
save work,replace
keep if group == "N"
keep year MV_Deciles MB_Quintiles R
duplicates drop
save R.dta,replace
use work,clear
merge m:1 year MV_Deciles MB_Quintiles using R,update nogenerate
sort group year MV_Deciles MB_Quintiles R
br
好，刚按此法核对了一下组N的分位数分组情况，结果不对啊，（还仅是十分位的）：use example,clear
sort group year MV
bys group year MV: gen dec = group(10)
sort group year MV_Deciles MB_Quintiles dec
br if group=="N"
见图：

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

xingxf

2013-2-2 10:41:45

monstersivle 发表于 2013-2-2 05:07
这个在gen下的group()函数是做什么的？没找到help。
只见过egen下的group(varlist)（多）变量值分组。
...

他那个Group方法是不行的，实际上他没明白这个问题的意思。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

xingxf

2013-2-2 10:43:29

monstersivle 发表于 2013-2-1 23:19
仍无解？提一个dirty的思路吧(估计跑起来也不慢)：

先：

主要的问题是没有找相似组的思路。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

xingxf

2013-2-3 00:30:28

sungmoo 发表于 2013-2-2 15:39
*由下可知，楼主的数据并不是panel data
xtset ID year

当时得到N组的分类，是用的如下命令：
bys year: cumul(MV), gen (cumMV) equal
gen MV_Deciles=ceil(10*cumMV)
bys year MV_Deciles: cumul(MB), gen (cumMB) equal
gen M2B_Quintiles=ceil(5*cumMB)
但是您说的这个问题怎么出的，我还真得仔细查查。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

monstersivle

2013-2-3 01:14:40

sungmoo 发表于 2013-2-2 15:39
*由下可知，楼主的数据并不是panel data
xtset ID year

是啊，我也怀疑原分组是否是像楼主说的按照cumul, equal + ceil()做的。
xtset ID year的结果是
repeated time values within panel
r(451);
依据您的解法，跑完，结果也与原数据不一致：
sort group year p q r
order group year MV_ MB_ p q R r
br if group=="N"

另，求解释: gen下的group()函数(不是egen下的那个)

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

monstersivle

2013-2-3 01:58:59

楼主的原数据中R与year MV_ MB_的匹配出奇地精确，
【会不会是先出的MV_ MB_ ，后通过某算法赋值给R变量的？】

检查办法：
use example,clear
keep if group=="N"
gen nr=year*1000+MV_*10+MB_*1
tabout nr using x.xls, c(min R max R N R) sum replace
每组最小值=最大值，证明单一性
截取

nr	Min	Max	N
	R	R	R
2001011	-1.3	-1.3	51
2001012	14.3	14.3	52
2001013	22.3	22.3	52
2001014	43.5	43.5	52
2001015	150.2	150.2	52
2001021	13.6	13.6	50
2001022	33.5	33.5	53
2001023	58.4	58.4	52
2001024	105.3	105.3	52
2001025	352.8	352.8	53
2001031	26.5	26.5	51
2001032	69.2	69.2	52
2001033	102.7	102.7	52
2001034	197.9	197.9	52
2001035	522.5	522.5	53
2001041	29.7	29.7	51
2001042	99.7	99.7	52
2001043	176.8	176.8	52
2001044	348.3	348.3	52

用此方法检查sungmoo荣誉版主的解法：keep if group=="N"
gen nr=year*1000+p*10+q*1
rename r rnew
tabout nr using y.xls, c(min rnew max rnew N rnew min R max R N R) sum replace
截取：

nr	Min	Max	N	Min	Max	N
	rnew	rnew	rnew	R	R	R
2001011	-1.3	-1.3	36	-1.3	-1.3	36
2001012	-1.3	-1.3	35	-1.3	14.3	35
2001013	14.3	14.3	31	14.3	22.3	31
2001014	22.3	22.3	42	22.3	22.3	42
2001015	43.5	43.5	103	43.5	150.2	103
2001021	-1.3	-1.3	37	-1.3	13.6	37
2001022	-1.3	-1.3	52	-1.3	33.5	52
2001023	14.3	14.3	54	14.3	58.4	54
2001024	22.3	22.3	51	22.3	105.3	51
2001025	105.3	105.3	71	105.3	352.8	71
2001031	26.5	26.5	35	26.5	26.5	35
2001032	14.3	14.3	44	14.3	69.2	44
2001033	69.2	69.2	58	69.2	102.7	58
2001034	22.3	22.3	45	22.3	197.9	45
2001035	197.9	197.9	80	197.9	522.5	80
2001041	-1.3	-1.3	52	-1.3	29.7	52
2001042	-1.3	-1.3	41	-1.3	99.7	41

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

sungmoo

2013-2-3 08:04:46

求解释: gen下的group()函数(不是egen下的那个)

https://bbs.pinggu.org/thread-1210548-1-1.html

依据您的解法，跑完，结果也与原数据不一致

请注意18楼中提到的前提：“同一年里，MV_、MB_分别按MV、MB大小得出”。

楼主提供的原数据并不满足这一要求。

另外，楼主的标题似乎不很恰当。本题的主要意思是，根据已有的对旧观测值的分组（按大小分组），对新观测值分组；原分组事实上确定了一系列区间，新观测值根据其所在区间确定分组。

若最初采用cumul等方法分组，各相邻分组的相邻临界值未必精确相等，从而若只根据各分组临界值做新分组，新观测值可能不在任何已有分组。前面的做法舍掉了各原分组的上临界值（只采用下临界值来保证“不间断”的分组）。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

xingxf

2013-2-3 09:30:11

sungmoo 发表于 2013-2-3 08:04
https://bbs.pinggu.org/thread-1210548-1-1.html

“......新观测值可能不在任何已有分组。” 分析得很对，这种可能性确实存在，但是对于任意给定的样本，无论用什么方法进行一开始的分组，这种可能性都没办法避免。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

sungmoo

2013-2-3 10:14:22

“......新观测值可能不在任何已有分组。” 分析得很对，这种可能性确实存在，但是对于任意给定的样本，无论用什么方法进行一开始的分组，这种可能性都没办法避免。

前面说过了，18楼中的再分组，就舍掉了每个原分组的上临界值。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

蓝玫小浣熊

2013-2-3 15:12:36

看了一会，不明白

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

luckykong

2013-2-3 15:44:39

monstersivle 发表于 2013-2-3 01:14
是啊，我也怀疑原分组是否是像楼主说的按照cumul, equal + ceil()做的。
xtset ID year的结果是
repeat ...

gen n = group(10) 表示将数据从小到大，分为10组。但是使用的时候，需要先对数据sort。
看了一下帖子，发现对于“相似组”的概念，我理解有误。。。
我认为“A”中相似组是这样定义的：将A中数据分为10组，其中第一小组内的数据跟N中第一小组数据相似，A中第二组和N中第二组相似，以此类推。。但是看你们的解释，貌似这样理解有错误。。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

xingxf

2013-2-3 22:32:28

luckykong 发表于 2013-2-3 15:44
gen n = group(10) 表示将数据从小到大，分为10组。但是使用的时候，需要先对数据sort。
看了一下帖子， ...

你看看我说的那个按身高体重排序的例子就明白了。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

luckykong

2013-2-4 00:37:44

xingxf 发表于 2013-2-3 22:32
你看看我说的那个按身高体重排序的例子就明白了。

呃～～我明白了，刚刚只是说我犯错的原因～～
不过暂时没想到好方法，没法帮到你～

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

xingxf

2013-2-4 03:50:47

luckykong 发表于 2013-2-4 00:37
呃～～我明白了，刚刚只是说我犯错的原因～～
不过暂时没想到好方法，没法帮到你～

没关系，还是要谢谢你。另外sungmoo已提供一种解法，我已设置成最佳答案，你可以看看。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

最佳答案

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群