求Stata高手帮帮忙！！！（简单数据处理）

4472

收藏 2010-04-01

本人最近遇到如下数据处理问题，搞了好久没搞出来，只好来这里请高手帮忙了！！希望大家能帮帮我！！
数据如下：

dm	jd	jjjc	tzlx	jjjz	gpsz	gpbl	zcg1	zcg1dm	zcg1bl	zcg2	zcg2dm	zcg2bl	zcg3	zcg3dm	zcg3bl	zcg4	zcg4dm	zcg4bl	zcg5	zcg5dm	zcg5bl
1	200403	华夏成长	1	3.62E+09	2.64E+09	0.7307	南方航空	600029	0.0659	中国联通	600050	0.0537	西山煤电	983	0.0457	宝钢股份	600019	0.0408	兖州煤业	600188	0.0378
1	200406	华夏成长	1	3.03E+09	2.26E+09	0.745	上海机场	600009	0.0568	南方航空	600029	0.0504	宝钢股份	600019	0.0499	中国石化	600028	0.049	招商银行	600036	0.0472

想做的处理为：如果第一条和第二条记录中同时某一股票（zcgdm），则用第二条记录的股票对应的比率（zcgbl）减去上一条记录的比率，如第一条和第二条记录中都用代码为6000029的南方航空和代码为600019的宝钢股份，则此时用wijt记录0.0504-0.0759; 0.049-0.0408
然后生成另一张数据表：

dm	jd	jjjc	tzlx	gp	gpdm	wijt
1	200403	华夏成长	1	南方航空	600029	-0.0255
1	200406	华夏成长	1	宝钢股份	600019	0.0082

请问上面这些数据处理如何做？？拜托各位了！！！

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

johnayl

2010-4-3 21:17:23

the table does not have these numbers: 0.0504-0.0759; 0.049-0.0408

can you be more specific?

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

voodoo

2010-4-4 00:09:22

试试：
reshape long zcg zcg@dm zcg@bl, i(dm jd) j(rank)
replace jd = yq(int(jd/100), (mod(jd,100)/3))
format jd %tq
bysort dm zcg (jd): gen wijt = zcgbl-zcgbl[_n-1] if jd - jd[_n-1]==1
keep if wijt != .
ren zcg gp
ren zcgdm gpdm
keep dm jd jjjc tzlx gp gpdm wijt

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

voodoo

2010-4-4 00:17:29

从经济的意义上说，你对数据的处理有点问题。
比如中国联通200403季度位列前五，且其zcgbl=0.0537，而下一季度则跌出前五，则根据你的思路示例，最终数据表中没有中国联通的数据。
个人认为最终数据表中应该包括中国联通的数据，但由于缺乏下一季度的zcgbl数据，其wijt的计算只能想个办法尽可能合理设定。
考虑上述因素之后的程序示例如下：

// 生成模拟数据，只包括关键变量
clear
set obs 20
gen dm = _n
expandcl = 8+floor(9*uniform()), cl(dm) gen(cl)
drop cl
sort dm
by dm: egen N = count(dm)
by dm: gen jd = tq(2008-4)-N+1 if _n==1
by dm: replace jd = jd[_n-1]+1 if _n>1
format jd %tqCCYY!Qq
drop N
// 生成随机不重复持仓股票代码
// 参见：http://www.stata.com/statalist/archive/2002-06/msg00261.html
expand 15
bysort dm jd: gen zcg = _n
gen zcgbl = 0.03+0.02*invnormal(uniform())
bysort dm jd (zcgbl): drop if _n <=10
tostring zcg, format(%06.0f) replace
bysort dm jd (zcgbl): gen rank = 6-_n
reshape wide zcg zcg@bl, i(dm jd) j(rank)
save sample, replace

// main
use sample, clear
reshape long zcg zcg@bl, i(dm jd) j(rank)
bysort dm jd (rank): keep if _n==_N
keep dm jd zcgbl
xtset dm jd
gen L_min_bl = L.zcgbl
gen F_min_bl = F.zcgbl
keep dm jd L F
save minbl, replace
use sample, clear
reshape long zcg zcg@bl, i(dm jd) j(rank)
merge dm jd using minbl
drop _merge
gen wijt = .
sort dm zcg jd
by dm zcg: gen byte stay5 = (jd-jd[_n-1]==1) // 连续进入前五样本
replace wijt = zcgbl-zcgbl[_n-1] if stay5
by dm zcg: gen byte enter5 = (jd-jd[_n-1]!=1) // 本季度进入前五样本
replace wijt = zcgbl-L_min_bl if enter5
by dm zcg: gen byte nexit5 = (jd-jd[_n+1]!=-1) // 下季度退出前五样本
expand = nexit5+1, gen(exit5)
replace jd = jd+1 if exit5
replace stay5 = 0 if exit5
replace enter5 = 0 if exit5
replace wijt = zcgbl-F_min_bl if exit5
keep if wijt != .
ren zcg gp
sort dm gp jd
keep dm jd gp wijt stay5 enter5 exit5
save last, replace

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

voodoo

2010-4-5 13:57:24

ylhenry 发表于 2010-4-1 10:43
本人最近遇到如下数据处理问题，搞了好久没搞出来，只好来这里请高手帮忙了！！希望大家能帮帮我！！
数据如下：

dm jd jjjc tzlx jjjz gpsz gpbl zcg1 zcg1dm zcg1bl zcg2 zcg2dm zcg2bl zcg3 zcg3dm zcg3bl zcg4 zcg4dm zcg4bl zcg5 zcg5dm zcg5bl
1 200403 华夏成长 1 3.62E+09 2.64E+09 0.7307 南方航空 600029 0.0659 中国联通 600050 0.0537 西山煤电 983 0.0457 宝钢股份 600019 0.0408 兖州煤业 600188 0.0378
1 200406 华夏成长 1 3.03E+09 2.26E+09 0.745 上海机场 600009 0.0568 南方航空 600029 0.0504 宝钢股份 600019 0.0499 中国石化 600028 0.049 招商银行 600036 0.0472

想做的处理为：如果第一条和第二条记录中同时某一股票（zcgdm），则用第二条记录的股票对应的比率（zcgbl）减去上一条记录的比率，如第一条和第二条记录中都用代码为6000029的南方航空和代码为600019的宝钢股份，则此时用wijt记录0.0504-0.0759; 0.049-0.0408
然后生成另一张数据表：

dm jd jjjc tzlx gp gpdm wijt
1 200403 华夏成长 1 南方航空 600029 -0.0255
1 200406 华夏成长 1 宝钢股份 600019 0.0082

请问上面这些数据处理如何做？？拜托各位了！！！

不知3、4楼的程序运行结果如何，希望你能以附件形式贴一部分数据上来，最好能是.dta格式的。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群