小白VS中国工业企业数据库（5）：相邻三年间的匹配

15394

收藏 2017-08-10

   匹配完相邻两年的样本，生成mi_mj.dta数据文件后，相邻三年间的匹配较为容易，不需要改动。需要注意的是，在这一阶段程序中，处理不一致情况的时候BRANDT用到了merge命令形式较老，stata13之前的版本可以直接识别，但stata14会提示应当用新式命令，即merge后应该加1:1；m:1；1:m或m:m，但stata14依旧能够识别老式命令，可以运行无阻。其程序如下：

forvalues i = 1998/2005{
local j = `i'+1
local k = `i'+2

**Step 70  创造一个三年的平衡样本：

disp "Step 70 "
use m`i'-m`j'.dta,clear
keep if match_status_`i'_`j' == "1"
keep *`i'
compress
saveold unmatched`i'.10.dta,replace

use m`i'-m`j'.dta,clear
drop if match_status_`i'_`j' == "1"
gen code = id`j'+string(revenue`j')+string(employment`j')+string(profit`j')+province`j'
sort code
compress
saveold m`i'-m`j'.10.dta,replace

use m`j'-m`k'.dta,clear
keep if match_status_`j'_`k' == "2"
keep *`k'
compress
saveold unmatched`k'.10.dta,replace

use m`j'-m`k'.dta,clear
drop if match_status_`j'_`k' == "2"
gen code = id`j'+string(revenue`j')+string(employment`j')+string(profit`j')+province`j'
sort code
compress
saveold m`j'-m`k'.10.dta,replace

use m`i'-m`j'.10.dta,clear
merge 1:1 code using m`j'-m`k'.10.dta
drop _m code
keep if match_status_`i'_`j'=="3" & match_status_`j'_`k'=="3"
gen match_status_`i'_`k'="3"
gen match_method_`i'_`k'="`j'"
compress
saveold balanced.m`i'-m`j'-m`k'.dta,replace

**Step 80  对未匹配成功的i年公司和j年公司单独保存：

disp "Step 80"
use m`i'-m`j'.10.dta,clear
merge 1:1 code using m`j'-m`k'.10.dta
drop _m code
drop if match_status_`i'_`j'=="3" & match_status_`j'_`k'=="3"
drop if id`i'==""
gen code = id`i'+string(revenue`i')+string(employment`i')+string(profit`i')+province`i'
sort code
compress
saveold unmatched`i'.15.dta,replace

use unmatched`i'.15.dta,clear
keep *`i'
append using unmatched`i'.10.dta
compress
saveold unmatched`i'.20.dta,replace

use m`i'-m`j'.10.dta,clear
merge 1:1 code using m`j'-m`k'.10.dta
drop _m code
drop if match_status_`i'_`j'=="3" & match_status_`j'_`k'=="3"
drop if id`k'== ""
gen code = id`k'+string(revenue`k')+string(employment`k')+string(profit`k')+province`k'
sort code
compress
saveold unmatched`k'.15.dta,replace

use unmatched`k'.15.dta,clear
keep *`k'
append using unmatched`k'.10.dta
compress
saveold unmatched`k'.20.dta,replace

use m`i'-m`j'.10.dta,clear
merge 1:1 code using m`j'-m`k'.10.dta
drop _m code
drop if match_status_`i'_`j'=="3" & match_status_`j'_`k'=="3"
gen code = id`j'+string(revenue`j')+string(employment`j')+string(profit`j')+province`j'
sort code
compress
saveold unmatched`j'.15.dta,replace

**Step 90  对i年公司和第三年k的公司以法人代码（id）和公司名称(name)进行匹配：

disp "Step 90"
use unmatched`i'.20.dta,clear
bysort id`i': keep if _N>1
compress
saveold duplicates_ID`i'.dta,replace

use unmatched`i'.20.dta,clear
bysort id`i': drop if _N>1
rename id`i' id
keep *`i' id
sort id
compress
saveold match`i'.1.dta,replace

use unmatched`k'.20.dta,clear
bysort id`k': keep if _N>1
compress
saveold duplicates_ID`k'.dta,replace

use unmatched`k'.20.dta,clear
bysort id`k': drop if _N>1
rename id`k' id
keep *`k' id
sort id
compress
saveold match`k'.1.dta,replace

use match`i'.1.dta,clear
merge 1:1 id using match`k'.1.dta
keep if _m==3
gen id`i'=id
rename id id`k'
drop _m
gen match_method_`i'_`k'="`j'"
gen match_status_`i'_`k'="3"
compress
saveold matched_by_ID`i'_`k'.dta,replace

*公司名称（name）*

use match`i'.1.dta, clear
merge 1:1 id using match`k'.1.dta
keep if _merge==1
rename id id`i'
append using duplicates_ID`i'.dta
bysort name`i': keep if _N>1
keep *`i'
compress
saveold duplicates_name`i'.dta, replace

use match`i'.1.dta, clear
merge 1:1 id using match`k'.1.dta
keep if _merge==1
rename id id`i'
append using duplicates_ID`i'.dta
bysort name`i': drop if _N>1
rename name`i' name
sort name
keep name *`i'
compress
saveold unmatched_by_ID`i'.dta, replace

use match`i'.1.dta, clear
merge 1:1 id using match`k'.1.dta
keep if _merge==2
rename id id`k'
append using duplicates_ID`k'.dta
bysort name`k': keep if _N>1
keep *`k'
compress
saveold duplicates_name`k'.dta, replace

use match`i'.1.dta, clear
merge 1:1 id using match`k'.1.dta
keep if _merge==2
rename id id`k'
append using duplicates_ID`k'.dta
bysort name`k': drop if _N>1
rename name`k' name
sort name
keep name *`k'
compress
saveold unmatched_by_ID`k'.dta, replace

use unmatched_by_ID`i'.dta, clear
merge 1:1 name using unmatched_by_ID`k'.dta
keep if _merge==3
gen name`i'=name
rename name name`k'
drop _merge
gen match_method_`i'_`k'="firm name"
gen match_status_`i'_`k'="3"
compress
saveold matched_by_name`i'_`k'.dta, replace

use unmatched_by_ID`i'.dta, clear
merge 1:1 name using unmatched_by_ID`k'.dta
keep if _merge==1
rename name name`i'
keep *`i'
append using duplicates_name`i'.dta
gen match_method_`i'_`k'=""
gen match_status_`i'_`k'="1"
compress
saveold unmatched_by_ID_and_name_`i'.dta, replace

use unmatched_by_ID`i'.dta, clear
merge 1:1 name using unmatched_by_ID`k'.dta
keep if _merge==2
rename name name`k'
keep *`k'
append using duplicates_name`k'.dta
gen match_method_`i'_`k'=""
gen match_status_`i'_`k'="2"
compress
saveold unmatched_by_ID_and_name_`k'.dta, replace

**step 100  将上述所有样本再进行大合并：

disp "Step 100"
use matched_by_ID`i'_`k'.dta, clear
append using matched_by_name`i'_`k'.dta
append using unmatched_by_ID_and_name_`i'.dta
append using unmatched_by_ID_and_name_`k'.dta
compress
saveold m`i'-m`k'.dta, replace

use m`i'-m`k'.dta, clear
gen code = id`i'+string(revenue`i')+string(employment`i')+string(profit`i')+province`i'
sort code
*drop if code == "..."
merge code using unmatched`i'.15.dta
drop code _merge
sort id`i'
compress
saveold m`i'-m`k'.05.dta, replace

*处理不一致情况（disagreement ） (_merge==5 if "update" is used)：

use m`i'-m`k'.05.dta, clear
gen code = id`k'+string(revenue`k')+string(employment`k')+string(profit`k')+province`k'
sort code
*这里用到了老式merge命令格式，但STATA14可以识别，但会显示提示新格式：
merge code using unmatched`k'.15.dta, update
keep if _merge==5
drop *`k'
drop code _merge
sort id`i'
compress
compress
saveold m`i'-m`k'.disagree.dta, replace

use m`i'-m`k'.05.dta, clear
merge id`i' using m`i'-m`k'.disagree.dta
drop if _merge==3
drop _merge
append using m`i'-m`k'.disagree.dta

gen code = id`k'+string(revenue`k')+string(employment`k')+string(profit`k')+province`k'
sort code
merge code using unmatched`k'.15.dta, update
drop code _merge
gen code = id`j'+string(revenue`j')+string(employment`j')+string(profit`j')+province`j'
sort code
merge code using unmatched`j'.15.dta, update
drop code _merge
compress
saveold m`i'-m`k'.dta.10.dta, replace

use m`i'-m`k'.dta.10.dta, clear
append using balanced.m`i'-m`j'-m`k'.dta
drop match_status_`i'_`j'
drop match_status_`j'_`k'
drop match_status_`i'_`k'
drop match_method_`i'_`j'
drop match_method_`j'_`k'
drop match_method_`i'_`k'
gen match_status_`i'_`j'_`k'="`i'-`j'-`k'" if id`i'!=""&id`j'!=""&id`k'!=""
replace match_status_`i'_`j'_`k'="`i'-`j' only" if id`i'!=""&id`j'!=""&id`k'==""
replace match_status_`i'_`j'_`k'="`j'-`k' only" if id`i'==""&id`j'!=""&id`k'!=""
replace match_status_`i'_`j'_`k'="`i'-`k' only" if id`i'!=""&id`j'==""&id`k'!=""
replace match_status_`i'_`j'_`k'="`i' no match" if id`i'!=""&id`j'==""&id`k'==""
replace match_status_`i'_`j'_`k'="`j' no match" if id`i'==""&id`j'!=""&id`k'==""
replace match_status_`i'_`j'_`k'="`k' no match" if id`i'==""&id`j'==""&id`k'!=""
compress
saveold unbalanced.`i'-`j'-`k'.dta, replace
}

forval i = 1998(1)2005{
local j=`i'+1
local k=`i'+2

use unbalanced.`i'-`j'-`k'.dta, clear
tab match_status_`i'_`j'_`k'
}

这一步的最终结果是生成unbalanced.`i'-`j'-`k'.dta数据文件，为下一步做好准备。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

西门高

2017-8-10 19:40:13

谢谢分享

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

日新少年

2017-9-13 08:55:08

谢谢分享

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

chukangwu

2017-12-26 10:59:53

thx for sharing

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

942759615@qq.co

2017-12-27 14:13:16

请教楼主一个问题。step 70 需要merge 1:1 code，但运行时发现code不唯一。是否需要先drop掉code重复的值再merge？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

liuyangclick

2017-12-29 15:54:33

942759615@qq.co 发表于 2017-12-27 14:13
请教楼主一个问题。step 70 需要merge 1:1 code，但运行时发现code不唯一。是否需要先drop掉code重复的值再 ...

是的，应该保持一致的

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

点击查看更多内容…

月上蟾

2018-1-21 23:11:57

请问运行到 step 70
use m`i'-m`j'.10.dta,clear
   merge 1:1 code using m`j'-m`k'.10.dta这个命令的时候出现了variable _merge already defined这样的问题怎么解决。
我尝试着在合并之前对需要合并的文件进行了如下操作：
use m`i'-m`j'.10.dta,clear
   drop _merge
use m`j'-m`k'.10.dta,clear
   drop _merge
但是再次运行依然出现来了variable _merge already defined

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

月上蟾

2018-1-21 23:39:51

月上蟾发表于 2018-1-21 23:11
请问运行到 step 70
use m`i'-m`j'.10.dta,clear
merge 1:1 code using m`j'-m`k'.10.dta这个命令的 ...

自己解决了问题了，
use m`i'-m`j'.10.dta,clear
drop _merge
save m`i'-m`j'.10.dta,replace
原来的命令是没有错的，只是没有保存运行结果，这可能是stata在运行文件的时候需要注意的地方，开始修改一个文件就得对应得保存新的文件。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

liuyangclick

2018-1-22 09:53:02

月上蟾发表于 2018-1-21 23:11
请问运行到 step 70
use m`i'-m`j'.10.dta,clear
merge 1:1 code using m`j'-m`k'.10.dta这个命令的 ...

匹配工作过去很久了（半年），很多都忘记了，具体您的情况我也不太清楚啊。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

michaelcxb

2018-2-17 09:35:12

942759615@qq.co 发表于 2017-12-27 14:13
请教楼主一个问题。step 70 需要merge 1:1 code，但运行时发现code不唯一。是否需要先drop掉code重复的值再 ...

drop _m code
请问是用这个命令吗？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

michaelcxb

2018-2-17 09:35:33

liuyangclick 发表于 2017-12-29 15:54
是的，应该保持一致的

drop _m code
请问是用这个命令吗？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

michaelcxb

2018-2-17 10:17:29

942759615@qq.co 发表于 2017-12-27 14:13
请教楼主一个问题。step 70 需要merge 1:1 code，但运行时发现code不唯一。是否需要先drop掉code重复的值再 ...

我出现了variable code does not uniquely identify observations in the master data的问题
请问你是怎么操作解决的？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

michaelcxb

2018-2-17 10:24:21

liuyangclick 发表于 2017-12-29 15:54
是的，应该保持一致的

请问楼主这一步该怎么操作？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

michaelcxb

2018-2-17 20:44:38

942759615@qq.co 发表于 2017-12-27 14:13
请教楼主一个问题。step 70 需要merge 1:1 code，但运行时发现code不唯一。是否需要先drop掉code重复的值再 ...

请问这一步应该在哪里进行？是不是用duplicates drop code？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

liuyangclick

2018-3-7 12:22:11

michaelcxb 发表于 2018-2-17 20:44
请问这一步应该在哪里进行？是不是用duplicates drop code？

时间很久了，不敢说了都忘记了

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

85786020

2018-3-17 14:57:40

楼主，你好。读了你的帖子，受益匪浅。但在做相邻三年间的匹配时，出现了以下错误，请问原因是什么啊？能解决吗？不胜感激

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

85786020

2018-3-17 16:39:01

85786020 发表于 2018-3-17 14:57
楼主，你好。读了你的帖子，受益匪浅。但在做相邻三年间的匹配时，出现了以下错误，请问原因是什么啊？能解 ...

好像应该是解决了，在step70中的sort code下加入以下这行，去重。
duplicates drop code, force
有时间可以一块探讨，我也是stata小白

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

CeciliaLeeli

2018-3-22 17:12:01

85786020 发表于 2018-3-17 16:39
好像应该是解决了，在step70中的sort code下加入以下这行，去重。
duplicates drop code, force
有时间 ...

你好我和你遇见了同样的问题，但是如果直接去重的话，会不会影响数据处理的质量？是不是用merge m:m 呢？可否探讨一下？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

85786020

2018-3-26 12:09:21

CeciliaLeeli 发表于 2018-3-22 17:12
你好我和你遇见了同样的问题，但是如果直接去重的话，会不会影响数据处理的质量？是不是用merge m:m 呢？ ...

确实会影响数据质量，但如果考虑到假如重复的条数只有几十条，我认为这个去重也是合适的。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

CeciliaLeeli

2018-3-26 17:36:45

85786020 发表于 2018-3-26 12:09
确实会影响数据质量，但如果考虑到假如重复的条数只有几十条，我认为这个去重也是合适的。

嗯嗯，确实只能这么处理了，谢谢交流啦

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

1023715119

2018-6-9 00:29:15

请问楼主，我用的数据是2000-2006，在进行相邻三年匹配过程中，在生成unblance 2001-2002-2003时，总是不出现2003 no match，所以导致在这一步中，2003的样本量和原始样本量不一致。但是，其他各个相邻三年的数据样本都是正确的，请问您知道是什么原因吗？
焦急等待回复中，，非常感谢！

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

shineunique

2018-7-28 15:33:08

请问有哪位大神知道这里面的provinece 指得是啥呀，这个1998-2003年没得什么省份的数据啊

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

经少林精舍1

2018-10-26 15:45:26

shineunique 发表于 2018-7-28 15:33
请问有哪位大神知道这里面的provinece 指得是啥呀，这个1998-2003年没得什么省份的数据啊

同问，请问有答案了吗

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

dbdbdbdbt101

2018-10-26 22:19:26

经少林精舍1 发表于 2018-10-26 15:45
同问，请问有答案了吗

没有，我试了下剔除code重复值然后匹配上结果稍微少几千个企业，目前只有这个办法

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

windtalker312

2019-1-3 09:24:20

谢谢楼主分享

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

CAVS960210

2019-1-9 13:32:41

michaelcxb 发表于 2018-2-17 20:44
请问这一步应该在哪里进行？是不是用duplicates drop code？

你好请问一下这个code的意思是用收入和利润匹配吗？这个就算是同一个企业收入和利润不同年份也不一样吧。。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

michaelcxb

2019-1-10 02:56:38

CAVS960210 发表于 2019-1-9 13:32
你好请问一下这个code的意思是用收入和利润匹配吗？这个就算是同一个企业收入和利润不同年份也不一样吧。 ...

是的，但是我们用同一年的收入和利润匹配。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

zwhappying

2019-5-9 15:30:23

请问处理不一致的情况：处理不一致情况（disagreement ） (_merge==5 if "update" is used)：这部分究竟是什么意思，不太明白是做什么的，还望楼主解答，谢谢

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

ww0123

2019-5-22 18:54:41

shineunique 发表于 2018-7-28 15:33
请问有哪位大神知道这里面的provinece 指得是啥呀，这个1998-2003年没得什么省份的数据啊

省份信息是根据省地县码或者行政区划代码匹配得来的

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

FF182

2019-6-23 19:31:11

ww0123 发表于 2019-5-22 18:54
省份信息是根据省地县码或者行政区划代码匹配得来的

请问前面的程序有匹配得到这个变量吗？我按楼主的代码运行，到这一步卡了，没找到省份信息。跪求回答，非常感谢！

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群