全部版块 我的主页
论坛 计量经济学与统计论坛 五区 计量经济学与统计软件 Stata专版
1873 1
2013-08-27
下面是一组家庭的例子。hhid08与hhid06分别是08年和06年调查的家庭id。hhid08的家庭成员有各自的ivid08,name08(越南文),gender08,yob08,mob08,relation08。hhid06亦然。
这一组中的问题是原始数据中ivid06的信息不能和同一行的ivid08匹配,可以观察到同一个household的数据有颠倒的现象。现在想以ivid08为基准进行调整。以第一行为例,ivid06与ivid08并非同一个人,但可以观察到ivid06==60519130240803的信息应该与第四行ivid08==605191302400804匹配,故将第四行的ivid06_revised赋值为60519130240803 (见蓝色高亮)。下表中的ivid06_revised即目测检查后的修改结果。
由于数据量非常大因此visual inspection非常耗时,同时原始普查数据存在个别错误,即使能做出判断也存在一些错误,如name的拼写(见黄色高亮),出生年月的误差relation的变化(如06年的child在08年可能是head),请问有没有一种算法可以提供精度较高的匹配?本人第一次提问,如有疏忽请予以指出,谢谢。

hhid08hhid06ivid08ivid06ivid06_revisedname08name06
60519130240086051913024086051913024008016051913024080360519130240801h nghüa by¨BY¡ Y §¸P
60519130240086051913024086051913024008026051913024080160519130240807y mYp niaBY¡ H NGHüA
60519130240086051913024086051913024008036051913024080260519130240808h hi¨n by¨BY¡ Y S|¥NG
60519130240086051913024086051913024008046051913024080560519130240803BY¡ Y §¸PNI£ Y DA N¤
60519130240086051913024086051913024008056051913024080660519130240804y min by¨.BY¡ H KYNH
60519130240086051913024086051913024008066051913024080760519130240805NI£ Y DA N¤NI£ Y MIP
60519130240086051913024086051913024008076051913024080860519130240806BY¡ H KYNHBY¡ HIAN
6051913024008605191302408605191302400808BY¡ H trim
605191302400860519130240860519130240804BY¡ Y MIN


gender08gender06yob08yob06mob08mob06relation08relation06
FemaleMale19851989107HeadOther
MaleFemale19351985610ParentHead
FemaleMale1949198778ParentOther
MaleMale1989198078OtherSpouse
MaleFemale19912004511OtherChild
MaleMale1980193586OtherParent
FemaleFemale20041949117ChildParent
Female20064Child
Male19915Other

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2013-8-27 16:12:16
问题不是很清楚,
一、家庭与个人代码分别在08与06年不相同,从你给的数据可看出的差别是08年比06年分别相关一个字符0
如ivid06为60519130240803,ivid08为605191302400804,家庭代码类似,但实际肯定并非如此!
二、此类一般是整理为面板数据,而你好像并不是,所以当数据变量很多时处理有较大不同,不知……
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群