下面是一组家庭的例子。hhid08与hhid06分别是08年和06年调查的家庭id。hhid08的家庭成员有各自的ivid08,name08(越南文),gender08,yob08,mob08,relation08。hhid06亦然。
这一组中的问题是原始数据中ivid06的信息不能和同一行的ivid08匹配,可以观察到同一个household的数据有颠倒的现象。现在想以ivid08为基准进行调整。以第一行为例,ivid06与ivid08并非同一个人,但可以观察到
ivid06==60519130240803的信息应该与第四行
ivid08==605191302400804匹配,故将第四行的
ivid06_revised赋值为
60519130240803 (见
蓝色高亮)。下表中的
ivid06_revised即目测检查后的修改结果。
由于数据量非常大因此visual inspection非常耗时,同时原始普查数据存在个别错误,即使能做出判断也存在一些错误,如
name的拼写(见
黄色高亮),
出生年月的误差,
relation的变化(如06年的child在08年可能是head),请问有没有一种算法可以提供精度较高的匹配?本人第一次提问,如有疏忽请予以指出,谢谢。
| hhid08 | hhid06 | ivid08 | ivid06 | ivid06_revised | name08 | name06 |
| 6051913024008 | 605191302408 | 605191302400801 | 60519130240803 | 60519130240801 | h nghüa by¨ | BY¡ Y §¸P |
| 6051913024008 | 605191302408 | 605191302400802 | 60519130240801 | 60519130240807 | y mYp nia | BY¡ H NGHüA |
| 6051913024008 | 605191302408 | 605191302400803 | 60519130240802 | 60519130240808 | h hi¨n by¨ | BY¡ Y S|¥NG |
| 6051913024008 | 605191302408 | 605191302400804 | 60519130240805 | 60519130240803 | BY¡ Y §¸P | NI£ Y DA N¤ |
| 6051913024008 | 605191302408 | 605191302400805 | 60519130240806 | 60519130240804 | y min by¨. | BY¡ H KYNH |
| 6051913024008 | 605191302408 | 605191302400806 | 60519130240807 | 60519130240805 | NI£ Y DA N¤ | NI£ Y MIP |
| 6051913024008 | 605191302408 | 605191302400807 | 60519130240808 | 60519130240806 | BY¡ H KYNH | BY¡ HIAN |
| 6051913024008 | 605191302408 | 605191302400808 | | | BY¡ H trim | |
| 6051913024008 | 605191302408 | | 60519130240804 | | | BY¡ Y MIN |
| gender08 | gender06 | yob08 | yob06 | mob08 | mob06 | relation08 | relation06 |
| Female | Male | 1985 | 1989 | 10 | 7 | Head | Other |
| Male | Female | 1935 | 1985 | 6 | 10 | Parent | Head |
| Female | Male | 1949 | 1987 | 7 | 8 | Parent | Other |
| Male | Male | 1989 | 1980 | 7 | 8 | Other | Spouse |
| Male | Female | 1991 | 2004 | 5 | 11 | Other | Child |
| Male | Male | 1980 | 1935 | 8 | 6 | Other | Parent |
| Female | Female | 2004 | 1949 | 11 | 7 | Child | Parent |
| Female | | 2006 | | 4 | | Child | |
| Male | | 1991 | | 5 | | Other |