小弟在此请教各位大神一个难题:
现在已有一个数据库have,里面有许多个人信息(大概2000条),主要变量有:姓名,性别,出生日期,疾病诊断日期,地址。
想从另一个数据库bb中,包含有以上变量(大概80000条)。
目的:从bb数据中找出并且提取出和自己数据库是同一个人的信息,得到一个数据库Want。
困难地方:1是, 姓名可能会写错,比如拼音同而字不同,如:横和恒; 形似而字不同,比如:凤和风.
2是,出生日期可能不完全一致,甚至年份都相差1-2年。
3是,疾病诊断日期困难不完全一致,尤其是月份和日不同。
4是,地址基本都是一个城市内,但是进一步镇和村,详细度不一致。
传统做法:两个数据合并然后按照姓名排序,用眼睛一个个看比较综合判断。
请问各位大神,能否用SAS程序或者其他电脑程序解决这个难题。或者退一步假设以上2-4条完全一致,只用姓名字段匹配即最简单的按照姓名匹配,提出所要信息。
非常感谢!!!!!