全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 SAS专版
2663 3
2016-09-04
小弟在此请教各位大神一个难题:
现在已有一个数据库have,里面有许多个人信息(大概2000条),主要变量有:姓名,性别,出生日期,疾病诊断日期,地址。
想从另一个数据库bb中,包含有以上变量(大概80000条)。
目的:从bb数据中找出并且提取出和自己数据库是同一个人的信息,得到一个数据库Want。

困难地方:1是, 姓名可能会写错,比如拼音同而字不同,如:横和恒; 形似而字不同,比如:凤和风.
2是,出生日期可能不完全一致,甚至年份都相差1-2年。
3是,疾病诊断日期困难不完全一致,尤其是月份和日不同。
4是,地址基本都是一个城市内,但是进一步镇和村,详细度不一致。

传统做法:两个数据合并然后按照姓名排序,用眼睛一个个看比较综合判断。

请问各位大神,能否用SAS程序或者其他电脑程序解决这个难题。或者退一步假设以上2-4条完全一致,只用姓名字段匹配即最简单的按照姓名匹配,提出所要信息。
非常感谢!!!!!

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2016-9-4 16:58:48
我不懂 SAS,但认为 Stata 可以"有些"帮助!我之所谓"有些"乃是因为你的资料(不是因为 Stata)完全违反一般的合并原则,所以你可以先"大致"先用 SAS or Stata 合并(对于那些资料一致的),然后再花一些"洪荒之力"去人工校正!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2016-9-4 17:02:49
黃河泉 发表于 2016-9-4 16:58
我不懂 SAS,但认为 Stata 可以"有些"帮助!我之所谓"有些"乃是因为你的资料(不是因为 Stata)完全违反一般 ...
感谢回复!数据库存在问题的确很多,但是数据量太大,已经用了洪荒之力,疯了后才来求教!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2016-9-4 17:12:41
bookkeeper 发表于 2016-9-4 17:02
感谢回复!数据库存在问题的确很多,但是数据量太大,已经用了洪荒之力,疯了后才来求教!
加油!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群