全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 SAS专版
2827 6
2016-04-28
请教大家,如何做到这种识别和匹配?
1、原始数据
1.png

2、字典
3.png

3、预期效果
2.png
附件列表
3.png

原图尺寸 10.39 KB

3.png

1.png

原图尺寸 3.96 KB

1.png

2.png

原图尺寸 5.71 KB

2.png

test.xls

大小:26.5 KB

 马上下载

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2016-4-29 09:08:31
  SAS新手,表示没有什么思路可以直接编程实现,坐等大神解答;

  从楼主提供的数据来看,都是非结构化的数据,想要直接进行匹配感觉有难度,一点解决思路是先对数据进行预处理,转换成结构化数据,比如

  table1
  name    place
  A公司 海淀 
  B公司 和平
  C公司 玄武
  ...

 table2
  province    city    place
  北京       北京 东城
  北京       北京 西城
  ...
  天津       天津 和平
  ...


之后使用SAS merge语句等进行匹配合并就是了,如果数据量小的话,感觉可行,如果数据量大的话,就不好说了,坐等大神

  
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2016-4-30 08:34:17
冯枫Fery 发表于 2016-4-29 09:08
  SAS新手,表示没有什么思路可以直接编程实现,坐等大神解答;

  从楼主提供的数据来看,都是非结构 ...
数据量比较大,可能只能采用自动提取关键词,然后再识别,才能做到。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2016-5-2 05:22:14
可以试试如下思路。
1. 将字典的表转成 long_table, 即每一个县区为一行
2. 将这个 long_table 定义为数据步的 hash-table
3. 对hash table 做循环 (iterate), 用find()函数查找匹配的县区名
4. 用 output 输出找到的县区名
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2016-5-2 10:06:06
yongyitian 发表于 2016-5-2 05:22
可以试试如下思路。
1. 将字典的表转成 long_table, 即每一个县区为一行
2. 将这个 long_table 定义为数 ...
非常感谢您的帮助。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2016-5-2 10:46:09
yongyitian 发表于 2016-5-2 05:22
可以试试如下思路。
1. 将字典的表转成 long_table, 即每一个县区为一行
2. 将这个 long_table 定义为数 ...
更倾向于join

最后一步需要仔细检查duplication,手动选择
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群