全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 SAS专版
1505 0
2013-09-17
悬赏 10 个论坛币 未解决
现在处理citation和co-author的数据。
问题是author里总有很多名字的variation,需要unique,不知道怎么实现,求帮助。

具体来说,现在有两个dataset
一个是关于人的全名的name.xls 。数据范例如下

name
Candes, Emmanual J
Aldous, David
Brillinger, David R
Dudoit, Sandrine
Jewell, Nicolas P
Mossel, Elchanan
....
一个是关于相应的publication的 pub.xls 数据范例如下

title         authors
11231    Aldous, D; nash, E;
10000     Candes-E; Chan, Q; Wolfgang, P;
19000     Danny, Q; John, Sutton; Mossel, E;
31234           Brillinger DR; Jewell, N;
.....


现在想实现的是把pub.xls里面author的name unique起来。
两个问题
1. 但初步的想法是,在name.xls里面用正则表达式,或者手动(目前) 生成名字的各种variation,大约20个variable吧。然后两个表格去匹配,匹配到了就进行替换,替换为name.xls里面的name,所以是unique的。 问题1 : 在sql里查询包含用contain,可以实现匹配但无法替换。 所以替换只能在data步中实现,在data步中如何做到呢?


2. pub.xls 里面的author并不都记录在name.xls里面。 所以对于剩下的author,我想把last 和first initial一样的看做一个作者,请问有什么办法吗?

我是新手,叙述问题实在冗杂,大家海涵,还望指点!

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群