现在处理citation和co-author的数据。
问题是author里总有很多名字的variation,需要unique,不知道怎么实现,求帮助。
具体来说,现在有两个dataset
一个是关于人的全名的name.xls 。数据范例如下
name
Candes, Emmanual J
Aldous, David
Brillinger, David R
Dudoit, Sandrine
Jewell, Nicolas P
Mossel, Elchanan
....
一个是关于相应的publication的 pub.xls 数据范例如下
title authors
11231 Aldous, D; nash, E;
10000 Candes-E; Chan, Q; Wolfgang, P;
19000 Danny, Q; John, Sutton; Mossel, E;
31234 Brillinger DR; Jewell, N;
.....
现在想实现的是把pub.xls里面author的name unique起来。
两个问题
1. 但初步的想法是,在name.xls里面用正则表达式,或者手动(目前) 生成名字的各种variation,大约20个variable吧。然后两个表格去匹配,匹配到了就进行替换,替换为name.xls里面的name,所以是unique的。 问题1 : 在sql里查询包含用contain,可以实现匹配但无法替换。 所以替换只能在data步中实现,在data步中如何做到呢?
2. pub.xls 里面的author并不都记录在name.xls里面。 所以对于剩下的author,我想把last 和first initial一样的看做一个作者,请问有什么办法吗?
我是新手,叙述问题实在冗杂,大家海涵,还望指点!