现在有两个数据集:
数据集A:
序号 | 变量a |
1 | 1423 AB12 |
2 | 241AC 141 |
3 | 112AD1241 |
4 | 656BC1215 |
5 | 123BD234 |
6 | 12CD4621 |
... | ... |
数据集B:
新生成变量c,如果数据集A中的变量a中,包含数据集B变量b中的任意一个值,那么c=b,否则c为空。
希望得到结果:
序号 | 变量a | 变量c |
1 |
1423 AB12
| AB |
2 |
241AC 141
|
|
3
|
112AD1241
| AD |
4 |
656BC1215
|
|
5
|
123BD234
|
|
6
|
12CD4621
| CD |
... | ... | ... |
当然,这只是举个例子,真实数据的变量a,变量b都是由数字和字母构成的。
而且真实数据中,数据A有2000万行,数据B有2万行,如果可以的话,希望还能考虑到效率的问题。
谢谢大家!