第一个问题:如何从一个已知的数据集中将具有相同ID的记录(>=2条以上)筛选出来建立一个新的数据集?
举例说明:
| ID | x |
| 450001 | 15 |
| 450001 | 14 |
| 450002 | 12 |
| 450003 | 13 |
| 450012 | 18 |
| 450012 | 19 |
| 450104 | 18 |
| 450104 | 12 |
| 450104 | 15 |
等等....数据集里记录达3万多条且ID编号没有多大规律可循!想要得到这样的结果:
| ID | x |
| 450001 | 15 |
| 450001 | 14 |
| 450012 | 18 |
| 450012 | 19 |
| 450104 | 18 |
| 450104 | 12 |
| 450104 | 15 |
| ... | ... |
| ... | ... |
| ... | ... |
| ... | ... |
| ... | ... |
即具有唯一ID的记录不进入新数据集,具有相同ID 的两条或两条以上的记录进入新数据集;
第二个问题:在建成上述新数据集的基础上可不可以将每个ID变成唯一的一条记录,变量x重新被命名,有几个相同的ID记录就有几个x变量。即想得到这样的形式:
| ID | x1 | x2 | x3 |
| 450001 | 15 | 14 | . |
| 450012 | 18 | 19 | . |
| 450104 | 18 | 12 | 15 |
| ... | ... | ... | ... |
谢谢大家!!!