stata/python数据清洗

1089

收藏 2024-08-16

请教各位大佬，可能是个有点复杂的问题。我的数据中有以下几个变量：year newzlid 专利类型发明设计人申请人 match。year的值都是一样的；match是对申请人变量操作得来的。现在我想做一个year-match-申请人-专利信息的数据集，意思就是，对于同一个“year-match-申请人”，可能有多个专利信息，我希望这些专利信息可以横向合并。

例如：
year       match 申请人 newzlid 专利类型    发明设计人
2024       M1       A          ZL1       类型1       设计人1
2024       M1       A          ZL2       类型2       设计人2
2024       M1       B          ZL3       类型1       设计人3
2024       M2       A          ZL4       类型1       设计人4

最后得到类似于这样的结果：
2024       M1       A       ZL1       类型1       设计人1       ZL2       类型2       设计人2
2024       M1       B       ZL3       类型1       设计人3       NaN       NaN       NaN
2024       M2       A       ZL4       类型1       设计人4       NaN       NaN       NaN

这在stata中可以直接操作吗？如果不能，Python中的代码应该怎么写？