全部版块 我的主页
论坛 计量经济学与统计论坛 五区 计量经济学与统计软件 Stata专版
1146 5
2024-08-28
请教各位大佬,处理数据的时候卡在这一步了。我的数据中有以下几个变量:var1 var2 var3 var4

var1        var2       var3     var4
2024       M1          A        abc
2024       M1          A        def
2024       M1          B        opq
2024       M2          A        rst

最后我是希望得到 当
var1、var2、var3相同时,var4合并到同一行,也就是类似以下的结果

var1        var2       var3     var41        var42
2024        M1        A          abc           def
2024        M1        B          opq  
2024        M2        A          rst


当然,实际上的数据量非常非常大,有将近五百万条的观测,并且合并后会形成大量的var41,var42,var43....(会超过stata能容纳的列数),由于数据量太大,用stata的reshape功能无法实现我想要的效果,所以我也试过让最后呈现的效果是这样,也就是不新增列数,但是还是没法达成我想要的结果。
var1        var2       var3     var4
2024        M1        A          abc+def
2024        M1        B          opq  
2024        M2        A          rst

python也试过了,还是无法处理,想问下有人知道这种情况应该怎么办吗



二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2024-8-28 17:02:57
你发社科之家网站试试呢 那里经验贴蛮多的
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2024-8-30 01:04:49
用reshape的思路是对的。如果数据量过大,可以分年度循环处理,然后将年度数据append到一起。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2024-8-30 20:33:19
逍遥梦蝶 发表于 2024-8-30 01:04
用reshape的思路是对的。如果数据量过大,可以分年度循环处理,然后将年度数据append到一起。
这就是一年的(哭)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2024-8-30 20:34:37
xujianxiang 发表于 2024-8-28 17:02
你发社科之家网站试试呢 那里经验贴蛮多的
好的我去试试,感谢~
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2024-8-31 16:00:05
科研吗喽 发表于 2024-8-30 20:33
这就是一年的(哭)
那就按var1 var2分组处理。思路是一样的。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群