全部版块 我的主页
论坛 计量经济学与统计论坛 五区 计量经济学与统计软件 Stata专版
865 7
2021-08-26
悬赏 9 个论坛币 已解决
最近在写论文,但是有个问题一直很困扰我,就是我现有多列数据,图片附在最后。然后我想将year列的数十个“1990”合并成1个,同时,“1990”对应的entry和exit列数据也相加。目前尝试了bysort Prvcnm: duplicates drop year和duplicates drop year in Prvcnm==北京市,均报错。请问有什么方法可以实现这个目标啊?本来想着excel整理,但是7万多个数据太多了。非常感谢大家!


最佳答案

我是工作狂2009 查看完整内容

bysort Prvcnm_id year : egen entry_sum =sum(entry) bysort Prvcnm_id year : egen exit_sum =sum(exit) duplicates drop Prvcnm_id year,force drop entry exit indu2 忘记加force了,再试试
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2021-8-26 22:56:15
18373260766 发表于 2021-8-27 10:06
加引号不加我之前都尝试过,是一样的报错。然后您刚才这个方法我试了下,和我之前某个报错一样:
force  ...
bysort Prvcnm_id  year : egen entry_sum =sum(entry)
bysort Prvcnm_id  year : egen exit_sum   =sum(exit)
duplicates drop Prvcnm_id  year,force
drop entry exit indu2
忘记加force了,再试试
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2021-8-26 23:14:03
好像图片我这边没显示出来,那我直接贴一段核心数据(有些数据会干扰,所以就不用dataex贴了)
year      Prvcnm       Prvcnm_id        entry        exit     indu2(行业代码,合并时可以忽略)
1990     北京市           31                  15            6         52   
1990     北京市           31                  20            5         45
1990     北京市           31                  18            4         48
1991     北京市           31                  30            1         51
1991     北京市           31                  34            7         30
1992     北京市           31                  14            2         27
1990     天津市           12                  13            5         34
1990     天津市           12                  24            3         99
1990     天津市           12                  32            3         65
..........
时间是1980-2017,Prvcnm是有32个省直辖市,entry和exit都要加和保留,indus2可以删掉。麻烦大家啦!不胜感激
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2021-8-27 09:35:05
bysort Prvcnm_id  year : egen entry_sum =sum(entry)
bysort Prvcnm_id  year : egen exit_sum   =sum(exit)
duplicates drop Prvcnm_id  year
drop entry exit indu2
尽量用数值变量Prvcnm_id  不要用字符变量Prvcnm
用字符变量要加引号的,例如:drop if Prvcnm  == "北京市"

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2021-8-27 10:06:43
我是工作狂2009 发表于 2021-8-27 09:35
bysort Prvcnm_id  year : egen entry_sum =sum(entry)
bysort Prvcnm_id  year : egen exit_sum   =sum( ...
加引号不加我之前都尝试过,是一样的报错。然后您刚才这个方法我试了下,和我之前某个报错一样:
force option required with duplicates drop varlist。我这个数据表是经过合并处理(字符串转化为数值)的,请问会是因为这个问题吗?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2021-8-27 10:34:10
我是工作狂2009 发表于 2021-8-27 10:22
bysort Prvcnm_id  year : egen entry_sum =sum(entry)
bysort Prvcnm_id  year : egen exit_sum   =sum ...
good。看来还是我对报错的意思不了解,现在都清楚了,非常感谢啦
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群