全部版块 我的主页
论坛 计量经济学与统计论坛 五区 计量经济学与统计软件 Stata专版
1180 3
2015-01-06
主要是一列年份数据中夹杂着一些字符串,如“0000”“056”,之类的,可能由于工业企业数据库的录入时存在错误,我定义年份数据的时候或是直接将其转化为数值型的时候都会报错
形式
1   1999
2   2011
3   0000
4       56
5     006
5   2003
……将近百万条,所以人工识别的话就挺麻烦和费时的,所以能否请大神提供个筛选语句,将一部分错误信息去除掉?因为自己刚接触stata,感觉用if,drop等语句,但是不会写,所以能否请各位高手指点下,不甚感激。至于一些如56之类的,我想是用个2013左右的数与其做差,把余数过大的drop掉,不知道可不可行?谢谢各位了
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2015-1-6 18:49:17
好像理解错了,这列好像都是字符型吧,转化不了。encode好像也不行,destring报错了
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-1-6 19:08:14
hy32gt 发表于 2015-1-6 18:49
好像理解错了,这列好像都是字符型吧,转化不了。encode好像也不行,destring报错了
destring var,replace force

最后加个force试试
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-1-7 11:15:58
SpencerMeng 发表于 2015-1-6 19:08
destring var,replace force

最后加个force试试
恩恩,谢谢了,不过已经采用real命令解决了
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群