主要是一列年份数据中夹杂着一些字符串,如“0000”“056”,之类的,可能由于工业企业数据库的录入时存在错误,我定义年份数据的时候或是直接将其转化为数值型的时候都会报错
形式
1 1999
2 2011
3 0000
4 56
5 006
5 2003
……将近百万条

,所以人工识别的话就挺麻烦和费时的,所以能否请大神提供个筛选语句,将一部分错误信息去除掉?因为自己刚接触stata,感觉用if,drop等语句,但是不会写,所以能否请各位高手指点下,不甚感激。至于一些如56之类的,我想是用个2013左右的数与其做差,把余数过大的drop掉,不知道可不可行?谢谢各位了