全部版块 我的主页
论坛 计量经济学与统计论坛 五区 计量经济学与统计软件 Stata专版
2097 2
2016-05-05
我在导入数据时由于手工操作失误,导致code(证券代码)输入错误。即:
真实的数据为:
code        year        asset
000001    2001        231
000001    2002        234
000001    2003        222
000002    2001       111
000002    2002       100
000002    2003        99
结果在导入数据时将code=000001的数据全部赋予了code=000002,即
code        year        asset
000001    2001        231
000001    2002        234
000001    2003        222
000002    2001        231
000002    2002        234
000002    2003        222
我的问题是如何挑出这些除了code不同外 ,year和asset全部相同的两组或多组数据。这样就可以重新更正数据了。



P.S.造成上述问题的原因是,将code=000001的数据下载下来后保存为000001.xls。由于操作失误,然后重复下载了code=000001的数据,但是,却保存为了000002.xls。所以,就导致出现code不同,但是,year和asset相同的情况。
现在,为了确保数据真实准确,所以,我需要挑出code不同,而year和asset全部相同的数据,重新核对和更正。



望请高手不吝赐教。谢谢。







二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2016-5-5 10:20:40
这个问题的难点在于——在数据导入阶段就错误时,code=000001和code=000002这两组数据,观测值个数相同,变量的赋值相同。所以,仅仅依靠duplicates或者group命令不容易快速定位出存在错误的观测值。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2016-5-5 10:25:27
请高手指点一下。能否使用循环语句或者其他命令将其快速的定位出来。实际应用的情况是手工下载数据时,由于视觉疲劳,容易敲错字母(如本文的code代码)。但是,后来突然发现前面出现了此类错误。而又不知道从何处起出现了此类错误。由于数据量很大,从头逐次检查不切实际。所以,希望在将数据全部下载完毕后,核对数据时,快速的定位出错误之处,从而快速的重新下载和修改。这样效率会更高。所以,请高手不吝赐教。谢谢。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群