数据查重请教 - Stata专版

2097

收藏 2016-05-05

我在导入数据时由于手工操作失误，导致code（证券代码）输入错误。即：
真实的数据为：
code       year       asset
000001 2001       231
000001 2002       234
000001 2003       222
000002 2001    111
000002 2002    100
000002 2003       99
结果在导入数据时将code=000001的数据全部赋予了code=000002，即
code       year       asset
000001 2001       231
000001 2002       234
000001 2003       222
000002 2001       231
000002 2002       234
000002 2003       222
我的问题是如何挑出这些除了code不同外，year和asset全部相同的两组或多组数据。这样就可以重新更正数据了。

P.S.造成上述问题的原因是，将code=000001的数据下载下来后保存为000001.xls。由于操作失误，然后重复下载了code=000001的数据，但是，却保存为了000002.xls。所以，就导致出现code不同，但是，year和asset相同的情况。
现在，为了确保数据真实准确，所以，我需要挑出code不同，而year和asset全部相同的数据，重新核对和更正。

望请高手不吝赐教。谢谢。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

gavin4403

2016-5-5 10:20:40

这个问题的难点在于——在数据导入阶段就错误时，code=000001和code=000002这两组数据，观测值个数相同，变量的赋值相同。所以，仅仅依靠duplicates或者group命令不容易快速定位出存在错误的观测值。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

gavin4403

2016-5-5 10:25:27

请高手指点一下。能否使用循环语句或者其他命令将其快速的定位出来。实际应用的情况是手工下载数据时，由于视觉疲劳，容易敲错字母（如本文的code代码）。但是，后来突然发现前面出现了此类错误。而又不知道从何处起出现了此类错误。由于数据量很大，从头逐次检查不切实际。所以，希望在将数据全部下载完毕后，核对数据时，快速的定位出错误之处，从而快速的重新下载和修改。这样效率会更高。所以，请高手不吝赐教。谢谢。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群