全部版块 我的主页
论坛 计量经济学与统计论坛 五区 计量经济学与统计软件 统计软件培训班VIP答疑区
1616 4
2011-12-15

数据处理问题

老师,我最近在处理一个数据集。这是一个面板数据,近600个观察个体(id),近20年的记录。从整体上看,数据比较脏。数据表面中没有缺失值,但有大量的零值。可以肯定地说,其中有些零值应该为缺失值。

当很难区分哪些零值是真正的零,哪些零值实际上为缺失值时,一般如何处理?

a.       将零值统一改为缺失值?显然会存在系统性偏差。

b.       不进行处理?有变量的取值很大,的零值肯定会对估算结果带来大的干扰。

c.       有些情况可以明显地判断出其为缺失值(而非零值),可以将这些零值变化缺失值,是否需要对这些缺失值进行补全? 通常的补全策略是什么?

我采取的策略是(时间跨度为1995-2010年):

第一类:存在一个缺失值

1A.B的情形,统一用AB的平均值来补全中间的缺失值;

21995年的系统缺失:由于该年没有进行统计,我们统一用1996年的值代替。

3)对于2010年值的补全:统一用2009年的非缺省值代替。

第二类:存在两个缺失值

1A..BC情形,我们用AB的平均值来补全第一个缺省值,如即(A+B/2=x,第二个缺省值会按照同样的规则进行补全,即(x+C/2。在此基础上,利用第一类中的(1)方法对A.B的情形进行更新处理。

2..A的情形,其中第一缺省值出现在1995年。我们用A代替1995年的缺省值。在此基础上,利用第一类中的(1)方法对A.B的情形进行更新处理。

3A..情形:其中第二个缺省值出现在2010年。我们用A代替2010年的缺省值。在此基础上,利用第一类中的(1)方法对A.B的情形进行更新处理。

   

        余下来的情形是A…….B的情形(缺失值连续出现高于3次),如何对其修正?

另外,有些变量在时序上出现很大的波动,如一下从几万下降到几十,然后又增加到几万,能不能将中间的那一年看作是异常值?对于一个id在时序上的记录,如何排除异常值?或需要做怎样的处理?

因此,所问的问题可以归结为:缺失值的辨认(真的零值还是假的零值)、处理,以及异常值的处理。

能否提供相关建议。

谢谢。

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2011-12-21 08:59:22
整体而言,我认为直接删除缺失值或许是一个比较干净的做法,虽然可能导致样本选择偏误,但相对于臆想补全缺失值而言,这种处理方法似乎更稳妥一点。

当然,从你说明的情况来看,似乎是一个时序资料,删除缺漏值可能导致无法执行后续分析。此时,你对第一类和第二类缺失值的处理方法我都没有任何异议。但对于第三种情形,就很难进行分析了。你可以考虑使用 Stata 11 新推出的多重补漏分析, help mi (Stata 初级视频 A2_data 部分有详细介绍)。

另外,在公司财务领域,有不少学者为了尽可能多地使用样本,会将缺漏值统一定义为 0,然后另设一个虚拟变量来标注哪些观察值是缺失的,以便在一定程度上进行校正。
参见:Flannery, M. J., K. P. Rangan, 2006, Partial adjustment toward target capital structures, Journal of Financial Economics, 79 (3): 469-506.

p.477R&D_DUM: A dummy variable equal to one for firms with missing R&D expenses.
About 55% of our sample firm-years do not report R&D expenses. For these firms, we
set R&D expense to zero and set R&D_DUM equal to one.
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2011-12-21 21:04:01
谢谢连老师的回答。
我这是一个面板数据。不知道是否适合于论文中的情形。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2011-12-27 10:42:32
我提供的那篇论文也是 Panel Data。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2011-12-28 00:08:58
谢谢。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群