全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 R语言论坛
1454 1
2011-09-06
有没有用S-plus处理Panel data 缺失值的啊?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2014-12-19 14:06:30
这个主要看你要用什么样的处理方法和思路——
几种单一的填补方法
①均值填补(mean imputation) 均值填补是用样本中有观测值的均值代替缺失值,可分为非条件均值填补和条件均值填补。非条件均值填补是指对所有的缺失值,用所有观测值的均值进行填补,因此所有填补值都是相同的。条件均值填补是利用辅助信息,对总体进行分层,使各层中的各单 元尽可能相似,然后在每层中用该层有响应单位的均值填补该层中的缺失值。分层均值填补比非条件均值填补的填补效果好。但是均值填补通常改变了变量的 变异程度,低估填补变量的方差。因此一般情况下均 值填补比较适合简单的描述性研究,不适应于较复杂 的需要方差估计的分析。



②演绎填补(deducive imputation) 演绎填补法是通过可以搜集到的复杂资料,依据 逻辑和常规,对缺失数据进行推断,找出填补值。用公式表示就是Z i = f(X i ),其中z i 为第i 个缺失数据的填 补值,X i 是辅助变量,f(* )是根据缺失数据的目标变 量y 与辅助变量 X 之间的逻辑运算关系构造的函数。 该方法操作简单,在有高质量的辅助信息下,可以提供准确或近乎准确的填补值,但其效率很大程度上依赖于辅助资料是否充分。
   
③回归填补(regression imputation) 回归填补是由单元的缺失项对观测项的回归,用预测值代替缺失值。通常由观测变量及缺失变量都有观测的单元进行回归计算。填补中还可以给填补值增 加一个随机成分,这种方法称为随机回归填补。它是用回归填补值加上一个随机项,预测出一个缺失值的替代值,该随机项反映所预测的值的不确定性影响。 随机回归填补法能够较好的利用数据提供的信息,解决因预测变量高度相关引起的共线性问题。




二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群