关于成对删除（pairwise）和成列删除（ listwise) 数据的疑问

40508

收藏 2010-06-24

悬赏 10 个论坛币已解决

成列删除的意思是否是如果一个个案(case) 中有若干个变量数据，其中某一个或者多个变量数据缺失，那么这个案（case）中所有的数据就会被删掉不纳入计算，而且貌似spss 17的默认设置就是如此，另外一个成列(listwise)删除，就是说如果用到了某个个案中缺失的数据就会自动将此个案删除，但是在对其他无缺失数据的变量进行计算时，此个案还是被纳入计算的。我的理解对么？第二，如何在spss 中设置这两种数据删除方式？谢谢。

最佳答案

meimeizeng 查看完整内容

缺失值处理1，删除或报告缺失值（一般位于处理方法的options的对话框中）（缺失值较少时采用）包括两种1，exclude cases analysis by analysis (一次选中多个变量进行同类分析时，分析中用到的变量有缺失值，则将相应的记录去除。把缺失的变量删除，默认的处理方法)2，exclude cases listwise（一次选中多个变量进行同类分析，只要变量中将会被分析的变量有缺失值则将所有分析中将该记录）2，missing value analysis过程主要功 ...

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

meimeizeng

2010-6-24 10:41:53

缺失值处理

1，删除或报告缺失值（一般位于处理方法的options的对话框中）（缺失值较少时采用）

包括两种1，exclude cases analysis by analysis (一次选中多个变量进行同类分析时，分析中用到的变量有缺失值，则将相应的记录去除。把缺失的变量删除，默认的处理方法)2，exclude cases listwise（一次选中多个变量进行同类分析，只要变量中将会被分析的变量有缺失值则将所有分析中将该记录）

2，missing value analysis过程

主要功能有以下三种：

1，缺失值的描述和快速判断（用户可以看到缺失值的位置，比例，是否在配对变量中出现、数据是否随机缺失等等。主要由missing value analysis中的patterns和descriptives实现）

2，获得更精确的统计量（获得估计含缺失值数据的均数、标准差、协方差矩阵、相关矩阵。方法有列表状态删除、配对状态删除、期望最大化和回归）

3，用估计值替代缺失值（em和回归算法）用户可以从确实数据的情况中推算出缺失数据的估计值从而能有效的使用所有数据进行分析，提高统计结果的可信度。

使用条件

Listwise deletion 列表状态删除在进行统计量的计算时，把含有缺失值的记录删除，这种方法可以用于计算全体无缺失值数据的均数、协方差和标准差

Pairwise deletion 配对状态删除适用于两两配对的变量，如果某条记录在其中一个配对变量中的数据缺失，则在进行这对配对变量的统计量计算时把含有缺失值的数据删除，在计算其他变量的统计量时不受影响。这种方法可以用于计算配对变量在无缺失值的情况下其频数、均数、标准差、协方差、协方差矩阵和相关矩阵。

EM 期望最大化当数据缺失较多，变量间可能呈曲线联系时使用这种方法更为适宜。EM的计算原理比较复杂，不多做解释。

Regression 回归使用所有被选入的连续变量为自变量，存在缺失值的变量为因变量建立回归方程，在得到回归方程后使用此方程对因变量相应的缺失值进行填充具体的填充数值为回归预测值加上任意一个回归残差使它更接近实际情况。当数据缺失比较少，缺失机制比较明确时可以选用这种方法。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

meimeizeng

2011-3-14 09:49:45

晕，这个问题我也是得不到解决。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

meimeizeng

2011-3-14 15:40:13

我现在知道了：缺失值处理
1，删除或报告缺失值（一般位于处理方法的options的对话框中）（缺失值较少时采用）
包括两种1，exclude cases analysis by analysis (一次选中多个变量进行同类分析时，分析中用到的变量有缺失值，则将相应的记录去除。把缺失的变量删除，默认的处理方法)2，exclude cases listwise（一次选中多个变量进行同类分析，只要变量中将会被分析的变量有缺失值则将所有分析中将该记录）
2，missing value analysis过程
主要功能有以下三种：
1，缺失值的描述和快速判断（用户可以看到缺失值的位置，比例，是否在配对变量中出现、数据是否随机缺失等等。主要由missing value analysis中的patterns和descriptives实现）
2，获得更精确的统计量（获得估计含缺失值数据的均数、标准差、协方差矩阵、相关矩阵。方法有列表状态删除、配对状态删除、期望最大化和回归）
3，用估计值替代缺失值（em和回归算法）用户可以从确实数据的情况中推算出缺失数据的估计值从而能有效的使用所有数据进行分析，提高统计结果的可信度。
使用条件
Listwise deletion 列表状态删除在进行统计量的计算时，把含有缺失值的记录删除，这种方法可以用于计算全体无缺失值数据的均数、协方差和标准差
Pairwise deletion 配对状态删除适用于两两配对的变量，如果某条记录在其中一个配对变量中的数据缺失，则在进行这对配对变量的统计量计算时把含有缺失值的数据删除，在计算其他变量的统计量时不受影响。这种方法可以用于计算配对变量在无缺失值的情况下其频数、均数、标准差、协方差、协方差矩阵和相关矩阵。
EM 期望最大化当数据缺失较多，变量间可能呈曲线联系时使用这种方法更为适宜。EM的计算原理比较复杂，不多做解释。
Regression 回归使用所有被选入的连续变量为自变量，存在缺失值的变量为因变量建立回归方程，在得到回归方程后使用此方程对因变量相应的缺失值进行填充具体的填充数值为回归预测值加上任意一个回归残差使它更接近实际情况。当数据缺失比较少，缺失机制比较明确时可以选用这种方法。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

dachengruoque

2011-3-15 10:54:14

谢谢你的热心解释！

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

meimeizeng

2011-3-17 16:34:54

您好！我是数据挖掘方向的学生，我现在做的是矿山的数据缺失处理，可能用线性回归的方法处理不太妥当。我想先把这个算法和线性回归的用法搞清楚。请多多指教，谢谢！

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

点击查看更多内容…

最佳答案

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群