阿狸与桃子 发表于 2016-8-25 01:18 
用duplicates drop只保存相同观测的第一个值。你说的每次drop之后其他变量的su结果不一样可能是因为duplica ...
这种情况不能那样删除
比如CHNS的数据
********************************************
家庭成员的工作记录
户编码 个人 工资 第几个工作
hu id wage job
1 101 5000 1
1 101 2000 2
1 102 1
1 103 1
一个人可能一年有两个工作,如果按照hu id 都是相同的就删除,这不对
明显就是遗漏一个第几个工作的变量这种情况能删除吗?删除哪一个都不对,本来人家一年就是找了2分工作
********************************************************
还是同样数据如下:
户编码 个人 性别 年龄
hu id gender age
1 101 1 52
1 101 2 49
1 103 1 24
1 104 2 20
如果遇到这种情况,很明显一个户里面同一个人怎么可能又不同的年龄和性别呢
这明显就是id错误了
这时候不是剔除样本,而是需要纠错。
****************************************
********************************************************
还是同样数据如下:
户编码 个人 工资 第几个工作
hu id wage job
1 101 5000 1
1 101 2651 2
1 101 2651 2
1 102 6132 1
1 102 6132 1
1 103 4000 1
如果遇到这种情况,才是对录入了2行,才需要剔除
****************************************
重复的时候不是剔除,而是应该查明是什么原因导致的,不同的原因,方式不一样的