全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 R语言论坛
1145 6
2021-11-13
悬赏 200 个论坛币 已解决
微信图片_20211113161133.png
红色方框圈住的观测是来自于同一个家庭,他们的householdID是一样的,所以变量children_meet也应该是一样的。在实际的问卷调查中,对于children_meet变量,一个家庭只调查了一个家庭成员,如何参照另一个家庭成员来补齐数据中的NA呢?
注:实际样本量约为20000个。

最佳答案

nieqiang110 查看完整内容

基本思路是先搞出每个家庭的children_meet变量,然后去除缺省值,再每个家庭找一个值,形成新数据。将该数据与原来的数据匹配。我发过代码了,审核不让通过。可以私聊我。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2021-11-13 16:14:22
基本思路是先搞出每个家庭的children_meet变量,然后去除缺省值,再每个家庭找一个值,形成新数据。将该数据与原来的数据匹配。我发过代码了,审核不让通过。可以私聊我。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2021-11-14 06:54:29
你可以尝试使用dplyr的group_by和tidyr的fill配合一下,举个例子
复制代码
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2021-11-16 07:57:52
owenqi 发表于 2021-11-14 06:54
你可以尝试使用dplyr的group_by和tidyr的fill配合一下,举个例子
owenqi老师好,tidyr这个语句是以缺省值下紧邻的数据填补。如果家庭最后一个成员有数据,这个语句就不对了
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2021-11-16 11:11:20
nieqiang110 发表于 2021-11-16 09:41
基本思路是先搞出每个家庭的children_meet变量,然后去除缺省值,再每个家庭找一个值,形成新数据。将该数据 ...
按照您的思路已解决了,先生成只有household和children-meet的数据集,然后删除缺失值,形成类似于字典的文件,然后借助的dplyr中的full-joint函数进行合并即可。
谢谢!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2021-11-16 11:13:01
owenqi 发表于 2021-11-14 06:54
你可以尝试使用dplyr的group_by和tidyr的fill配合一下,举个例子
根据您的提示,我通过dplyr包中的full-joint函数找到了解决方法。
十分感谢!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群