枚举型变量的缺失值估计

1884

收藏 2014-07-08

问题很简单。有一个客户清单表，其中有“性别”变量大约有10%的纪录此字段缺失/

但性别变量和姓名变量应该是有强相关性的

所以我觉得应该可以通过姓名来估算性别

例如
李刚 --> 男
张红 --> 女

如果靠人工去筛选这些类似“刚”、“红”一类的具有明显性别特征的字大约也可以解决。但是时间和效率有限。

各位大虾看一看，能否通过一些机器学习算法（无监督）的，在已有训练样本集上，对这种姓名-->性别关系做一个学习，然后用于对缺失数据作预测

真心求大虾们赐教，给出思路也可以+。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群