全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析与数据挖掘
1811 0
2014-07-08
问题很简单。有一个客户清单表,其中有“性别”变量大约有10%的纪录此字段缺失/

但性别变量和姓名变量应该是有强相关性的

所以我觉得应该可以通过姓名来估算性别

例如
李刚  --> 男
张红  --> 女

如果靠人工去筛选这些类似“刚”、“红”一类的具有明显性别特征的字大约也可以解决。但是时间和效率有限。

各位大虾看一看,能否通过一些机器学习算法(无监督)的,在已有训练样本集上,对这种 姓名-->性别 关系做一个学习,然后用于对缺失数据作预测

真心求大虾们赐教,给出思路也可以+。

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群