经管之家App
让优质教育人人可得
立即打开
全部版块
我的主页
›
论坛
›
数据科学与人工智能
›
数据分析与数据科学
›
数据分析与数据挖掘
枚举型变量的缺失值估计
楼主
shenyingshizhe
1884
0
收藏
2014-07-08
问题很简单。有一个客户清单表,其中有“性别”变量大约有10%的纪录此字段缺失/
但性别变量和姓名变量应该是有强相关性的
所以我觉得应该可以通过姓名来估算性别
例如
李刚 --> 男
张红 --> 女
如果靠人工去筛选这些类似“刚”、“红”一类的具有明显性别特征的字大约也可以解决。但是时间和效率有限。
各位大虾看一看,能否通过一些机器学习算法(无监督)的,在已有训练样本集上,对这种 姓名-->性别 关系做一个学习,然后用于对缺失数据作预测
真心求大虾们赐教,给出思路也可以+。
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
相关推荐
机器学习算法总汇
分享《机器学习算法原理与编程实践》电子版
机器学习算法一览
基于机器学习算法的前列腺癌诊断模型研究
机器学习算法在绿色智能化汽车发展及研究中的应用展望
大数据环境下机器学习算法趋势研究
有监督机器学习算法在计量装置电压异常诊断中的应用
基于机器学习算法的大数据处理
基于机器学习算法的人脸识别鲁棒性研究
【学习笔记】机器学习算法结束啦,还得从头梳理!!
栏目导航
数据分析与数据挖掘
经管文库(原现金交易版)
微观经济学
EViews专版
会计与财务管理
宏观经济学
热门文章
表格结构数据特征与CDA数据分析师:精准适配 ...
新宏观丨豆包,传统经济学与商学对全球性债 ...
几何(第五卷)[法] M. 贝尔热
几何(第四卷)[法] M. 贝尔热
问卷填写,每份50个论坛币
奇瑞QQ焕新归来
CDA数据分析脱产就业班于2026年3月7日开班! ...
表格结构数据的核心特征及具象实例解析
湖南统计年鉴2025(Excel版)
中外历史年代对照表
推荐文章
2026JG学术冬训营:从Stata初高到Python机器 ...
【必看】【本版版规,欢迎发悬赏贴求助】
26年寒假天津站|Gemini论文写作&数据分析 ...
关于如何利用文献的若干建议
关于学术研究和论文发表的一些建议
关于科研中如何学习基础知识的一些建议 (一 ...
一个自编的经济学建模小案例 --写给授课本科 ...
AI智能体赋能教学改革: 全国AI教育教学应用 ...
2025中国AIoT产业全景图谱报告-406页
关于文献求助的一些建议
说点什么
分享
微信
QQ空间
QQ
微博
扫码加好友,拉您进群
各岗位、行业、专业交流群