全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析与数据挖掘
2104 7
2019-12-05
  我有一份5000人的数据,是12-16年每个人的经济收入,但是当时收集数据的时候,12-14年将低于1万作为最低线,低于这个数值的标注为了too low,而15年则是低于2万的标注为了too low,16年的是5000千。现在这五年的数据要放在一起分析,但是由于最低线的不同导致数据分析有些问题,请问这种情况,应该怎么处理?对我的数据要做怎么的处理呢?

  谢谢大家!!拜托拜托,查阅了许多资料都没找到这种问题怎么解决,万分感谢!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2019-12-5 15:07:02
自顶一下,不要沉呀
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2019-12-5 21:03:09
统一标准后再进行转换。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2019-12-5 21:27:16
kuangsir6 发表于 2019-12-5 21:03
统一标准后再进行转换。
因为各年最低线以下没有记录具体的数值,只标注了“too low”,所以没法统一呢,如果都划到2万的话,会导致这组人达到了3千多,剩下的1千多人的数据平均值就会很高,两条线之间差异过大,导致混杂影响过大。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2019-12-6 20:34:59
对门坐着好多大牛!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2019-12-8 20:40:48
楚天江南客 发表于 2019-12-6 20:34
对门坐着好多大牛!
额,对门是哪里?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群