全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 R语言论坛
4906 6
2018-01-04
要处理的数据是次品率的数据,范围在0~100之间。
这一列数据里有接近一半是0,非零的数据也是严重右偏的,分布密度曲线如图。 def_nozero.jpeg 本来是想取对数来做分类的箱线图的,因为数据中有大量的零所以没办法直接取对数处理。可以加1或者加一个很小的数再取对数吗?哪种方法比较合理(能更好地观测数据的分布情况)?

另外,数据中还有几个次品率为100的样本,作箱线图基本上会将他们全部当作离群点。有什么合适的统计图或者数据的预处理方式可以更好地帮助分析数据呢?谢谢大家了!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2018-1-4 15:23:19
dddddddd
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2018-1-4 18:21:59
零膨胀泊松回归
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2018-1-4 22:56:01
你先做一下最基本的描述性分析,看是否最小值小于等于0?如果是的话,可以加一个偏移值,使所有数据均为正数,然后使用box-cox转换得到新的数据X‘,一般来说,对于偏态分布数据用对数转换是比较好的。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2018-1-5 09:48:39
慕目穆木 发表于 2018-1-4 18:21
零膨胀泊松回归
十分感谢,我先学习学习
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2018-1-5 09:59:44
zhangok 发表于 2018-1-4 22:56
你先做一下最基本的描述性分析,看是否最小值小于等于0?如果是的话,可以加一个偏移值,使所有数据均为正数 ...
谢谢回复!
所有数据都是非负的。但是无论box-cox还是对数转换,都没办法根本解决有半数的数据是零的这个问题,箱线图中下四分位数和中位数都是0,感觉不能很好展现这组数据的信息,可能是数据本身的问题吧。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群