全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析师(CDA)专版
613 0
2022-04-27

作者:小伍哥 来源:小伍哥聊风控

今天放假了回家过年了,分享两个看异常分布的图,很好看,也很实用。不会用或者不会画的,随时私聊我。毕竟现在过年也没啥事。

一、箱线图箱盒图(也称盒图,箱线图等)是在1977年由美国统计学家John Tukey发明,分析数据需要为定量数据。通过箱盒图,可以直观的探索数据特征。箱盒图共有两个用途:1)直观地识别数据中异常值(离群点);2)直观地判断数据离散分布情况,了解数据分布状态。

箱盒图共由五个数值点构成,下边缘,25%分位数(Q1),中位数,75%分位数(Q3),上边缘。其中:

1)中横线 = 中位数

2)下边缘 = Q1 – 1.5 IQR 其中:IQR=75%分位数(Q3)-25%分位数(Q1)

3)上边缘 = Q3 + 1.5 IQR

**特别说明:箱盒图里面的上边缘值并非最大值,下边缘值也不是最小值。**如果数据有存在离群点即异常值,他们超出最大或者最小观察值,此时将离群点以“圆点”形式进行展示。

#安装与加载包install.packages('ggplot2')
library(ggplot2)#抽样部分数据
dsmall = diamonds[sample(nrow(diamonds),5000),]#比较基础的图形
ggplot(dsmall,aes(x=color,y=price,fill=color))+
geom_boxplot()+
scale_fill_manual(values=c('blue','cyan', 'yellow', 'orange', 'red', 'Cyan1', 'DeepPink1'))+
facet_grid(.~clarity )

ggplot(mpg,aes(x=trans,y=displ,fill=trans))+theme_bw()
+geom_boxplot()+theme(plot.title  =element_text(size=20,face="bold",
color="red", hjust=0.5,vjust=0.5,lineheight=0.01,family="myFont"),  
            #axis.title.x=element_text(size=12,face="bold",color="black",hjust=0.5),      
            axis.title.y=element_text(size=12,face="bold",color="black",hjust=0.5),      
            #axis.text.x =element_text(size=08,face="plain",color="black",angle=90,vjust=0.5,lineheight=0.01,family="myFont"),       
            axis.text.y =element_text(size=08,face="plain",color="black",family="myFont"),      
            panel.grid=element_blank(),      
            panel.background = element_blank(),      legend.position='none')

业务中的一些图,不同类目的商品价格,不同城市的消费水平等等,基本上能够一目了然的发现问题。是一个既实用又装逼的图,大家可以试试。

二、密度图

密度图特别适合对比黑白样本同样的特征的分布问题

qplot(carat,data = dsmall,geom = c('density'),
fill = cut,colour = cut)

qplot(depth,data = dsmall,geom = c('density'),
fill = cut,colour = cut,alpha = I(2/10))

qplot(depth,data = dsmall,geom = c('density'),
fill = cut,colour = cut,alpha = I(2/10))

业务中的一些数据对比,为黑白样本同一个特征的分布对比,可以看到有比较大的不同

      相关帖子DA内容精选
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群