多变量分布绘图的说明
具体的图表类型选择需要根据数据情况和展示需求决定。
1、如只有一个类别变量(表1或表2),使用简单的线图或柱形图都可以,线图强调趋势,柱/条形图突出单个数据点。对于和”发生频率“有关的计数分布(表3),一般使用直方图(柱形图)。
表1:日期为类别变量 表2:部门为类别变量 表3:计数区间作为类别变量

2、多类别变量:如本例中的“日期”和“部门”, 数据可使用二维双向表展现。一般做法是将其中一个类别变量绘制在横轴上,另一个类别变量使用颜色、形状等进行区分。
表4:多类别变量

下面的两张图是将日期1-5绘制于横轴,并以不同颜色区分另一类别变量“部门”。可调整文字标签的显示位置以改进显示效果。
图1 图2

3、分布和准确度
1) “准确度”可能采用类似置信区间的数据,即表4中每个单元格内不再是单个数据点,而是由数个配对数据所构成的数值区间。
表5 区间数据(下限-预测值-上限)

为表达区间数据,可对图1或图2进行适当改造,建议使用误差线方法,正向误差的长度设为上限-预测值,负向误差长度设为预测值-下限。下图对“部门2“系列进行了误差线操作,图4在图3基础上进一步取消了线条显示,对比效果:
图3 图4


对柱形图进行误差线操作后也可以实现类似效果,图6进一步将系列1的柱形“隐形”,不同系列的误差线可以用不同颜色进行区分。
图5 图6


2) 使用内置的标准误差或标准偏差衡量:直接启用误差线设置中的对应选项即可。
3) 如有更多描述统计指标,例如最大值、最小值、各四分位值等,推荐使用基于柱形图生产的箱体图(box plot),效果和图6类似。
更多学习文章:http://www.jinduoduo.net/news.php?cid=179