CDA 数据分析师：统计制图实战指南 —— 让数据规律可视化传递

› 论坛 › 数据科学与人工智能 › 数据分析与数据科学 › 数据分析师（CDA）专版

AIU人工智能学院

1132

收藏 2025-10-27

对 CDA（Certified Data Analyst）数据分析师而言，“统计制图” 绝非 “用工具画好看的图”，而是 “将统计分析得出的数据规律，通过适配的图表直观传递，支撑业务决策” 的核心技能。优秀的统计制图能让 “复购用户客单价是新用户 1.8 倍” 这类抽象结论，转化为一眼可懂的对比图表；反之，不当的图表会掩盖数据真相，甚至误导决策。本文聚焦 CDA 分析师必备的统计制图能力，覆盖核心认知、图表适配方法、全流程实操与实战案例，助力高效实现 “数据→图表→决策” 的转化。

一、核心认知：统计制图的本质与 CDA 分析师的核心价值

（一）统计制图的本质与目标

统计制图（Statistical Charting）是 “将统计分析后的数据集，通过图形元素（如柱状、折线、散点）映射数据关系，直观呈现数据规律的过程”。其核心目标不是 “美观”，而是：

简化认知：将复杂数据规律（如多维度销售额对比）转化为直观图形，降低理解门槛（如用分组柱状图快速区分不同门店业绩）；
突出重点：聚焦核心结论（如 “10 月销售额环比下降 15%”），通过图表设计（如红色标注下降区间）强化关键信息；
传递逻辑：展现数据间的关联（如 “广告投入与销售额的正相关”），支撑业务判断。

（二）CDA 分析师与普通统计制图的核心差异

普通统计制图常陷入 “为画而画” 的误区，而 CDA 分析师的统计制图始终围绕 “业务价值” 展开，两者差异显著：

对比维度	普通统计制图	CDA 分析师统计制图
目标导向	追求 “美观炫酷”（如 3D 饼图、渐变配色）	追求 “传递信息”（如用简洁柱状图对比业绩，突出差异）
图表选择	凭经验或喜好选择（如用饼图展示 10 个分类）	按 “数据类型 + 业务目标” 适配（如多分类对比用柱状图，不用饼图）
数据适配	直接用原始数据画图（含异常值、冗余信息）	先做数据预处理（如剔除异常值、聚合维度），确保图表反映真实规律
逻辑传递	仅展示数据，无结论关联（如图表下无业务解读）	图表 + 结论联动（如图表标注 “门店 A 销售额领先，建议复制其运营策略”）

（三）CDA 分析师在统计制图中的核心角色

CDA 分析师是 “数据规律的可视化翻译者”，而非 “图表绘制者”，其核心价值体现在三方面：

业务与图表的适配者：将 “分析用户消费分层” 的业务需求，转化为 “用箱线图展示不同层级用户客单价分布” 的制图方案；
数据质量的把关者：制图前处理异常值、聚合冗余维度（如 “按月份聚合日销售数据”），避免图表传递错误信息；
结论传递的设计者：通过图表标注、配色、图例设计，引导读者快速捕捉核心结论（如用红色箭头标注销售额下降趋势）。

二、CDA 分析师必备：统计制图核心方法（按数据类型适配）

统计制图的核心是 “数据类型与业务目标匹配图表类型”。CDA 分析师需熟练掌握 “数值型、分类型、关系型、时间序列型” 四大数据类型的适配图表，确保每一张图都 “有逻辑、有价值”。

（一）数值型数据：展现分布与差异

数值型数据（如用户年龄、订单金额、消费频次）聚焦 “分布特征、极端值、组间差异”，核心图表包括直方图、箱线图、小提琴图。

1. 直方图：展现数值分布规律

适用场景：分析数据的频率分布（如 “订单金额是否集中在 100-300 元”“用户年龄分布是否呈正态”）；
核心逻辑：将数值区间划分为 “bins”，用柱高表示每个区间的样本数量，直观呈现分布形态（如右偏、对称）；
业务案例：电商订单金额分布分析，判断主流消费价位。

代码实现：

import pandas as pd

import matplotlib.pyplot as plt

import seaborn as sns

plt.rcParams\['font.sans-serif'] = \['SimHei']  # 解决中文显示问题

\# 1. 加载数据（电商订单数据）

df = pd.read\_csv("电商订单数据.csv")

order\_amount = df\["订单金额"]  # 数值型数据：订单金额

\# 2. 统计制图：直方图（含核密度曲线，强化分布趋势）

plt.figure(figsize=(10, 6))

\# 直方图：bins=30控制区间数量，edgecolor=黑色描边避免柱体粘连

sns.histplot(

   data=df,

   x="订单金额",

   bins=30,

   kde=True,  # 显示核密度曲线

   color="#2ca02c",

   edgecolor="black"

)

\# 标注核心统计信息（均值、中位数）

mean\_val = order\_amount.mean()

median\_val = order\_amount.median()

plt.axvline(mean\_val, color="red", linestyle="-", label=f"均值：{mean\_val:.0f}元")

plt.axvline(median\_val, color="orange", linestyle="--", label=f"中位数：{median\_val:.0f}元")

\# 图表优化：标题、标签、图例

plt.title("电商订单金额分布（主流区间：100-300元）")

plt.xlabel("订单金额（元）")

plt.ylabel("订单数量")

plt.legend()

plt.show()

2. 箱线图：突出极端值与离散程度

适用场景：对比多组数值数据的离散程度（如 “不同门店日销售额的波动差异”）、识别极端值（如 “异常大额订单”）；
核心逻辑：通过 “四分位距（Q1-Q3）、中位数、须线、异常值” 展示数据分布，不受极端值干扰，聚焦整体离散特征；
业务案例：零售行业不同门店销售额稳定性对比，定位波动异常的门店。

代码实现：

import pandas as pd

import matplotlib.pyplot as plt

import seaborn as sns

plt.rcParams\['font.sans-serif'] = \['SimHei']

\# 1. 加载数据（门店销售数据）

df = pd.read\_csv("门店销售数据.csv")

\# 筛选核心门店（避免分类过多）

core\_stores = \["门店A", "门店B", "门店C", "门店D"]

df\_core = df\[df\["门店ID"].isin(core\_stores)]

\# 2. 统计制图：箱线图（对比多门店销售额离散程度）

plt.figure(figsize=(10, 6))

sns.boxplot(

   data=df\_core,

   x="门店ID",

   y="日销售额",

   palette="Set2",  # 配色方案，区分不同门店

   linewidth=2  # 线条宽度，增强可读性

)

\# 标注异常值说明

plt.text(3.5, 80000, "圆点为异常值\n（超出1.5倍四分位距）", fontsize=10, bbox=dict(facecolor='white', alpha=0.8))

\# 图表优化

plt.title("核心门店日销售额分布（门店C波动最大，需重点排查）")

plt.xlabel("门店ID")

plt.ylabel("日销售额（元）")

plt.xticks(rotation=0)  # 门店ID标签水平显示

plt.show()

（二）分类型数据：展现占比与对比

分类型数据（如用户性别、商品品类、城市级别）聚焦 “类别占比、组间数量对比”，核心图表包括柱状图、饼图、环形图。

1. 柱状图：组间数量对比首选

适用场景：对比多组分类数据的数量 / 均值（如 “不同商品品类的销售额对比”“各城市用户数量对比”）；
核心逻辑：用柱高表示分类的数值大小，分类清晰，对比直观，支持多分类（建议≤8 个）；
业务案例：电商平台各商品子品类销售额排名，定位核心品类。

代码实现：

import pandas as pd

import matplotlib.pyplot as plt

import seaborn as sns

plt.rcParams\['font.sans-serif'] = \['SimHei']

\# 1. 加载数据（电商商品销售数据）

df = pd.read\_csv("商品销售数据.csv")

\# 按子品类聚合销售额（分类型数据：子品类；数值数据：销售额）

category\_sales = df.groupby("子品类")\["销售额"].sum().reset\_index()

\# 按销售额降序排序，突出排名

category\_sales\_sorted = category\_sales.sort\_values("销售额", ascending=False)

\# 2. 统计制图：水平柱状图（分类名称较长时更友好）

plt.figure(figsize=(10, 6))

sns.barplot(

   data=category\_sales\_sorted,

   x="销售额",

   y="子品类",

   palette="viridis",  # 渐变色，强化排名视觉效果

   edgecolor="black"

)

\# 标注销售额数值（精准传递信息）

for i, value in enumerate(category\_sales\_sorted\["销售额"]):

   plt.text(value + 5000, i, f"{value:.0f}元", va="center")  # 数值标注在柱体右侧

\# 图表优化

plt.title("电商商品子品类销售额排名（连衣裙为核心品类，占比超30%）")

plt.xlabel("销售额（元）")

plt.ylabel("商品子品类")

plt.xlim(0, max(category\_sales\_sorted\["销售额"]) \* 1.1)  # 调整x轴范围，避免数值超出图表

plt.show()

2. 饼图 / 环形图：类别占比展示

适用场景：展示单一分类变量的占比分布（如 “支付方式占比”“用户会员等级占比”）；
核心逻辑：用扇区面积表示类别占比，总和为 100%，仅适用于分类数量≤5 个的场景，避免扇区过小难以区分；
业务案例：电商用户支付方式占比分析，指导支付渠道合作策略。

代码实现：

import pandas as pd

import matplotlib.pyplot as plt

plt.rcParams\['font.sans-serif'] = \['SimHei']

\# 1. 加载数据（电商用户支付数据）

df = pd.read\_csv("用户支付数据.csv")

\# 统计各支付方式占比（分类型数据：支付方式）

payment\_count = df\["支付方式"].value\_counts()

payment\_ratio = payment\_count / payment\_count.sum() \* 100  # 计算占比（%）

\# 2. 统计制图：环形图（比饼图更易突出中心信息）

plt.figure(figsize=(8, 8))

\# 绘制环形图：wedgeprops控制环的宽度

wedges, texts, autotexts = plt.pie(

   payment\_count.values,

   labels=payment\_count.index,

   autopct="%1.1f%%",  # 显示占比（保留1位小数）

   startangle=90,  # 起始角度，使图表更美观

   wedgeprops=dict(width=0.3, edgecolor="white")  # 环形宽度与边框颜色

)

\# 优化文本样式（避免重叠、增强可读性）

for autotext in autotexts:

   autotext.set\_color("black")

   autotext.set\_fontsize(10)

\# 中心标注总样本量

plt.text(0, 0, f"总支付次数\n{payment\_count.sum()}次", ha="center", va="center", fontsize=12)

\# 图表优化

plt.title("电商用户支付方式占比（微信支付占比最高，达45.2%）")

plt.axis("equal")  # 保证饼图为正圆形

plt.show()

（三）关系型数据：展现变量关联

关系型数据（如 “消费频次与复购率”“广告投入与销售额”）聚焦 “两个或多个变量的关联强度与趋势”，核心图表包括散点图、热力图。

1. 散点图：直观展示变量关联趋势

适用场景：分析两个数值变量的线性 / 非线性关联（如 “用户消费频次与复购率的关系”“商品价格与销量的关系”）；
核心逻辑：以 x 轴为自变量、y 轴为因变量，每个点代表一个样本，通过点的分布趋势判断关联方向（正相关、负相关）；
业务案例：电商平台广告投入与销售额关联分析，判断广告效果。

代码实现：

import pandas as pd

import matplotlib.pyplot as plt

import seaborn as sns

from scipy import stats

plt.rcParams\['font.sans-serif'] = \['SimHei']

\# 1. 加载数据（广告投放数据）

df = pd.read\_csv("广告投放数据.csv")

\# 两个数值变量：广告投入（x）、销售额（y）

ad\_input = df\["广告投入（万元）"]

sales = df\["销售额（万元）"]

\# 2. 统计分析：计算皮尔逊相关系数（量化关联强度）

corr\_coef, p\_value = stats.pearsonr(ad\_input, sales)

print(f"皮尔逊相关系数：{corr\_coef:.2f}，p值：{p\_value:.3f}（p<0.05表示关联显著）")

\# 3. 统计制图：散点图+回归线（强化关联趋势）

plt.figure(figsize=(10, 6))

sns.regplot(

   data=df,

   x="广告投入（万元）",

   y="销售额（万元）",

   color="#8c564b",

   line\_kws={"color": "red", "linewidth": 2},  # 回归线样式

   scatter\_kws={"alpha": 0.6, "s": 50}  # 散点透明度与大小，避免重叠

)

\# 标注相关系数

plt.text(5, 1500, f"相关系数：r={corr\_coef:.2f}\n（正相关显著）", fontsize=11, bbox=dict(facecolor='white', alpha=0.8))

\# 图表优化

plt.title("广告投入与销售额关联分析（投入增加，销售额显著上升）")

plt.xlabel("广告投入（万元）")

plt.ylabel("销售额（万元）")

plt.grid(alpha=0.3)  # 显示网格，辅助判断点的位置

plt.show()

2. 热力图：多变量关联强度对比

适用场景：分析多个数值变量间的关联矩阵（如 “用户消费行为多维度关联”“门店运营指标相关性”）；
核心逻辑：用颜色深浅表示相关系数大小（如红色表示强正相关，蓝色表示强负相关），快速定位关键关联变量；
业务案例：零售门店运营指标相关性分析，找出影响销售额的核心因素。

代码实现：

import pandas as pd

import matplotlib.pyplot as plt

import seaborn as sns

plt.rcParams\['font.sans-serif'] = \['SimHei']

\# 1. 加载数据（门店运营数据）

df = pd.read\_csv("门店运营数据.csv")

\# 选择需分析的数值变量（排除非数值字段）

numeric\_cols = \["日销售额", "客流量", "客单价", "转化率", "坪效"]

corr\_data = df\[numeric\_cols].corr()  # 计算相关系数矩阵

\# 2. 统计制图：热力图（展示多变量相关性）

plt.figure(figsize=(10, 8))

sns.heatmap(

   corr\_data,

   annot=True,  # 显示相关系数数值

   fmt=".2f",  # 数值格式（保留2位小数）

   cmap="RdBu\_r",  # 配色方案（红正蓝负）

   center=0,  # 颜色中心值（0为无相关）

   square=True,  # 单元格为正方形

   linewidths=0.5  # 单元格边框宽度

)

\# 图表优化

plt.title("门店运营指标相关性热力图（客流量与销售额强正相关，r=0.89）")

plt.xticks(rotation=45)  # x轴标签旋转，避免重叠

plt.yticks(rotation=0)  # y轴标签水平显示

plt.tight\_layout()  # 调整布局，避免标签被截断

plt.show()

（四）时间序列数据：展现趋势与周期

时间序列数据（如 “日销售额”“月活跃用户数”）聚焦 “数据随时间的变化趋势、周期性与波动”，核心图表包括折线图、面积图。

1. 折线图：时间趋势分析首选

适用场景：展示数据随时间的变化趋势（如 “月度销售额趋势”“用户活跃度周度波动”）；
核心逻辑：以时间为 x 轴、数值为 y 轴，用折线连接相邻时间点，直观呈现上升 / 下降 / 平稳趋势；
业务案例：电商平台月度销售额趋势分析，定位增长 / 下滑节点。

代码实现：

import pandas as pd

import matplotlib.pyplot as plt

import seaborn as sns

plt.rcParams\['font.sans-serif'] = \['SimHei']

\# 1. 加载数据（电商月度销售数据）

df = pd.read\_csv("月度销售数据.csv")

\# 转换时间格式（确保为datetime类型）

df\["月份"] = pd.to\_datetime(df\["月份"], format="%Y-%m")

\# 按时间排序（避免时间乱序）

df\_sorted = df.sort\_values("月份")

\# 2. 统计制图：折线图（展示时间趋势）

plt.figure(figsize=(12, 6))

sns.lineplot(

   data=df\_sorted,

   x="月份",

   y="销售额（万元）",

   color="#1f77b4",

   linewidth=2.5,

   marker="o",  # 标记每个时间点

   markersize=6  # 标记大小

)

\# 标注关键节点（如销售额峰值、谷值）

peak\_month = df\_sorted.loc\[df\_sorted\["销售额（万元）"].idxmax()]

valley\_month = df\_sorted.loc\[df\_sorted\["销售额（万元）"].idxmin()]

plt.annotate(f"峰值：{peak\_month\['销售额（万元）']:.0f}万",

            xy=(peak\_month\["月份"], peak\_month\["销售额（万元）"]),

            xytext=(peak\_month\["月份"], peak\_month\["销售额（万元）"] + 50),

            ha="center", fontsize=10,

            arrowprops=dict(arrowstyle="->", color="red"))

\# 图表优化

plt.title("2024年电商月度销售额趋势（6月达峰值，7月因促销结束下滑）")

plt.xlabel("月份")

plt.ylabel("销售额（万元）")

plt.grid(alpha=0.3)  # 显示网格，辅助判断趋势

\# 格式化x轴时间标签（仅显示年月）

plt.gca().xaxis.set\_major\_formatter(plt.matplotlib.dates.DateFormatter("%Y-%m"))

plt.xticks(rotation=45)

plt.tight\_layout()

plt.show()

2. 面积图：突出趋势与累积量

适用场景：展示单一系列的累积趋势（如 “年度销售额累积增长”）或多系列的占比变化（如 “各品类销售额累积占比”）；
核心逻辑：在折线图基础上填充折线与 x 轴之间的区域，用面积大小强化数值变化感知，多系列时可叠加展示占比；
业务案例：电商年度各品类销售额累积增长分析，判断品类贡献度变化。

代码实现：

import pandas as pd

import matplotlib.pyplot as plt

import seaborn as sns

plt.rcParams\['font.sans-serif'] = \['SimHei']

\# 1. 加载数据（年度品类销售数据）

df = pd.read\_csv("年度品类销售数据.csv")

df\["月份"] = pd.to\_datetime(df\["月份"], format="%Y-%m")

df\_sorted = df.sort\_values("月份")

\# 2. 计算累积销售额（按品类）

categories = \["连衣裙", "卫衣", "外套", "裤子"]

for cat in categories:

   df\_sorted\[f"{cat}累积销售额"] = df\_sorted\[cat].cumsum()

\# 3. 统计制图：堆叠面积图（展示各品类累积占比）

plt.figure(figsize=(12, 6))

plt.stackplot(

   df\_sorted\["月份"],

   \[df\_sorted\[f"{cat}累积销售额"] for cat in categories],

   labels=categories,

   alpha=0.7,  # 透明度，避免叠加后颜色过深

   colors=\["#ff9999", "#66b3ff", "#99ff99", "#ffcc99"]

)

\# 标注总累积销售额（年末）

total\_dec = df\_sorted.iloc\[-1]\[\[f"{cat}累积销售额" for cat in categories]].sum()

plt.text(df\_sorted\["月份"].iloc\[-1], total\_dec, f"年末总累积：{total\_dec:.0f}万",

        ha="right", va="bottom", fontsize=10)

\# 图表优化

plt.title("2024年各品类销售额累积趋势（连衣裙累积贡献最高）")

plt.xlabel("月份")

plt.ylabel("累积销售额（万元）")

plt.legend(loc="upper left")

plt.grid(alpha=0.2)

plt.gca().xaxis.set\_major\_formatter(plt.matplotlib.dates.DateFormatter("%Y-%m"))

plt.xticks(rotation=45)

plt.tight\_layout()

plt.show()

三、CDA 分析师统计制图全流程：从业务到图表的闭环

CDA 分析师的统计制图不是 “随机尝试图表类型”，而是 “明确业务目标→数据预处理→图表适配选择→设计优化→结论输出” 的系统性流程，每一步都需紧扣业务需求。

（一）步骤 1：明确业务目标（锁定制图方向）

核心是 “将模糊需求转化为明确的制图目标”，避免无意义制图。例如：

业务需求：“分析电商 10 月用户消费行为”；
转化为制图目标：

① 展示 10 月用户消费金额分布（明确主流客单价）；

② 对比不同用户类型（新 / 复购）的消费频次差异；

③ 分析消费频次与复购率的关联关系。

（二）步骤 2：数据预处理（确保图表真实性）

制图前需对数据做清洗与适配，避免 “脏数据” 导致图表误导：

处理异常值：如 “订单金额为 - 100 元”（录入错误）需修正为 100 元，“用户年龄 150 岁”（异常值）需剔除或截断；
维度聚合：如 “日销售额” 需按 “周” 聚合，避免折线图过于杂乱；
字段衍生：如从 “下单时间” 衍生 “是否周末”，支撑周期性分析。

代码示例（数据预处理）：

import pandas as pd

\# 加载原始数据

df = pd.read\_csv("10月用户消费数据.csv")

\# 1. 处理异常值：订单金额<0修正为正数，年龄>80视为异常值剔除

df\["订单金额"] = df\["订单金额"].apply(lambda x: abs(x) if x < 0 else x)

df = df\[df\["用户年龄"] <= 80]

\# 2. 维度聚合：按用户类型（新/复购）聚合消费频次

user\_freq = df.groupby("用户类型")\["消费频次"].agg(\["mean", "median"]).reset\_index()

\# 3. 字段衍生：从下单时间衍生“是否周末”

df\["下单时间"] = pd.to\_datetime(df\["下单时间"])

df\["是否周末"] = df\["下单时间"].dt.weekday.apply(lambda x: 1 if x >=5 else 0)

print("数据预处理完成，可用于后续制图")

（三）步骤 3：图表适配选择（匹配数据与目标）

根据 “数据类型 + 业务目标” 选择最优图表，避免 “一刀切” 用柱状图或折线图：

业务目标	数据类型组合	推荐图表
展示数值分布	单一数值型	直方图、密度图
对比多组分类数据	分类型 + 数值型	柱状图、箱线图
展示分类占比	单一分类型	饼图（≤5 类）、环形图
分析两变量关联	两个数值型	散点图、回归线图
展示时间趋势	时间型 + 数值型	折线图、面积图
多变量关联对比	多个数值型	热力图

（四）步骤 4：图表设计优化（强化信息传递）

优秀的图表设计需 “去繁就简”，聚焦核心信息，避免冗余元素干扰：

配色：优先使用单色或低饱和度配色（如专业报告用蓝 / 灰 / 黑），避免高饱和撞色；多系列对比用 “同一色系渐变” 或 “对比色但不刺眼”（如蓝 vs 橙，而非红 vs 绿）；
标签：关键数值需标注（如柱状图顶部标注销售额），时间轴标签避免重叠（旋转 45° 或按季度显示）；
元素简化：删除无意义的网格线、边框，避免 3D 效果、过度阴影等装饰元素；
结论标注：直接在图表中标注核心结论（如 “10 月销售额环比下降 15%”），无需读者自行推断。

（五）步骤 5：输出业务结论（关联落地动作）

图表只是 “载体”，最终需输出可落地的业务结论，例如：

图表：新 / 复购用户消费频次箱线图；
数据结论：复购用户平均消费频次 4.2 次，是新用户（1.8 次）的 2.3 倍；
业务结论：复购用户消费粘性显著高于新用户，建议针对新用户开展 “消费频次激励活动”（如 “消费 3 次赠 20 元券”）。

四、实战案例：CDA 分析师的电商用户消费统计制图分析

（一）业务背景

某电商平台需分析 “2024 年 10 月用户消费行为特征”，支撑 11 月营销活动策划，核心需求包括：

明确 10 月用户消费金额的主流区间；
对比新用户与复购用户的消费能力差异；
分析消费频次与复购率的关联关系；
总结核心结论，提出营销建议。

（二）统计制图全流程实操

1. 数据预处理

import pandas as pd

\# 加载数据并预处理

df = pd.read\_csv("10月用户消费数据.csv")

\# 处理异常值：订单金额<0修正，剔除年龄异常值

df\["订单金额"] = df\["订单金额"].apply(lambda x: abs(x) if x < 0 else x)

df = df\[(df\["用户年龄"] >= 18) & (df\["用户年龄"] <= 80)]

\# 衍生字段：消费率=消费金额/用户收入（反映消费意愿）

df\["消费率"] = df\["订单金额"] / df\["用户收入"]