› 论坛 › 数据科学与人工智能 › 数据分析与数据科学 › 数据分析师（CDA）专版

AIU人工智能学院

733

收藏 2025-10-31

在 CDA（Certified Data Analyst）数据分析师的工作中，“预测未来趋势” 与 “分析影响因素” 是两大高频需求 —— 例如 “预测下月电商销售额”“分析哪些因素（广告投入、用户活跃度）对销售额影响更大”。而线性回归（Linear Regression）正是解决这类问题的核心模型：它通过量化变量间的线性关系，既能实现精准预测，又能清晰拆解各因素的影响权重。本文聚焦 CDA 分析师如何运用线性回归解决业务问题，覆盖核心认知、实操方法、全流程案例与误区规避，助力高效挖掘数据的预测与解释价值。

一、核心认知：线性回归的本质与 CDA 分析师的核心价值

（一）线性回归的本质：变量线性关系的量化表达

线性回归是 “通过构建线性方程，描述自变量（X）与因变量（Y，需为数值型）之间线性关联” 的统计模型，核心目标分两类：

预测目标：已知自变量取值，预测因变量的未来值（如 “已知下月广告投入 100 万、用户活跃度 60%，预测销售额”）；
解释目标：分析各自变量对因变量的影响方向与强度（如 “广告投入每增加 1 万，销售额平均增加 2.5 万；用户活跃度每提升 1%，销售额平均增加 1.8 万”）。

其核心数学逻辑可概括为：

简单线性回归（1 个自变量）：

（：截距，：回归系数，：随机误差）；
多元线性回归（多个自变量）：

（：第 i 个自变量的回归系数，代表 “其他变量不变时，每变化 1 单位，Y 的平均变化量”）。

（二）CDA 分析师与普通线性回归使用者的核心差异

普通使用者常止步于 “跑通模型、输出系数”，而 CDA 分析师的价值体现在 “业务 - 数据 - 模型 - 决策” 的闭环，两者差异显著：

对比维度	普通使用者	CDA 分析师
模型目标	追求 “预测准确率高”，忽视业务解释	平衡 “预测精度” 与 “业务可解释性”（如用回归系数解释因素影响，支撑决策）
特征处理	直接使用原始特征（如用 “用户 ID” 做自变量，无意义）	结合业务逻辑做特征工程（如将 “注册时间” 衍生为 “注册时长”，剔除无关特征）
模型诊断	不验证模型假设（如线性关系、无多重共线性）	严格诊断模型合理性（用 VIF 检验多重共线性，用残差图验证线性假设）
结果落地	仅输出预测值（如 “下月销售额预测 500 万”）	转化为业务动作（如 “广告投入建议增加 10 万，预计销售额提升 25 万”）

（三）CDA 分析师的核心角色：从 “模型使用者” 到 “业务翻译者”

CDA 分析师在 linear 回归中的价值，不是 “机械计算回归系数”，而是：

业务目标拆解者：将 “提升销售额” 的模糊需求，转化为 “构建‘广告投入 + 用户活跃度 + 促销力度’→销售额” 的回归模型；
特征工程决策者：剔除无关特征（如 “用户星座” 与销售额无关），衍生高价值特征（如 “广告投入 / 用户数 = 人均广告成本”）；
模型诊断守护者：通过多重共线性、残差分析等确保模型可靠，避免 “伪回归”（如 “冰淇淋销量与溺水人数正相关，但无因果，需剔除无关变量”）；
结论落地推动者：将回归系数转化为业务语言（如 “促销力度每提升 10%，销售额增加 8%”），指导具体动作（如 “建议促销力度从 20% 提升至 30%”）。

二、CDA 分析师必备：线性回归核心类型与实操方法

线性回归按 “自变量数量” 与 “正则化需求” 分为简单线性回归、多元线性回归、正则化线性回归（岭回归、Lasso），CDA 分析师需根据业务场景选择适配类型。

（一）简单线性回归：单变量影响分析与预测

适用于 “单个自变量影响数值型因变量” 的场景，如 “广告投入对销售额的影响”“用户消费频次对复购金额的影响”，核心是直观呈现单因素的线性关联。

1. 业务案例与实操代码

案例：某电商平台需分析 “广告投入（万元）” 与 “月度销售额（万元）” 的线性关系，既需量化广告对销售额的影响，也需基于下月广告投入 120 万预测销售额。

代码实现：

import pandas as pd

import numpy as np

import matplotlib.pyplot as plt

import seaborn as sns

from sklearn.linear\_model import LinearRegression

from sklearn.metrics import r2\_score, mean\_absolute\_error

import statsmodels.api as sm

plt.rcParams\['font.sans-serif'] = \['SimHei']

\# 1. 数据加载与预处理（广告投入-销售额数据）

df = pd.read\_csv("广告销售额数据.csv")

\# 预处理：剔除异常值（销售额>1000或<100，广告投入>200或<10）

df = df\[(df\["广告投入（万元）"] >= 10) & (df\["广告投入（万元）"] <= 200) &

       (df\["销售额（万元）"] >= 100) & (df\["销售额（万元）"] <= 1000)]

\# 2. 数据探索：散点图观察线性趋势

plt.figure(figsize=(10, 6))

sns.scatterplot(x="广告投入（万元）", y="销售额（万元）", data=df, color="#1f77b4", alpha=0.7)

plt.title("广告投入与销售额的散点图（初步观察线性趋势）")

plt.xlabel("广告投入（万元）")

plt.ylabel("销售额（万元）")

plt.grid(alpha=0.3)

plt.show()

\# 3. 构建简单线性回归模型（sklearn：侧重预测；statsmodels：侧重系数解释）

\# 3.1 sklearn模型（预测）

X = df\[\["广告投入（万元）"]]  # 自变量需为2D数组

y = df\["销售额（万元）"]

lr\_sklearn = LinearRegression()

lr\_sklearn.fit(X, y)

\# 输出模型参数

print("=== 简单线性回归模型（sklearn） ===")

print(f"截距（β0）：{lr\_sklearn.intercept\_:.2f}")

print(f"广告投入回归系数（β1）：{lr\_sklearn.coef\_\[0]:.2f}")

print(f"模型公式：销售额 = {lr\_sklearn.intercept\_:.2f} + {lr\_sklearn.coef\_\[0]:.2f} × 广告投入")

\# 预测：下月广告投入120万，预测销售额

pred\_sales = lr\_sklearn.predict(\[\[120]])\[0]

print(f"下月广告投入120万元时，销售额预测：{pred\_sales:.2f}万元")

\# 3.2 statsmodels模型（系数显著性检验，支撑解释）

X\_sm = sm.add\_constant(X)  # 加入截距项

lr\_sm = sm.OLS(y, X\_sm).fit()

print("\n=== 简单线性回归模型（statsmodels，系数显著性） ===")

print(lr\_sm.summary().tables\[1])  # 输出系数、p值、R²等

\# 4. 模型评估：R²（拟合优度，0\~1，越接近1拟合越好）

y\_pred = lr\_sklearn.predict(X)

r2 = r2\_score(y, y\_pred)

mae = mean\_absolute\_error(y, y\_pred)

print(f"\n=== 模型评估 ===")

print(f"R²（拟合优度）：{r2:.2f}（说明广告投入解释了{r2\*100:.0f}%的销售额变化）")

print(f"MAE（平均绝对误差）：{mae:.2f}万元（预测值与实际值的平均偏差）")

\# 5. 可视化回归拟合线

plt.figure(figsize=(10, 6))

sns.scatterplot(x="广告投入（万元）", y="销售额（万元）", data=df, color="#1f77b4", alpha=0.7, label="实际数据")

sns.lineplot(x="广告投入（万元）", y=y\_pred, data=df, color="red", linewidth=2, label=f"拟合线（R²={r2:.2f}）")

\# 标注预测点

plt.scatter(120, pred\_sales, color="orange", s=100, marker="\*", label=f"预测点（120万投入→{pred\_sales:.2f}万销售额）")

plt.title("广告投入与销售额的线性回归拟合")

plt.xlabel("广告投入（万元）")

plt.ylabel("销售额（万元）")

plt.legend()

plt.grid(alpha=0.3)

plt.show()

结果解读：

回归系数：广告投入每增加 1 万元，销售额平均增加 2.35 万元（p<0.001，系数显著）；
拟合优度：R²=0.89，说明广告投入解释了 89% 的销售额变化，模型拟合效果好；
预测结果：下月广告投入 120 万时，销售额预测为 528.15 万元（MAE=21.3 万，偏差可控）；
业务意义：广告投入对销售额有显著正向影响，可通过增加广告投入提升销售额，建议下月按 120 万预算执行。

（二）多元线性回归：多因素共同影响分析

适用于 “多个自变量共同影响数值型因变量” 的场景，如 “广告投入 + 用户活跃度 + 促销力度对销售额的共同影响”，核心是拆解各因素的独立影响（排除其他变量干扰）。

1. 业务案例与实操代码

案例：延续上述电商案例，进一步加入 “用户月活跃度（%）”“促销力度（%）” 两个自变量，分析三者对销售额的共同影响，明确各因素的优先级。

代码实现：

import pandas as pd

import numpy as np

import matplotlib.pyplot as plt

import seaborn as sns

from sklearn.linear\_model import LinearRegression

from sklearn.metrics import r2\_score, mean\_absolute\_error

from statsmodels.stats.outliers\_influence import variance\_inflation\_factor  # 多重共线性检验（VIF）

import statsmodels.api as sm

plt.rcParams\['font.sans-serif'] = \['SimHei']

\# 1. 数据加载与预处理（广告投入+用户活跃度+促销力度-销售额数据）

df = pd.read\_csv("多因素销售额数据.csv")

\# 预处理：剔除异常值、处理缺失值（用中位数填充）

df = df\[(df\["销售额（万元）"] >= 100) & (df\["销售额（万元）"] <= 1000)]

df\["用户活跃度（%）"] = df\["用户活跃度（%）"].fillna(df\["用户活跃度（%）"].median())

df\["促销力度（%）"] = df\["促销力度（%）"].fillna(df\["促销力度（%）"].median())

\# 2. 选择自变量与因变量

X = df\[\["广告投入（万元）", "用户活跃度（%）", "促销力度（%）"]]  # 3个自变量

y = df\["销售额（万元）"]

\# 3. 多重共线性检验（VIF：Variance Inflation Factor，<10为无严重共线性）

X\_vif = sm.add\_constant(X)  # 加入截距项

vif\_data = pd.Datafr ame()

vif\_data\["自变量"] = X\_vif.columns

vif\_data\["VIF值"] = \[variance\_inflation\_factor(X\_vif.values, i) for i in range(X\_vif.shape\[1])]

print("=== 多重共线性检验（VIF） ===")

print(vif\_data)  # 若VIF>10，需剔除高相关变量（如“广告投入”与“促销力度”高度相关，需保留其一）

\# 4. 构建多元线性回归模型（statsmodels，侧重系数解释）

lr\_sm = sm.OLS(y, X\_vif).fit()

print("\n=== 多元线性回归模型结果 ===")

print(lr\_sm.summary().tables\[1])

\# 5. 模型评估

y\_pred = lr\_sm.predict(X\_vif)

r2 = r2\_score(y, y\_pred)

adj\_r2 = 1 - (1 - r2) \* (len(y) - 1) / (len(y) - X.shape\[1] - 1)  # 调整后R²（修正自变量数量影响）

mae = mean\_absolute\_error(y, y\_pred)

print(f"\n=== 模型评估 ===")

print(f"R²（拟合优度）：{r2:.2f}")

print(f"调整后R²：{adj\_r2:.2f}（更客观反映多变量模型拟合效果）")

print(f"MAE（平均绝对误差）：{mae:.2f}万元")

\# 6. 回归系数可视化（对比各因素影响强度）

\# 提取显著的回归系数（p<0.05）

coef\_data = pd.Datafr ame({

   "自变量": X.columns,

   "回归系数": lr\_sm.params\[1:],  # 排除截距项

   "p值": lr\_sm.pvalues\[1:]

})

coef\_data = coef\_data\[coef\_data\["p值"] < 0.05]  # 仅保留显著变量

plt.figure(figsize=(10, 6))

bars = plt.bar(coef\_data\["自变量"], coef\_data\["回归系数"], color=\["#1f77b4", "#ff7f0e", "#2ca02c"], edgecolor="black")

\# 标注系数值与显著性

for bar in bars:

   height = bar.get\_height()

   plt.text(bar.get\_x() + bar.get\_width()/2., height + 0.05,

            f"{height:.2f}", ha="center", va="bottom", fontweight="bold")

plt.axhline(y=0, color="gray", linestyle="--")  # 0轴参考线（系数>0正向影响，<0负向影响）

plt.title("各因素对销售额的回归系数（仅显示p<0.05的显著变量）")

plt.ylabel("回归系数（每变化1单位，销售额平均变化量：万元）")

plt.grid(axis="y", alpha=0.3)

plt.show()

\# 7. 业务预测：下月广告投入120万，用户活跃度65%，促销力度30%，预测销售额

next\_month = pd.Datafr ame({

   "const": \[1],

   "广告投入（万元）": \[120],

   "用户活跃度（%）": \[65],

   "促销力度（%）": \[30]

})

next\_sales = lr\_sm.predict(next\_month)\[0]

print(f"\n=== 下月销售额预测 ===")

print(f"输入条件：广告投入120万，用户活跃度65%，促销力度30%")

print(f"销售额预测：{next\_sales:.2f}万元")

结果解读：

多重共线性：所有 VIF<10（如广告投入 VIF=1.8，用户活跃度 VIF=1.5），无严重共线性，模型可靠；
回归系数（显著变量）：
- 广告投入：每增加 1 万，销售额 + 2.12 万（p<0.001）；
- 用户活跃度：每提升 1%，销售额 + 1.58 万（p<0.01）；
- 促销力度：每提升 1%，销售额 + 0.95 万（p<0.05）；
拟合优度：调整后 R²=0.92，比简单线性回归（0.89）更高，说明加入用户活跃度与促销力度后，模型解释力提升；
业务优先级：广告投入影响最大，其次是用户活跃度，最后是促销力度→ 下月优先保证广告投入 120 万，其次提升用户活跃度至 65%。

（三）正则化线性回归：解决多重共线性与过拟合

当多元线性回归存在 “多重共线性（VIF>10）” 或 “过拟合（训练集 R² 高，测试集 R² 低）” 时，需用正则化线性回归（岭回归、Lasso）优化，核心是通过 “惩罚项” 控制回归系数大小，提升模型泛化能力。

1. 两种正则化方法对比与实操

方法类型	核心逻辑	适用场景	代码示例（sklearn）
岭回归（Ridge）	加入 L2 惩罚项（），缩小系数但不剔除变量	多重共线性显著，需保留所有变量（如业务要求必须分析所有因素）	from sklearn.linear_model import Ridge from sklearn.model_selection import GridSearchCV

网格搜索最优正则化参数 α（λ）

ridge = Ridge()

param_grid = {"alpha": [0.1, 1, 10, 100]}

grid_ridge = GridSearchCV(ridge, param_grid, cv=5, scoring="r2")

grid_ridge.fit(X, y)

最优模型

best_ridge = grid_ridge.best_estimator_

print (f"岭回归最优 α：{grid_ridge.best_params_['alpha']}")

print (f"岭回归调整后 R²：{r2_score (y, best_ridge.predict (X)):.2f}")

\| Lasso回归       | 加入L1惩罚项（\$\lambda\sum|\beta\_i|\$），可将不重要变量的系数压缩至0，实现特征选择 | 变量多且存在冗余，需剔除无关变量（如10个自变量中仅5个有效） | \`\`\`python

from sklearn.linear\_model import Lasso

from sklearn.model\_selection import GridSearchCV

\# 网格搜索最优α

lasso = Lasso()

param\_grid = {"alpha": \[0.1, 1, 5, 10]}

grid\_lasso = GridSearchCV(lasso, param\_grid, cv=5, scoring="r2")

grid\_lasso.fit(X, y)

\# 最优模型与特征选择结果

best\_lasso = grid\_lasso.best\_estimator\_

selected\_features = X.columns\[best\_lasso.coef\_ != 0]  # 系数≠0的变量为选中特征

print(f"Lasso最优α：{grid\_lasso.best\_params\_\['alpha']}")

print(f"Lasso选中特征：{list(selected\_features)}")

print(f"Lasso调整后R²：{r2\_score(y, best\_lasso.predict(X)):.2f}")

\`\`\` |

\#### 2. 业务应用场景

\- 当业务要求“必须分析所有营销因素（广告、用户、促销、渠道）”，但部分因素存在多重共线性（如“广告投入”与“渠道投入”VIF=15）→ 用岭回归，保留所有变量并降低共线性影响； 

\- 当自变量数量多（如20个），且多数与销售额无关（如“用户星座”“注册渠道编码”）→ 用Lasso，自动剔除无关变量，保留核心影响因素（如仅保留“广告投入”“用户活跃度”）。

\## 三、CDA分析师线性回归全流程：从业务到决策的闭环

CDA分析师运用线性回归的核心是“业务目标驱动，模型诊断护航，结论落地导向”，全流程可拆解为六步：

\### （一）步骤1：明确业务目标，界定变量类型

核心是“将模糊需求转化为清晰的回归问题”，避免变量选择错误：

\- 业务需求：“预测下月电商销售额，并分析影响因素”； 

\- 变量界定： 

 \- 因变量（Y）：销售额（万元，数值型，符合线性回归要求）； 

 \- 自变量（X）：结合业务逻辑筛选（广告投入、用户活跃度、促销力度，均为数值型；若含分类变量如“季节”，需先做One-Hot编码）； 

\- 排除无效变量：如“用户ID”“订单编号”（无数值意义）、“商品颜色”（与销售额无关联）。

\### （二）步骤2：数据预处理，确保模型可靠性

数据质量直接决定回归模型效果，需重点处理四类问题：

1\. \*\*缺失值\*\*：数值型自变量用中位数填充（抗极端值），分类变量用众数填充； 

2\. \*\*异常值\*\*：用箱线图或3σ原则识别（如销售额>1000万视为异常），剔除或用中位数替换； 

3\. \*\*分类变量编码\*\*：如“季节（春/夏/秋/冬）”用One-Hot编码，生成“季节\_春、季节\_夏”等虚拟变量（避免多重共线性，需drop掉一个类别）； 

4\. \*\*特征衍生\*\*：将原始特征转化为有业务意义的变量（如“注册时间”→“注册时长（天）”，“订单金额”→“客单价”）。

代码示例（数据预处理）：

\`\`\`python

import pandas as pd

import numpy as np

\# 加载原始数据

df = pd.read\_csv("原始销售数据.csv")

\# 1. 缺失值处理

df\["广告投入（万元）"] = df\["广告投入（万元）"].fillna(df\["广告投入（万元）"].median())

df\["用户活跃度（%）"] = df\["用户活跃度（%）"].fillna(df\["用户活跃度（%）"].median())

df\["季节"] = df\["季节"].fillna(df\["季节"].mode()\[0])

\# 2. 异常值处理（销售额：3σ原则）

sales\_mean = df\["销售额（万元）"].mean()

sales\_std = df\["销售额（万元）"].std()

df = df\[(df\["销售额（万元）"] >= sales\_mean - 3\*sales\_std) &

       (df\["销售额（万元）"] <= sales\_mean + 3\*sales\_std)]

\# 3. 分类变量编码（季节：One-Hot）

df\_season = pd.get\_dummies(df\["季节"], prefix="季节", drop\_first=True)  # drop\_first避免多重共线性

df = pd.concat(\[df, df\_season], axis=1)

df = df.drop("季节", axis=1)  # 剔除原始分类变量

\# 4. 特征衍生（注册时间→注册时长）

df\["注册时间"] = pd.to\_datetime(df\["注册时间"])

df\["注册时长（天）"] = (pd.Timestamp("2024-10-31") - df\["注册时间"]).dt.days

print("数据预处理完成，最终变量：", df.columns.tolist())

（三）步骤 3：模型选择与构建

根据 “自变量数量” 与 “共线性情况” 选择模型：

1 个自变量→ 简单线性回归；
多个自变量且无共线性→ 多元线性回归；
多个自变量且有共线性 / 过拟合→ 岭回归 / Lasso 回归。

（四）步骤 4：模型诊断，验证假设合理性

线性回归有四大核心假设，需通过诊断确保满足，否则模型结果不可靠：

线性假设：自变量与因变量呈线性关系→ 用散点图（简单回归）或部分残差图（多元回归）验证；
无多重共线性：自变量间无强相关→ 用 VIF 检验（VIF<10）；
残差正态分布：残差（实际值 - 预测值）近似正态→ 用 Q-Q 图或 Shapiro-Wilk 检验验证；
残差方差齐性：残差方差不随自变量变化→ 用残差 - 拟合值图验证（无明显趋势）。

代码示例（模型诊断）：

import matplotlib.pyplot as plt

import seaborn as sns

from scipy import stats

from statsmodels.stats.outliers\_influence import variance\_inflation\_factor

\# 基于多元线性回归模型lr\_sm（前序代码构建）

y\_pred = lr\_sm.predict(X\_vif)

residuals = y - y\_pred  # 残差

\# 1. 多重共线性诊断（VIF）

print("=== 多重共线性诊断（VIF） ===")

print(vif\_data)  # 前序代码已计算

\# 2. 残差正态分布诊断（Q-Q图）

plt.figure(figsize=(8, 6))

stats.probplot(residuals, dist="norm", plot=plt)

plt.title("残差Q-Q图（近似直线表示符合正态分布）")

plt.grid(alpha=0.3)

plt.show()

\# 3. 残差方差齐性诊断（残差-拟合值图）

plt.figure(figsize=(10, 6))

plt.scatter(y\_pred, residuals, alpha=0.7, color="#1f77b4")

plt.axhline(y=0, color="red", linestyle="--")

plt.title("残差-拟合值图（无明显趋势表示方差齐性）")

plt.xlabel("拟合值（预测销售额）")

plt.ylabel("残差（实际销售额-预测销售额）")

plt.grid(alpha=0.3)

plt.show()

\# 4. 线性假设诊断（部分残差图：以广告投入为例）

partial\_residuals = residuals + lr\_sm.params\["广告投入（万元）"] \* X\["广告投入（万元）"]

plt.figure(figsize=(10, 6))

plt.scatter(X\["广告投入（万元）"], partial\_residuals, alpha=0.7, color="#ff7f0e")

plt.title("广告投入的部分残差图（近似线性表示符合线性假设）")

plt.xlabel("广告投入（万元）")

plt.ylabel("部分残差")

plt.grid(alpha=0.3)

plt.show()

（五）步骤 5：模型评估，平衡精度与解释性

核心评估指标分两类：

预测精度指标：MAE（平均绝对误差，直观反映偏差）、RMSE（均方根误差，惩罚大偏差）；
解释力指标：R²（拟合优度，解释因变量变化的比例）、调整后 R²（修正自变量数量影响，更适合多元模型）。

（六）步骤 6：业务落地，输出可执行建议

将模型结果转化为业务动作，避免纯数据描述：

回归系数→ 因素优先级（如 “广告投入影响最大，优先保障预算”）；
预测结果→ 目标设定（如 “下月销售额预测 580 万，设定目标 550 万，偏差可控”）；
异常分析→ 优化方向（如 “某月份实际销售额低于预测值 20%，排查发现促销力度未达预期，建议下月提升促销至 30%”）。

四、实战案例：CDA 分析师用线性回归预测电商月度销售额

（一）业务背景

某电商平台需预测 2024 年 11 月销售额，并分析 “广告投入、用户活跃度、促销力度、季节（双 11）” 对销售额的影响，支撑 11 月运营策略制定。

（二）全流程实操

1. 步骤 1：变量界定

因变量（Y）：月度销售额（万元）；
自变量（X）：广告投入（万元）、用户活跃度（%）、促销力度（%）、季节_冬（1=11 月为冬季，0 = 其他）、双 11 促销（1=11 月有双 11，0 = 其他）。

2. 步骤 2：数据预处理（同前序代码，略）

3. 步骤 3：构建多元线性回归模型

import pandas as pd

import statsmodels.api as sm

from sklearn.metrics import r2\_score, mean\_absolute\_error

\# 加载预处理后的数据

df = pd.read\_csv("预处理后销售数据.csv")

X = df\[\["广告投入（万元）", "用户活跃度（%）", "促销力度（%）", "季节\_冬", "双11促销"]]

y = df\["销售额（万元）"]

\# 构建模型（加入截距项）

X\_sm = sm.add\_constant(X)

lr\_sm = sm.OLS(y, X\_sm).fit()

\# 输出模型结果

print("=== 11月销售额预测模型结果 ===")

print(lr\_sm.summary().tables\[1])

4. 步骤 4：模型诊断与评估

多重共线性：所有 VIF<5，无共线性；
残差检验：Q-Q 图近似直线，残差正态；残差 - 拟合值图无趋势，方差齐性；
模型评估：调整后 R²=0.94，MAE=18.5 万元，拟合效果好。

5. 步骤 5：11 月销售额预测与策略建议

\# 11月输入条件（基于运营计划）

november\_input = pd.Datafr ame({

   "const": \[1],

   "广告投入（万元）": \[150],  # 双11加大广告投入

   "用户活跃度（%）": \[75],  # 活动提升活跃度

   "促销力度（%）": \[40],  # 双11促销力度40%

   "季节\_冬": \[1],  # 11月为冬季

   "双11促销": \[1]  # 11月有双11

})

\# 预测11月销售额

november\_sales = lr\_sm.predict(november\_input)\[0]

print(f"\n=== 2024年11月销售额预测 ===")

print(f"输入条件：广告150万，活跃度75%，促销40%，冬季+双11")

print(f"预测销售额：{november\_sales:.2f}万元（MAE=18.5万，预测区间：{november\_sales-18.5:.2f}\~{november\_sales+18.5:.2f}万）")

\# 业务策略建议

print(f"\n=== 运营策略建议 ===")

coef\_significant = pd.Datafr ame({

   "因素": X.columns,

   "回归系数": lr\_sm.params\[1:],

   "p值": lr\_sm.pvalues\[1:]

}).query("p值 < 0.05")

for \_, row in coef\_significant.iterrows():

   print(f"- {row\['因素']}：每提升1单位，销售额平均增加{row\['回归系数']:.2f}万，建议优先保障（如广告投入150万按计划执行）")

print(f"- 双11促销影响显著（系数=35.2，p<0.001），建议重点运营双11活动，确保促销力度达40%")