人工智能之数据分析 numpy：第一章学习链路

收藏 2025-11-15

人工智能之数据分析 numpy

第一章学习链路

文章目录

前言
一、顶层设计：理解人工智能全景图
- 1.1 什么是人工智能？
- 1.2 AI 技术栈分层模型（自上而下）
二、第一阶段：编程与数据基础（0 → 能处理真实数据）
- 2.1 Python 编程基础
- 2.2 核心数据科学库
三、第二阶段：机器学习入门（建立建模范式）
- 3.1 机器学习核心概念
- 3.2 Scikit-learn 实战
- 3.3 补充：Scipy 重点模块
四、第三阶段：深度学习基础（进入神经网络世界）
- 4.1 选择框架：PyTorch or TensorFlow？
- 4.2 核心概念
- 4.3 实践项目（由简入繁）
五、第四阶段：分方向深耕（CV / NLP）
- 5.1 计算机视觉（CV）
- 5.2 自然语言处理（NLP）
六、第五阶段：大模型时代（Agent + Workflow + MCP）
- 6.1 大模型认知升级
- 6.2 智能体（Agent）架构
- 6.3 工作流与 MCP（Model Control Plane）
七、第六阶段：部署与工程化（走向生产）
- 7.1 模型优化
- 7.2 部署方案
八、学习原则与避坑指南
- 正确路径
- 常见误区
九、总结： AI 成长路线图
后续
- 资料关注

前言

本文主要探讨人工智能的整体学习路径，相当于数据分析模块的起点。理解整体思维框架有助于更清晰地规划后续的学习内容及目标程度，对单一 AI 绘制短剧小说等热门方向也有重要参考价值。掌握基础知识有助于更加灵活地创造和应用解决问题的能力。

一、顶层设计：理解人工智能全景图

1.1 什么是人工智能？

狭义 AI（ANI）：在特定任务上表现出色（如图像识别、语音转文字）。
通用 AI（AGI）：尚未实现，具有人类水平的泛化推理能力。
当前主流 AI = 数据 + 算法 + 计算资源 + 工程应用

1.2 AI 技术栈分层模型（自上而下）

┌───────────────────────────────┐
│         应用层（智能体 / Agent）        │ ← 用户交互、业务场景（如客服机器人、文生图）
├───────────────────────────────┤
│      编排层（LangChain / MCP / Workflow） │ ← 串联模型、工具、记忆、决策逻辑
├───────────────────────────────┤
│       大模型层（LLM / Multimodal）       │ ← GPT、LLaMA、Stable Diffusion、CLIP、ViT
├───────────────────────────────┤
│     深度学习框架（PyTorch / TensorFlow）   │ ← 构建神经网络、训练/推理
├───────────────────────────────┤
│    机器学习库（scikit-learn）            │ ← 经典 ML 算法快速验证
├───────────────────────────────┤
│   数据处理与可视化（pandas / numpy / matplotlib）│ ← 数据清洗、探索、转换
├───────────────────────────────┤
│        Python 编程基础                   │ ← 语法、函数、面向对象、调试
└───────────────────────────────┘

核心理念：先会使用，再理解原理；先运行通顺，再进行优化——从应用逆向推导底层逻辑，形成闭环反馈式学习。

二、第一阶段：编程与数据基础（0 → 能处理真实数据）

目标：掌握 Python 及数据处理基本技能，为后续建模打下坚实基础。

2.1 Python 编程基础

变量、条件、循环、函数
列表、字典、集合、元组
文件读写（CSV/JSON/TXT）
异常处理、模块导入

推荐资源：《Automate the Boring Stuff with Python》

2.2 核心数据科学库

工具作用关键技能

NumPy

高效数值计算

工具	作用	关键技能
NumPy	高效数值计算	`ndarray` 、广播机制、矩阵运算、索引切片
Pandas	结构化数据处理	`DataFrame` 、缺失值处理、 `groupby` 、合并、时间序列
Matplotlib / Seaborn	数据可视化	散点图、直方图、箱线图、热力图、子图布局

ndarray

、广播机制、矩阵运算、索引切片

Pandas

结构化数据处理

DataFrame

、缺失值处理、

groupby

、合并、时间序列

Matplotlib / Seaborn 数据可视化散点图、直方图、箱线图、热力图、子图布局

实践项目：

分析某城市空气质量数据（CSV）
可视化电影评分分布与票房关系
爬虫类企业级项目等

三、第二阶段：机器学习入门（建立建模范式）

目标：理解“特征 → 模型 → 评估 → 优化”的完整 ML 流程。

3.1 机器学习核心概念

监督 vs 无监督 vs 强化学习
过拟合 / 欠拟合 & 正则化
交叉验证、偏差-方差权衡
特征工程：标准化、编码、选择

3.2 Scikit-learn 实战

任务类型	算法示例	应用场景
分类	Logistic Regression, Random Forest, SVM	垃圾邮件识别、客户流失预测
回归	Linear Regression, XGBoost	房价预测、销量预测
聚类	K-Means, DBSCAN	用户分群、异常检测

关键 API 模式：


from sklearn.ensemble import RandomForestClassifier
model = RandomForestClassifier()
model.fit(X_train, y_train)
y_pred = model.predict(X_test)

实践项目：

波士顿房价回归（回归）
鸢尾花分类（分类）
客户消费行为聚类（无监督）

3.3 补充：Scipy 重点模块

scipy.stats

假设检验、概率分布

scipy.optimize

：理解优化器原理（为深度学习铺垫）

四、第三阶段：深度学习基础（进入神经网络世界）

目标：掌握张量操作、自动求导、网络构建与训练流程。

4.1 选择框架：PyTorch or TensorFlow？

维度	PyTorch	TensorFlow
学习曲线	更 Pythonic，易于调试	静态图复杂，但部署生态系统强大
科研使用	主流（>80% 论文）	较少
工业部署	TorchServe, ONNX	TF Serving, TFLite, TF.js

建议：初学者首选 PyTorch

4.2 核心概念

Tensor

多维数组，支持 GPU 加速

Autograd

自动微分（反向传播）

nn.Module

网络定义标准方式

DataLoader

高效批量加载数据

Loss + Optimizer

MSE、CrossEntropy + Adam/SGD

4.3 实践项目（由简入繁）

MNIST 手写数字识别（全连接网络）
CIFAR-10 图像分类（CNN + 数据增强）
IMDB 情感分析（RNN/LSTM）
猫狗分类（迁移学习 + ResNet 微调）

关键能力

能独立完成“数据加载 → 模型定义 → 训练循环 → 评估保存”全流程。

五、第四阶段：分方向深耕（CV / NLP）

5.1 计算机视觉（CV）

核心技术栈：

OpenCV：图像读取、裁剪、滤波、几何变换
TorchVision：预训练模型（ResNet, ViT）、数据增强
Albumentations：高性能图像增强库

典型任务与模型：

任务	模型	工具
图像分类	ResNet, ViT	torchvision.models
目标检测	YOLOv8, Faster R-CNN	Ultralytics, MMDetection
图像分割	U-Net, SAM	segmentation_models_pytorch

项目建议：

使用 YOLOv8 实现交通标志检测
基于 U-Net 的医学细胞分割

5.2 自然语言处理（NLP）

核心技术栈：

Hugging Face Transformers：BERT、GPT、T5 等模型集成
Tokenizers：分词器（WordPiece, BPE）
Datasets：统一数据加载接口

关键演进路径：

One-Hot → Word2Vec/GloVe → RNN/LSTM → Transformer → BERT/GPT

典型任务：

任务	模型	方法
文本分类	BERT	微调分类头
命名实体识别	BERT+CRF	序列标注
问答系统	RoBERTa	SQuAD 微调

项目建议：

微调做新闻分类
构建基于 LLaMA 的本地知识问答系统

bert-base-chinese

六、第五阶段：大模型时代（Agent + Workflow + MCP）

核心转变：

从“训练模型”转向“编排智能”——模型即服务（MaaS）。

6.1 大模型认知升级

预训练 + 微调 + 提示工程（Prompt Engineering）

参数高效微调（PEFT）：LoRA、Adapter、QLoRA
多模态融合：CLIP（图文对齐）、Flamingo（视频 + 文本）

6.2 智能体（Agent）架构

[用户输入] 
   ↓
[规划器 Planner] → 决定是否调用工具
   ↓
[工具调用] → 搜索、代码执行、数据库查询
   ↓
[记忆 Memory] → 向量数据库（Chroma, FAISS）
   ↓
[大模型推理] → LLM 生成最终回答

典型框架：

LangChain、LlamaIndex、AutoGen

6.3 工作流与 MCP（Model Control Plane）

LangChain：构建可组合的 AI 应用（Chain → Agent → Tool）
MCP（模型控制平面）：
- 统一管理多个模型版本
- 控制路由策略（A/B 测试、灰度发布）
- 监控延迟、吞吐、错误率
Workflow 引擎：Prefect、Airflow、Dagster（用于生产级 pipeline 编排）

实践项目：

用 LangChain + LLaMA + Chroma 构建企业知识库问答机器人
使用 LoRA 微调 LLaMA-7B 用于产品客服对话
将 Stable Diffusion 集成到 Web UI，支持文生图

七、第六阶段：部署与工程化（走向生产）

7.1 模型优化

量化：FP32 → INT8（体积减少50%，速度提升）
剪枝：移除冗余权重
蒸馏：大模型 → 小模型（Teacher-Student）

7.2 部署方案

场景	工具
Web API	FastAPI + Uvicorn
GPU 推理加速	TensorRT, ONNX Runtime
边缘设备	TensorFlow Lite, TorchScript
云原生	KServe, Triton Inference Server

端到端项目：

将微调后的 ViT 模型 → 转为 ONNX → 部署到工业相机边缘设备 → 实时缺陷检测

八、学习原则与避坑指南

正确路径：

先数据，后模型：80% 时间花在数据上。
先跑通，再优化：最小可行项目（MVP）优先。
一个方向深挖：先精通 NLP 或 CV，再横向扩展。
工具服务于问题：不要为学 API 而学，要为解决问题而学。

常见误区：

跳过 pandas/numpy 直接学 PyTorch → 卡在数据预处理
同时学 PyTorch 和 TensorFlow → 精力分散
迷恋“从零训练大模型” → 忽略微调与应用价值
只看教程不动手 → 无法形成肌肉记忆

九、总结： AI 成长路线图

阶段	能力目标
1. 编程与数据	能独立清洗、分析、可视化数据
2. 机器学习	能完成端到端 ML 项目
3. 深度学习	待补充

能够训练 CNN/RNN 并调优参数
4. 专长于 CV/NLP
能够复现论文级别的项目
5. 大规模模型应用
能够构建 Agent + 微调 + 部署
6. 工程化能力
能够交付生产级的 AI 系统

后续内容
部分代码已经上传至 Gitee，未来会逐步更新，主要受限于时间原因。当然，你也可以克隆到本地进行学习和扩展。
祝你编程愉快，早日成为 Python 高手！?????

资料关注
公众号：咚咚王
Gitee：https://gitee.com/wy18585051844/ai_learning

《Python编程：从入门到实践》
《利用Python进行数据分析》
《算法导论中文第三版》
《概率论与数理统计（第四版） (盛骤) 》
《程序员的数学》
《线性代数应该这样学第3版》
《微积分和数学分析引论》
《（西瓜书）周志华-机器学习》
《TensorFlow机器学习实战指南》
《Sklearn与TensorFlow机器学习实用指南》
《模式识别（第四版）》
《深度学习 deep learning》伊恩·古德费洛著花书
《Python深度学习第二版(中文版)【纯文本】 (登封大数据 (Francois Choliet)) (Z-Library)》
《深入浅出神经网络与深度学习+(迈克尔·尼尔森（Michael+Nielsen）》
《自然语言处理综论第2版》
《Natural-Language-Processing-with-PyTorch》
《计算机视觉-算法与应用(中文版)》
《Learning OpenCV 4》
《AIGC：智能创作时代》杜雨+&+张孜铭
《AIGC原理与实践：零基础学大语言模型、扩散模型和多模态模型》
《从零构建大语言模型（中文版）》
《实战AI大模型》
《AI 3.0》

┌───────────────────────────────┐
│         应用层（智能体 / Agent）        │ ← 用户交互、业务场景（如客服机器人、文生图）
├───────────────────────────────┤
│      编排层（LangChain / MCP / Workflow） │ ← 串联模型、工具、记忆、决策逻辑
├───────────────────────────────┤
│       大模型层（LLM / Multimodal）       │ ← GPT、LLaMA、Stable Diffusion、CLIP、ViT
├───────────────────────────────┤
│     深度学习框架（PyTorch / TensorFlow）   │ ← 构建神经网络、训练/推理
├───────────────────────────────┤
│    机器学习库（scikit-learn）            │ ← 经典 ML 算法快速验证
├───────────────────────────────┤
│   数据处理与可视化（pandas / numpy / matplotlib）│ ← 数据清洗、探索、转换
├───────────────────────────────┤
│        Python 编程基础                   │ ← 语法、函数、面向对象、调试
└───────────────────────────────┘

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

栏目导航

人工智能之数据分析 numpy

第一章 学习链路

文章目录

前言

一、顶层设计：理解人工智能全景图

1.1 什么是人工智能？

1.2 AI 技术栈分层模型（自上而下）

二、第一阶段：编程与数据基础（0 → 能处理真实数据）

2.1 Python 编程基础

2.2 核心数据科学库

实践项目：

三、第二阶段：机器学习入门（建立建模范式）

3.1 机器学习核心概念

3.2 Scikit-learn 实战

实践项目：

3.3 补充：Scipy 重点模块

四、第三阶段：深度学习基础（进入神经网络世界）

4.1 选择框架：PyTorch or TensorFlow？

4.2 核心概念

Tensor

Autograd

nn.Module

DataLoader

Loss + Optimizer

4.3 实践项目（由简入繁）

关键能力

五、第四阶段：分方向深耕（CV / NLP）

5.1 计算机视觉（CV）

5.2 自然语言处理（NLP）

六、第五阶段：大模型时代（Agent + Workflow + MCP）

6.1 大模型认知升级

6.2 智能体（Agent）架构

6.3 工作流与 MCP（Model Control Plane）

七、第六阶段：部署与工程化（走向生产）

7.1 模型优化

7.2 部署方案

八、学习原则与避坑指南

九、总结： AI 成长路线图

扫码加我 拉你入群

分享

扫码加好友，拉您进群

第一章学习链路

扫码加我拉你入群