菜菜的机器学习sklearn课堂

1393

收藏 2022-03-09

简介
十一周sklearn课程，让菜菜带你认识sklearn，带你深入浅出地探索算法的神秘世界。我会为你解读sklearn中的主流算法，带你处理数据，调整参数，完善算法，调用结果。我会为你解析参数，助你理解算法原理，也会带你遍历案例，带你实战给你刷经验。十一周之后，人人都能够三行实现算法，实现少加班，多钻研，在数据行业乘风破浪的目标，为成为优秀的数据挖掘工程师打下坚实的基础~

课程内容

第1章: 菜菜的机器学习sklearn课程介绍
课程介绍
开始学习机器学习之前：配置环境
全部章节数据
第2章: 决策树
决策树课件
引言，sklearn入门
决策树：概述
分类树：参数Criterion
分类树：实现一棵树，随机性参数
分类树：剪枝参数调优(1)
分类树：剪枝参数调优(2)
分类树：重要属性和接口
回归树：参数，属性和接口
回归树：交叉验证 (1)
回归树：交叉验证(2)
回归树案例：用回归树拟合正弦曲线
案例：泰坦尼克号生存者预测 (1)
案例：泰坦尼克号生存者预测 (2)
案例：泰坦尼克号生存者预测 (3)
案例：泰坦尼克号生存者预测 (4)
第3章: 随机森林
随机森林课件
集成算法概述
随机森林分类器参数n_estimators与建立一片森林
参数boostrap & oob_score + 重要属性和接口
[选学] 袋装法的另一个必要条件
随机森林回归器
案例：用随机森林填补缺失值 (1)
案例：用随机森林填补缺失值 (2)
案例：用随机森林填补缺失值 (3)
案例：用随机森林填补缺失值 (4)
机器学习中调参的基本思想
案例：随机森林在乳腺癌数据上的调参 (1)
案例：随机森林在乳腺癌数据上的调参 (2)
第4章: 数据预处理和特征工程
数据预处理与特征工程课件
概述 + 12期课纲
数据预处理1：无量纲化：数据归一化
数据预处理2：无量纲化：数据标准化
数据预处理3：缺失值 (1)
数据预处理4：缺失值 (2)
数据预处理5：处理分类型数据：编码与哑变量
数据预处理6：处理连续型数据：二值化和分箱
特征选择1：过滤法：方差过滤 (1)
特征选择2：过滤法：方差过滤 (2)
特征选择3：过滤法：卡方过滤
特征选择4：过滤法：F检验和互信息法 (1)
特征选择5：过滤法：互信息法(2) + 总结
特征选择6：嵌入法 (1)
特征选择7：嵌入法 (2)
特征选择8：包装法 + 总结
第5章: 主成分分析PCA与奇异值分解SVD
降维算法课件
概述
降维究竟怎样实现？
参数应用案例：高维数据的可视化 (1)
参数应用案例：高维数据的可视化 (2)
PCA中的SVD，重要参数svd_solver
属性应用案例：人脸识别中的components_应用
接口应用案例：用人脸识别看PCA降维后的信息保存量
接口应用案例：用PCA实现手写数字的噪音过滤
总结：原理，流程，重要属性接口和参数
案例：PCA实现784个特征的手写数字的降维 (1)
案例：PCA实现784个特征的手写数字的降维 (2)
第6章: 逻辑回归与评分卡
逻辑回归课件
前言
逻辑回归概述：名为“回归”的分类器
什么需要逻辑回归
sklearn当中的逻辑回归
二元逻辑回归的损失函数
正则化：重要参数penalty & C
逻辑回归的特征工程 (1)
逻辑回归的特征工程 (2)
逻辑回归的特征工程 (3)
逻辑回归的特征工程 (4)
重要参数max_iter - 梯度下降求解逻辑回归的过程
梯度的概念与解惑
步长的概念与解惑
二元回归与多元回归：重要参数solver & multi_class
样本不均衡与参数class_weight
评分卡案例 - 评分卡与完整的模型开发流程
评分卡 - 数据预处理(1) - 重复值与缺失值
评分卡 - 数据预处理 (2) - 异常值
案例：评分卡 - 数据预处理 (3) - 标准化
案例：评分卡 - 数据预处理 (4) - 样本不均衡问题
案例：评分卡 - 数据预处理 (5) - 保存训练集和测试集数据
案例：评分卡 - 分箱(1) - 概述与概念
案例：评分卡 - 分箱 (2) - 等频分箱 (1)
案例：评分卡 - 分箱 (3) - 等频分箱 (2)
案例：评分卡 - 分箱 (4) - 选学说明
案例：评分卡 - 分箱 (5) - 计算WOE与IV
案例：评分卡 - 分箱 (6) - 卡方检验，箱体合并，IV值曲线，确定最优的箱子个数
案例：评分卡 - 分箱 (7) - 包装分箱函数
案例：评分卡 - 分箱 (8) - 包装判断分箱个数的函数
案例：评分卡 - 分箱 (9) - 对所有特征进行分箱
案例：评分卡 - 映射数据 (1)
案例：评分卡 - 映射数据 (2)
案例：评分卡 - 建模与模型验证
案例：评分卡 - 评分卡的输出和建立
第7章: 聚类算法KMeans
聚类算法Kmeans课件
概述
无监督学习概述，聚类vs分类
klearn当中的聚类算法
Kmeans是如何工作的？
簇内平方和，时间复杂度
KMeans - 重要参数n_clusters
聚类算法的模型评估指标 (1)
聚类算法的模型评估指标 (2) - 轮廓系数
聚类算法的模型评估指标 (3) - CHI
案例：轮廓系数找最佳n_clusters (1)
案例：轮廓系数找最佳n_clusters (2)
案例：轮廓系数找最佳n_clusters (3)
重要参数init & random_state & n_init：初始质心怎么决定？
重要参数max_iter & tol：如何让聚类停下来？
重要属性与接口 & 函数k_means
案例：Kmeans做矢量量化 (1)：案例背景
案例：Kmeans做矢量量化 (2)
案例：Kmeans做矢量量化 (3)
案例：Kmeans做矢量量化 (4)
第8章: 支持向量机（上）
SVM (上) 课件
本周要学习什么
支持向量机概述：最强大的机器学习算法
支持向量机是如何工作的 & sklearn中的SVM
线性SVC的损失函数 (1)
线性SVC的损失函数 (2)
函数间隔与几何间隔
损失函数的拉格朗日乘数形态
拉格朗日对偶函数 (1)
拉格朗日对偶函数 (2)
求解拉格朗日对偶函数极其后续过程
线性SVM可视化 (1)：理解等高线函数contour
线性SVM可视化 (2)：理解网格制作函数meshgrid与vstack
线性SVM可视化 (3)：建模，绘制图像并包装函数
线性SVM可视化 (4)：探索建立好的模型
线性SVM可视化 (5)：非线性数据集上的推广与3D可视化
线性SVM可视化 (6)：Jupyter Notebook中的3D交互功能
非线性SVM与核函数：重要参数kernel
案例：如何选取最佳核函数 (1)
案例：如何选取最佳核函数 (2)
案例：在乳腺癌数据集上探索核函数的性质
案例：在乳腺癌数据集上对核函数进行调参 (1)
案例：在乳腺癌数据集上对核函数进行调参 (2)
SVM在软间隔数据上的推广
重要参数C & 总结
第9章: 支持向量机（下）
SVM (下)课件
目录：本周将学习什么
简单复习支持向量机的基本原理
参数C的深入理解：多个支持向量存在的理由
二分类SVC中的样本不均衡问题：重要参数class_weight
如何使用参数class_weight (1)
如何使用参数class_weight (2)
SVC的模型评估指标
混淆矩阵与准确率
样本不平衡的艺术(1)：精确度Precision
样本不平衡的艺术(2)：召回率Recall与F1 measure
对多数类样本的关怀：特异度Specificity与假正率FPR
sklearn中的混淆矩阵
ROC曲线：Recall与假正率FPR的平衡
概率与阈值
SVM做概率预测
绘制ROC曲线 (1)
绘制ROC曲线 (2)
绘制ROC曲线 (3)
sklearn中的ROC曲线和AUC面积
利用ROC曲线求解最佳阈值
选学说明：使用SVC时的其他考虑
案例：预测明天是否会下雨 - 案例背景
案例：导库导数据，探索特征，jupyter中的快捷键
案例：分集，优先处理标签
案例：描述性统计，处理异常值
案例：现实数据上的数据预处理 - 处理时间
案例：现实数据上的数据预处理 - 处理地点 (1)
案例：现实数据上的数据预处理 - 处理地点 (2)
案例：现实数据上的数据预处理 - 处理地点 (3)
案例：现实数据上的数据预处理 - 处理地点 (4)
案例：现实数据上的数据预处理 - 填补分类型缺失值
案例：现实数据上的数据预处理 - 编码分类型变量
案例：现实数据集上的数据预处理 - 处理连续型变量
案例：建模与模型评估 (1)
案例：建模与模型评估 (2)
案例：模型调参：追求最高的recall
案例：模型调参：追求最高的精确度 (1)
案例：模型调参：追求最高的精确度 (2)
案例：模型调参：追求精确度与recall的平衡
SVM总结与结语
第10章: 回归大家族：线性回归，岭回归，Lasso与多项式回归
线性回归大家族课件
本周要学习什么
概述，sklearn中的线性回归大家族
多元线性回归的基本原理和损失函数
用最小二乘法求解多元线性回归的过程
多元线性回归的参数，属性及建模代码
回归类模型的评估指标：是否预测准确？
回归类模型的评估指标：是否拟合了足够的信息？
多重共线性：含义，数学，以及解决方案
岭回归处理多重共线性
sklearn中的岭回归：linear_model.Ridge
为岭回归选择最佳正则化参数
Lasso处理多重共线性
Lasso的核心作用：特征选择
Lasso选择最佳正则化参数
线性数据与非线性数据
线性vs非线性模型 (1)：线性模型在非线性数据集上的表现
线性vs非线性模型 (2)：拟合，效果与特点
离散化：帮助线性回归解决非线性问题
多项式对数据做了什么？
多项式回归提升模型表现
多项式回归的可解释性
多项式回归：线性还是非线性模型？ + 本周结语
第11章: 朴素贝叶斯
朴素贝叶斯课件
本周要讲解的内容
为什么需要朴素贝叶斯
概率论基础 - 贝叶斯理论等式
瓢虫冬眠：理解条件概率 (1)
瓢虫冬眠：理解条件概率 (2)
瓢虫冬眠：理解条件概率 (3)
贝叶斯的性质与最大后验估计
汉堡称重：连续型变量的概率估计 (1)
汉堡称重：连续型变量的概率估计 (2)
sklearn中的朴素贝叶斯
认识高斯朴素贝叶斯
高斯朴素贝叶斯擅长的数据集
探索贝叶斯 - 拟合中的特性与运行速度 (1)
探索贝叶斯 - 拟合中的特性与运行速度 (2) - 代码讲解 (1)
探索贝叶斯 - 拟合中的特性与运行速度 (3) - 代码讲解 (2)
探索贝叶斯 - 拟合中的特性与运行速度 (4) - 分析与结论
概率类模型的评估指标 (1) - 布里尔分数
概率类模型的评估指标 (2) - 布里尔分数的可视化
概率类模型的评估指标 (3) - 对数损失Log loss
概率类模型的评估指标 (4) - 可靠性曲线 (1)
概率类模型的评估指标 (5) - 可靠性曲线 (2)
概率类模型的评估指标 (6) - 概率分布直方图
概率类模型的评估指标 (7) - 概率校准 (1)
概率类模型的评估指标 (8) - 概率校准 (2)
多项式朴素贝叶斯 (1) - 认识多项式朴素贝叶斯
多项式朴素贝叶斯 (2) - 数学原理
多项式朴素贝叶斯 (3) - sklearn中的类与参数
多项式朴素贝叶斯 (4) - 来构造一个分类器吧
伯努利朴素贝叶斯 (1) - 认识伯努利朴素贝叶斯
伯努利朴素贝叶斯 (2) - sklearn中的类与参数
伯努利朴素贝叶斯 (3) - 构造一个分类器
探索贝叶斯 - 朴素贝叶斯的样本不均衡问题
补集朴素贝叶斯 - 补集朴素贝叶斯的原理 (1)
补集朴素贝叶斯 - 补集朴素贝叶斯的原理 (2)
补集朴素贝叶斯 - 处理样本不均衡问题
案例：贝叶斯做文本分类 (1) - 单词计数向量技术
案例：贝叶斯做文本分类 (2) - 单词计数向量的问题
案例：贝叶斯做文本分类 (3) - TF-IDF技术
案例：贝叶斯做文本分类 (4) - 探索和提取文本数据
案例：贝叶斯做文本分类 (5) - 使用TF-IDF编码文本数据
案例：贝叶斯做文本分类 (6) - 算法应用与概率校准
第12章: XGBoost
XGBoost课件
本周要学习什么
XGBoost前瞻：安装xgboost，xgboost库与sklearn API
梯度提升树(1)：集成算法回顾，重要参数n_estimators
梯度提升树(2)：参数n_estimators下的建模
梯度提升树(3)：参数n_estimators的学习曲线
梯度提升树(4)：基于方差-偏差困境改进的学习曲线
梯度提升树(5)：控制有放回随机抽样，参数subsample
梯度提升树(6)：迭代决策树：重要参数eta
梯度提升树(7)：迭代决策树：重要参数eta
XGBoost的智慧 (1)：选择弱评估器：重要参数booster
XGBoost的智慧 (2)：XGBoost的目标函数，使用xgboost库建模
XGBoost的智慧 (3)：求解XGBoost的目标函数 - 推导过程
XGBoost的智慧 (4)：求解XGboost的目标函数 - 泰勒展开的相关问题
XGBoost的智慧 (5)：参数化决策树，正则化参数lambda与alpha
XGBoost的智慧 (6)：建立目标函数与树结构的直接联系
XGBoost的智慧 (7)：最优树结构，求解w和T
XGBoost的智慧 (8)：贪婪算法求解最优树
XGBoost的智慧 (9)：让树停止生长：重要参数gamma与工具xgb.cv
XGBoost应用 (1)：减轻过拟合：XGBoost中的剪枝参数
XGBoost应用 (2)：使用xgb.cv进行剪枝参数的调参
XGBoost应用 (3)：使用pickle保存和调用训练好的XGB模型
XGBoost应用 (4)：使用joblib保存和调用训练好的XGB模型
XGBoost应用 (5)：XGB分类中的样本不平衡问题 - sklearnAPI
XGBoost应用 (6)：XGB分类中的样本不平衡问题 - xgboost库
XGBoost应用 (7)：XGB应用中的其他问题 + XGB结语

进入课程：《菜菜的机器学习sklearn课堂》

DA内容精选

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

栏目导航

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群