全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析师(CDA)专版
1322 0
2022-03-09
简介
十一周sklearn课程,让菜菜带你认识sklearn,带你深入浅出地探索算法的神秘世界。我会为你解读sklearn中的主流算法,带你处理数据,调整参数,完善算法,调用结果。我会为你解析参数,助你理解算法原理,也会带你遍历案例,带你实战给你刷经验。十一周之后,人人都能够三行实现算法,实现少加班,多钻研,在数据行业乘风破浪的目标,为成为优秀的数据挖掘工程师打下坚实的基础~

课程内容
  • 第1章: 菜菜的机器学习sklearn课程介绍
  • 课程介绍
  • 开始学习机器学习之前:配置环境
  • 全部章节数据
  • 第2章: 决策树
  • 决策树课件
  • 引言,sklearn入门
  • 决策树:概述
  • 分类树:参数Criterion
  • 分类树:实现一棵树,随机性参数
  • 分类树:剪枝参数调优(1)
  • 分类树:剪枝参数调优(2)
  • 分类树:重要属性和接口
  • 回归树:参数,属性和接口
  • 回归树:交叉验证 (1)
  • 回归树:交叉验证(2)
  • 回归树案例:用回归树拟合正弦曲线
  • 案例:泰坦尼克号生存者预测 (1)
  • 案例:泰坦尼克号生存者预测 (2)
  • 案例:泰坦尼克号生存者预测 (3)
  • 案例:泰坦尼克号生存者预测 (4)
  • 第3章: 随机森林
  • 随机森林课件
  • 集成算法概述
  • 随机森林分类器 参数n_estimators与建立一片森林
  • 参数boostrap & oob_score + 重要属性和接口
  • [选学] 袋装法的另一个必要条件
  • 随机森林回归器
  • 案例:用随机森林填补缺失值 (1)
  • 案例:用随机森林填补缺失值 (2)
  • 案例:用随机森林填补缺失值 (3)
  • 案例:用随机森林填补缺失值 (4)
  • 机器学习中调参的基本思想
  • 案例:随机森林在乳腺癌数据上的调参 (1)
  • 案例:随机森林在乳腺癌数据上的调参 (2)
  • 第4章: 数据预处理和特征工程
  • 数据预处理与特征工程课件
  • 概述 + 12期课纲
  • 数据预处理1:无量纲化:数据归一化
  • 数据预处理2:无量纲化:数据标准化
  • 数据预处理3:缺失值 (1)
  • 数据预处理4:缺失值 (2)
  • 数据预处理5:处理分类型数据:编码与哑变量
  • 数据预处理6:处理连续型数据:二值化和分箱
  • 特征选择1:过滤法:方差过滤 (1)
  • 特征选择2:过滤法:方差过滤 (2)
  • 特征选择3:过滤法:卡方过滤
  • 特征选择4:过滤法:F检验和互信息法 (1)
  • 特征选择5:过滤法:互信息法(2) + 总结
  • 特征选择6:嵌入法 (1)
  • 特征选择7:嵌入法 (2)
  • 特征选择8:包装法 + 总结
  • 第5章: 主成分分析PCA与奇异值分解SVD
  • 降维算法课件
  • 概述
  • 降维究竟怎样实现?
  • 参数应用案例:高维数据的可视化 (1)
  • 参数应用案例:高维数据的可视化 (2)
  • PCA中的SVD,重要参数svd_solver
  • 属性应用案例:人脸识别中的components_应用
  • 接口应用案例:用人脸识别看PCA降维后的信息保存量
  • 接口应用案例:用PCA实现手写数字的噪音过滤
  • 总结:原理,流程,重要属性接口和参数
  • 案例:PCA实现784个特征的手写数字的降维 (1)
  • 案例:PCA实现784个特征的手写数字的降维 (2)
  • 第6章: 逻辑回归与评分卡
  • 逻辑回归课件
  • 前言
  • 逻辑回归概述:名为“回归”的分类器
  • 什么需要逻辑回归
  • sklearn当中的逻辑回归
  • 二元逻辑回归的损失函数
  • 正则化:重要参数penalty & C
  • 逻辑回归的特征工程 (1)
  • 逻辑回归的特征工程 (2)
  • 逻辑回归的特征工程 (3)
  • 逻辑回归的特征工程 (4)
  • 重要参数max_iter - 梯度下降求解逻辑回归的过程
  • 梯度的概念与解惑
  • 步长的概念与解惑
  • 二元回归与多元回归:重要参数solver & multi_class
  • 样本不均衡与参数class_weight
  • 评分卡案例 - 评分卡与完整的模型开发流程
  • 评分卡 - 数据预处理(1) - 重复值与缺失值
  • 评分卡 - 数据预处理 (2) - 异常值
  • 案例:评分卡 - 数据预处理 (3) - 标准化
  • 案例:评分卡 - 数据预处理 (4) - 样本不均衡问题
  • 案例:评分卡 - 数据预处理 (5) - 保存训练集和测试集数据
  • 案例:评分卡 - 分箱(1) - 概述与概念
  • 案例:评分卡 - 分箱 (2) - 等频分箱 (1)
  • 案例:评分卡 - 分箱 (3) - 等频分箱 (2)
  • 案例:评分卡 - 分箱 (4) - 选学说明
  • 案例:评分卡 - 分箱 (5) - 计算WOE与IV
  • 案例:评分卡 - 分箱 (6) - 卡方检验,箱体合并,IV值曲线,确定最优的箱子个数
  • 案例:评分卡 - 分箱 (7) - 包装分箱函数
  • 案例:评分卡 - 分箱 (8) - 包装判断分箱个数的函数
  • 案例:评分卡 - 分箱 (9) - 对所有特征进行分箱
  • 案例:评分卡 - 映射数据 (1)
  • 案例:评分卡 - 映射数据 (2)
  • 案例:评分卡 - 建模与模型验证
  • 案例:评分卡 - 评分卡的输出和建立
  • 第7章: 聚类算法KMeans
  • 聚类算法Kmeans课件
  • 概述
  • 无监督学习概述,聚类vs分类
  • klearn当中的聚类算法
  • Kmeans是如何工作的?
  • 簇内平方和,时间复杂度
  • KMeans - 重要参数n_clusters
  • 聚类算法的模型评估指标 (1)
  • 聚类算法的模型评估指标 (2) - 轮廓系数
  • 聚类算法的模型评估指标 (3) - CHI
  • 案例:轮廓系数找最佳n_clusters (1)
  • 案例:轮廓系数找最佳n_clusters (2)
  • 案例:轮廓系数找最佳n_clusters (3)
  • 重要参数init & random_state & n_init:初始质心怎么决定?
  • 重要参数max_iter & tol:如何让聚类停下来?
  • 重要属性与接口 & 函数k_means
  • 案例:Kmeans做矢量量化 (1):案例背景
  • 案例:Kmeans做矢量量化 (2)
  • 案例:Kmeans做矢量量化 (3)
  • 案例:Kmeans做矢量量化 (4)
  • 第8章: 支持向量机 (上)
  • SVM (上) 课件
  • 本周要学习什么
  • 支持向量机概述:最强大的机器学习算法
  • 支持向量机是如何工作的 & sklearn中的SVM
  • 线性SVC的损失函数 (1)
  • 线性SVC的损失函数 (2)
  • 函数间隔与几何间隔
  • 损失函数的拉格朗日乘数形态
  • 拉格朗日对偶函数 (1)
  • 拉格朗日对偶函数 (2)
  • 求解拉格朗日对偶函数极其后续过程
  • 线性SVM可视化 (1):理解等高线函数contour
  • 线性SVM可视化 (2):理解网格制作函数meshgrid与vstack
  • 线性SVM可视化 (3):建模,绘制图像并包装函数
  • 线性SVM可视化 (4):探索建立好的模型
  • 线性SVM可视化 (5):非线性数据集上的推广与3D可视化
  • 线性SVM可视化 (6):Jupyter Notebook中的3D交互功能
  • 非线性SVM与核函数:重要参数kernel
  • 案例:如何选取最佳核函数 (1)
  • 案例:如何选取最佳核函数 (2)
  • 案例:在乳腺癌数据集上探索核函数的性质
  • 案例:在乳腺癌数据集上对核函数进行调参 (1)
  • 案例:在乳腺癌数据集上对核函数进行调参 (2)
  • SVM在软间隔数据上的推广
  • 重要参数C & 总结
  • 第9章: 支持向量机 (下)
  • SVM (下)课件
  • 目录:本周将学习什么
  • 简单复习支持向量机的基本原理
  • 参数C的深入理解:多个支持向量存在的理由
  • 二分类SVC中的样本不均衡问题:重要参数class_weight
  • 如何使用参数class_weight (1)
  • 如何使用参数class_weight (2)
  • SVC的模型评估指标
  • 混淆矩阵与准确率
  • 样本不平衡的艺术(1):精确度Precision
  • 样本不平衡的艺术(2):召回率Recall与F1 measure
  • 对多数类样本的关怀:特异度Specificity与假正率FPR
  • sklearn中的混淆矩阵
  • ROC曲线:Recall与假正率FPR的平衡
  • 概率与阈值
  • SVM做概率预测
  • 绘制ROC曲线 (1)
  • 绘制ROC曲线 (2)
  • 绘制ROC曲线 (3)
  • sklearn中的ROC曲线和AUC面积
  • 利用ROC曲线求解最佳阈值
  • 选学说明:使用SVC时的其他考虑
  • 案例:预测明天是否会下雨 - 案例背景
  • 案例:导库导数据,探索特征,jupyter中的快捷键
  • 案例:分集,优先处理标签
  • 案例:描述性统计,处理异常值
  • 案例:现实数据上的数据预处理 - 处理时间
  • 案例:现实数据上的数据预处理 - 处理地点 (1)
  • 案例:现实数据上的数据预处理 - 处理地点 (2)
  • 案例:现实数据上的数据预处理 - 处理地点 (3)
  • 案例:现实数据上的数据预处理 - 处理地点 (4)
  • 案例:现实数据上的数据预处理 - 填补分类型缺失值
  • 案例:现实数据上的数据预处理 - 编码分类型变量
  • 案例:现实数据集上的数据预处理 - 处理连续型变量
  • 案例:建模与模型评估 (1)
  • 案例:建模与模型评估 (2)
  • 案例:模型调参:追求最高的recall
  • 案例:模型调参:追求最高的精确度 (1)
  • 案例:模型调参:追求最高的精确度 (2)
  • 案例:模型调参:追求精确度与recall的平衡
  • SVM总结与结语
  • 第10章: 回归大家族:线性回归,岭回归,Lasso与多项式回归
  • 线性回归大家族课件
  • 本周要学习什么
  • 概述,sklearn中的线性回归大家族
  • 多元线性回归的基本原理和损失函数
  • 用最小二乘法求解多元线性回归的过程
  • 多元线性回归的参数,属性及建模代码
  • 回归类模型的评估指标:是否预测准确?
  • 回归类模型的评估指标:是否拟合了足够的信息?
  • 多重共线性:含义,数学,以及解决方案
  • 岭回归处理多重共线性
  • sklearn中的岭回归:linear_model.Ridge
  • 为岭回归选择最佳正则化参数
  • Lasso处理多重共线性
  • Lasso的核心作用:特征选择
  • Lasso选择最佳正则化参数
  • 线性数据与非线性数据
  • 线性vs非线性模型 (1):线性模型在非线性数据集上的表现
  • 线性vs非线性模型 (2):拟合,效果与特点
  • 离散化:帮助线性回归解决非线性问题
  • 多项式对数据做了什么?
  • 多项式回归提升模型表现
  • 多项式回归的可解释性
  • 多项式回归:线性还是非线性模型? + 本周结语
  • 第11章: 朴素贝叶斯
  • 朴素贝叶斯课件
  • 本周要讲解的内容
  • 为什么需要朴素贝叶斯
  • 概率论基础 - 贝叶斯理论等式
  • 瓢虫冬眠:理解条件概率 (1)
  • 瓢虫冬眠:理解条件概率 (2)
  • 瓢虫冬眠:理解条件概率 (3)
  • 贝叶斯的性质与最大后验估计
  • 汉堡称重:连续型变量的概率估计 (1)
  • 汉堡称重:连续型变量的概率估计 (2)
  • sklearn中的朴素贝叶斯
  • 认识高斯朴素贝叶斯
  • 高斯朴素贝叶斯擅长的数据集
  • 探索贝叶斯 - 拟合中的特性与运行速度 (1)
  • 探索贝叶斯 - 拟合中的特性与运行速度 (2) - 代码讲解 (1)
  • 探索贝叶斯 - 拟合中的特性与运行速度 (3) - 代码讲解 (2)
  • 探索贝叶斯 - 拟合中的特性与运行速度 (4) - 分析与结论
  • 概率类模型的评估指标 (1) - 布里尔分数
  • 概率类模型的评估指标 (2) - 布里尔分数的可视化
  • 概率类模型的评估指标 (3) - 对数损失Log loss
  • 概率类模型的评估指标 (4) - 可靠性曲线 (1)
  • 概率类模型的评估指标 (5) - 可靠性曲线 (2)
  • 概率类模型的评估指标 (6) - 概率分布直方图
  • 概率类模型的评估指标 (7) - 概率校准 (1)
  • 概率类模型的评估指标 (8) - 概率校准 (2)
  • 多项式朴素贝叶斯 (1) - 认识多项式朴素贝叶斯
  • 多项式朴素贝叶斯 (2) - 数学原理
  • 多项式朴素贝叶斯 (3) - sklearn中的类与参数
  • 多项式朴素贝叶斯 (4) - 来构造一个分类器吧
  • 伯努利朴素贝叶斯 (1) - 认识伯努利朴素贝叶斯
  • 伯努利朴素贝叶斯 (2) - sklearn中的类与参数
  • 伯努利朴素贝叶斯 (3) - 构造一个分类器
  • 探索贝叶斯 - 朴素贝叶斯的样本不均衡问题
  • 补集朴素贝叶斯 - 补集朴素贝叶斯的原理 (1)
  • 补集朴素贝叶斯 - 补集朴素贝叶斯的原理 (2)
  • 补集朴素贝叶斯 - 处理样本不均衡问题
  • 案例:贝叶斯做文本分类 (1) - 单词计数向量技术
  • 案例:贝叶斯做文本分类 (2) - 单词计数向量的问题
  • 案例:贝叶斯做文本分类 (3) - TF-IDF技术
  • 案例:贝叶斯做文本分类 (4) - 探索和提取文本数据
  • 案例:贝叶斯做文本分类 (5) - 使用TF-IDF编码文本数据
  • 案例:贝叶斯做文本分类 (6) - 算法应用与概率校准
  • 第12章: XGBoost
  • XGBoost课件
  • 本周要学习什么
  • XGBoost前瞻:安装xgboost,xgboost库与sklearn API
  • 梯度提升树(1):集成算法回顾,重要参数n_estimators
  • 梯度提升树(2):参数n_estimators下的建模
  • 梯度提升树(3):参数n_estimators的学习曲线
  • 梯度提升树(4):基于方差-偏差困境改进的学习曲线
  • 梯度提升树(5):控制有放回随机抽样,参数subsample
  • 梯度提升树(6):迭代决策树:重要参数eta
  • 梯度提升树(7):迭代决策树:重要参数eta
  • XGBoost的智慧 (1):选择弱评估器:重要参数booster
  • XGBoost的智慧 (2):XGBoost的目标函数,使用xgboost库建模
  • XGBoost的智慧 (3):求解XGBoost的目标函数 - 推导过程
  • XGBoost的智慧 (4):求解XGboost的目标函数 - 泰勒展开的相关问题
  • XGBoost的智慧 (5):参数化决策树,正则化参数lambda与alpha
  • XGBoost的智慧 (6):建立目标函数与树结构的直接联系
  • XGBoost的智慧 (7):最优树结构,求解w和T
  • XGBoost的智慧 (8):贪婪算法求解最优树
  • XGBoost的智慧 (9):让树停止生长:重要参数gamma与工具xgb.cv
  • XGBoost应用 (1):减轻过拟合:XGBoost中的剪枝参数
  • XGBoost应用 (2):使用xgb.cv进行剪枝参数的调参
  • XGBoost应用 (3):使用pickle保存和调用训练好的XGB模型
  • XGBoost应用 (4):使用joblib保存和调用训练好的XGB模型
  • XGBoost应用 (5):XGB分类中的样本不平衡问题 - sklearnAPI
  • XGBoost应用 (6):XGB分类中的样本不平衡问题 - xgboost库
  • XGBoost应用 (7):XGB应用中的其他问题 + XGB结语

进入课程:《菜菜的机器学习sklearn课堂》

DA内容精选


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群