全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析与数据挖掘
1801 0
2022-05-06
在本文中,让我们了解一些常用的机器学习算法。这些可以用于几乎任何类型的数据问题。

线性回归
逻辑回归
决策树
支持向量机算法
降维算法
梯度提升算法和 AdaBoosting 算法
GBM
XGBoost
光GBM
CatBoost
线性回归
这用于基于连续变量估计实际值,例如房屋成本、通话次数、总销售额等等。在这个过程中,通过拟合最佳线在自变量和因变量之间建立关系。这条最佳拟合线称为回归线,由线性方程 Y= a *X + b 表示。

在这个等式中:

Y “ 因变量
一个“斜坡
X “ 自变量
b“拦截
系数 a 和 b 是根据最小化数据点和回归线之间距离的平方差之和得出的。

逻辑回归
这用于根据可用的自变量集评估离散值(主要是二进制值,如 0/1、是/否、真/假)。简单来说,通过将数据拟合到 logit 函数来预测事件发生的概率很有用。它也称为logit回归。

可以尝试以下列出的这些以改进逻辑回归模型

包括交互项
删除特征
正则化技术
使用非线性模型
决策树
这高度用于分类问题。决策树算法被认为是最流行的机器学习算法之一。这对连续和分类因变量都有效。这是根据最重要的属性/自变量来完成的,以创建尽可能不同的组。

支持向量机算法
该算法是一种分类方法,其中原始数据被绘制为 n 维空间中的点(其中 n 是存在的特征数)。每个特征的值都是特定坐标的值。这使得对数据进行分类变得非常容易。例如,如果我们考虑一个人的头发长度和身高等两个特征。首先,这两个变量将被绘制在二维空间中,其中每个点都有两个坐标,这些坐标称为支持向量。

降维算法
在过去几年中,在每个可能的阶段都收集了大量数据,并被许多部门分析。原始数据还包含许多特征,但主要挑战是识别高度重要的变量和模式。决策树、PCA 和因子分析等降维算法有助于根据相关矩阵、缺失值比率找到相关细节。

梯度提升算法和 AdaBoosting 算法
GBM –这些是在必须处理大量数据以进行高精度预测时高度使用的增强算法。AdaBoost 是一种集成学习算法,它混合了各种基础估计器的预测能力以提高鲁棒性。

XGBoost “这具有主要的高预测分析,使其成为事件准确性的最合适选择,因为它同时拥有树学习算法和线性模型。

LightGBM “这是一个梯度提升框架,使用基于树的学习算法。该框架是一种基于决策树算法的非常快速且高效的梯度提升框架。它被设计为具有上述好处的分发:

支持机器学习的并行和 GPU
更快的训练速度和更好的效率
降低内存使用率并提高准确性
能够处理大规模数据
CatBoost“这是一个开源的机器学习算法。它可以轻松与 Core Ml 和 TensorFlow 等深度学习框架集成。它可以处理各种数据格式。

任何寻求机器学习职业的人都应该了解并增加他们对这些算法的了解。

      相关帖子DA内容精选
  • 大厂数据分析面试指南!来自亚马逊、谷歌、微软、头条、美团的面试问题!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群