决定您的机器学习模型的兴衰成败的聪明成分-探索性
数据分析
好!我们都喜欢蛋糕。如果深入研究烘焙过程,您会注意到几种配料和一种聪明的膨松剂-发酵粉的正确混合如何决定蛋糕的起伏。
“烤蛋糕”在技术文章中听起来可能偏离轨道,但我认为这很相关,可以理解EDA在数据科学管道中的重要性。
当将蛋糕烘焙到数据科学管道中时,聪明的膨松剂(发酵粉)将用于探索性数据分析。
在您的嘴开始像我的蛋糕一样开始浇水之前,让我们了解一下。
探索性数据分析到底是什么?
探索性数据分析是一种数据分析方法,它采用多种技术来实现以下目的:
获得有关数据的直觉。
进行健全性检查。(以确保我们得出的见解实际上来自正确的数据集)。
找出丢失的数据。
检查是否有异常值。
汇总数据。
让我们以著名的“ BLACK FRIDAY SALES”案例研究来了解为什么我们需要EDA。
探索性数据分析-黑色星期五销售数据
核心问题是通过预测购买量来了解客户行为。但是它不是太抽象,让您困惑于如何处理数据,尤其是当您拥有许多具有不同类别的不同产品时。
在继续阅读之前,请对这个问题稍加思考-您是否可以将所有可用的食材放入烤箱中烘烤蛋糕,就像放在烤箱中一样?
显然,答案是否定的!在考虑在
机器学习模型中烘焙整个数据集之前,您需要
得出重要见解
变量识别(数据是否包含类别变量或数字变量,或两者混合)。
变量的行为(变量的值为0-10还是0-1百万)。
变量之间的关系(变量如何相互依赖)。
检查数据一致性
确保存在所有数据。(如果我们已经收集了三年的数据,那么以后任何一周的丢失都可能是一个问题。)
是否存在缺失值?
数据集中是否有异常值?(例如:年龄在2000岁以下的人绝对是一个异常)
特征工程
特征工程(从数据集中现有的原始特征创建新特征)。
** EDA本质上可以破坏或建立任何机器学习模型。**
探索性数据分析中的步骤
探索性数据分析过程
EDA中有5个步骤:->
变量识别:在此步骤中,我们通过发现变量的类型来识别每个变量。根据我们的需要,我们可以更改任何变量的数据类型。探索性数据分析-数据类型
统计学在数据分析中起着重要作用。它是用于数据分析和解释的一组规则和概念。根据需求需要进行不同类型的分析。?让我们研究它们
单变量分析:在单变量分析中,我们研究数据集中每个可用特征/变量的单个特征。有两种类型的功能-连续和分类。在下图中,我给出了可用于分析它们的各种图形技术的备忘单。探索性数据分析-单变量分析表
连续变量:
为了展示有关黑色星期五销售数据集“购买”中一个连续变量的单变量分析,我创建了一个函数,该函数将数据作为输入并绘制一个解释该特征特征的KDE图。
探索性数据分析-单变量分析代码
探索性数据分析-购买数据
分类变量
为了展示有关黑色星期五销售数据集“ City_Category”和“ Marital_Status”的分类变量的单变量分析,我创建了一个函数,该函数以“数据”和“要素”为输入,该函数返回一个计数图来解释要素中类别的频率。
单变量分析分类数据代码
单变量分析类别
双变量分析:在双变量分析中,我们研究了任意两个变量之间的关系,这些变量可以是类别连续的,类别类别的或连续的(如下面的备忘单所示,以及用于分析它们的图形技术)。
二元分析表
在黑色星期五销售中,我们具有分类自变量和连续目标变量,因此我们可以进行分类连续分析以了解它们之间的关系。
双变量分析
箱形图
推论:
从以上两个分析中,我们在Univariate Analysis中观察到B类城市中的最大客户数量。但是,在“ City_Category”和“ Purchase”之间进行的双变量分析则显示了一个不同的故事,即平均购买量最大因此,这些推论可以使我们对数据有更好的直觉,从而有助于更好地进行特征的数据准备和特征工程。
重要的是要注意,仅依靠单变量和双变量分析可能会产生误导,因此可以使用假设检验来验证从这两者得出的推论。我们可以做t检验,卡方检验,方差分析(Anova),这使我们能够量化两个样本彼此之间是否明显相似或不同。在这里,我创建了一个函数来分析返回t统计值的连续和分类关系。
双变量分析代码
婚姻状况在单变量分析中,我们观察到已婚和未婚客户的数量之间存在显着差异。从t检验中,我们得出的t统计值0.89大于显着性水平,即0.05,这表明平均单身购买者和已婚者之间没有显着差异。
缺失值的处理:此步骤的主要原因是找出是否有任何特定原因导致这些值丢失以及我们如何对待它们。因为如果不对它们进行处理,那么它们会干扰数据中运行的模式,从而降低模型的性能。可以处理缺失值的一些方法是:-用均值,中位数,众数填充它们,您可以使用冒充者。
离群值消除:了解离群值的存在非常重要,因为某些预测模型对离群值敏感,因此我们需要相应地对其进行处理。
题库