全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析与数据挖掘
951 0
2020-12-16
2020年每个数据科学家都应该知道的5大统计概念!
必须了解数据科学历程中的统计概念
我今天为什么在这里的主要目的是简要介绍我最喜欢的统计概念,这些概念使您的旅途愉快并带领您在数据科学领域取得成功。已经有很多文章,但我希望使其更加简洁。在执行机器学习和数据科学艺术时,统计数据是一个强大的工具。基本的可视化效果(例如箱形图)为您提供了更多有用的信息,借助统计信息,我们可以有针对性地获取更多信息和对数据的见解。
通过使用统计概念,我们可以获得更有用的见解,使我们知道数据和结构的分布,从而能够应用更多的机器学习技术来获取更多的数据知识。事不宜迟,让我们深入了解它。
概率分布
统计概念-分布
甲均匀分布具有发生在一个特定的范围而该范围之外的任何内容仅仅是0。我们可以假设它作为分类变量的表示0或1的分类变量可能有多个值,但我们可以显现相同的单个值作为多个均匀分布的分段函数。
一个正态分布也被称为是由它的均值和标准差定义的高斯分布。平均值在空间上移动分布,其中标准偏差控制分布。我们知道数据集的平均值和具有高斯分布的数据分布。
一个泊松分布是一样的普通,但是增加的偏斜度。就像低值偏斜时的正常方向一样,它在各个方向上的扩散相对均匀。当偏度值较高时,数据在不同方向上的传播将有所不同。
您可以知道许多分布,这些分布可以帮助您解释使用统一分布的分类数据。许多算法在高斯算法中表现良好。在Poisson中,我们必须格外小心,并选择可靠的算法。
概率分布有助于为假设检验计算参数和关键区域的置信区间。对于单变量数据,为数据确定合理的分布模型很有用。统计间隔和假设检验取决于特定的分布假设。
上下采样
分类问题使用这些技术。有时,我们的分类数据集偏向一侧。例如,对于第1类,我们有1000个样本,但是对于第2类,我们只有200个样本。我们有ML技术来对数据建模并进行预测。在这种情况下,我们有两个预处理选项可以帮助我们训练机器学习模型。
欠采样意味着我们只能从多数类别中选择一些数据,而与少数类别的数目相同。现在,我们可以在类的概率分布上取得平衡。通过选择更少的样本可以使数据集稳定。
过采样意味着我们将少数派类别相乘,以使其计数与多数派类别相同。现在,我们已经整理了数据集和少数群体的分布,而没有其他数据。
统计概念-欠采样和过采样
在上述示例中,我们可以通过两种方式解决该问题。通过使用欠采样,我们只能为类1和2选择200条记录。另一种方法是使用过采样或上采样,将200个示例复制到800个,这样两个类在模型都能更好地工作时都有100个示例。
准确性
真正值:只要预测值和原始值相同,就为真或计数。
真否定:在条件不成立时无法识别或识别。
假阳性:只要不存在该情况,就为假或被检测到。
假阴性:不存在时不识别条件。
敏感度:也称为召回率;衡量被预测为阳性(真实阳性)的实际阳性病例的比例。灵敏度= TP /(TP + FN)。
特异性:衡量实际阴性病例中预测为阴性(真阴性)的比例。特异性= TN /(TN + FP)。
精度:测量正确预测的正确和错误阳性的比例。精度= TP /(TP + FP)。
准确性有助于评估模型的性能,在某些情况下,它不是有效的指标。精度表明我们的模型在预测的正数范围之外有多精确。当假阳性的成本很高时,Precision是确定的好方法。在电子邮件垃圾邮件检测中,误报是指非垃圾邮件(实际为否)已显示为垃圾邮件(预测为垃圾邮件)。如果垃圾邮件检测模型的Precision值不高,则电子邮件用户可能会丢失重要的电子邮件。当与假阴性相关的高成本时,召回率是选择模型的最佳指标。例如,在欺诈检测中。如果欺诈交易(实际为正)导致不欺诈(预测为负),则对银行而言后果将更糟。
假设检验及其统计意义
统计概念-假设检验
零假设:指定总体之间没有差异的假设。
替代假设:该假设指出样本观测值由于外部原因而发生了某些情况。
P值:假设零假设为真,这是获得测试预期结果的概率。p值越小,意味着就有更多的证据支持替代假设。
Alpha:否定原假设为真时拒绝它的概率,这也称为1类错误。
Beta:称为2型错误,未能拒绝错误的原假设。
在所有统计概念中,这是我最喜欢的一个。假设检验是统计中必不可少的步骤。它有助于评估有关总体的两个互斥陈述,以确定样本数据最能支持哪个论点。统计显着性是与正确答案的可接受不确定性水平相比,零假设成立的概率的度量。P值小于或等于5%被认为具有统计学意义。统计假设检验有助于确定数据集的结果是否具有统计意义。
降维
这是缩小数据集维度的过程。这样做的目的是解决在具有高维数据集的情况下出现的问题。换句话说,它具有许多功能。当数据集中存在更多因变量时,则更多样本需要具有特征的每种组合,从而增加了模型的复杂性。降维可以包含较少的数据,而这些数据等同于有助于更快计算的许多功能,更少的冗余和更准确的模型。
降维
根据以上表示,我们将数据集视为具有三个维度和1000个点或值的立方体结构。利用当今的计算能力和技术,可以轻松处理1000条记录,但是在大规模情况下,我们可能会遇到问题。但是,当我们在作为多维数据集一侧的二维视图中查看数据时,可以得出结论,很容易从该视图中分离所有颜色。通过降维,可以将3D数据投影到2D平面上。它有效地减少了我们需要计算的值的数量,将其减少到100。当涉及大量数据时,减少的结果将是节省更多的计算成本,从而带来不错的结果。
将来的修剪是我们执行降维的另一种方法。在此,我们删除了对我们的分析不重要的功能。例如,浏览我们的数据集后,我们可能会发现9个独立变量,其中6个与输出具有高度相关性,而其他3个具有非常低的相关性。然后删除这三个功能不会影响我们的结果。
PCA是用于降维的最常见统计概念之一,它创建了影响相关输出的特征的矢量表示。
结论
对于那些对基于场景的数据科学之旅感兴趣的人,还需要了解许多其他统计概念。这些就像数据科学的基础。统计数据有助于解决现实世界中的复杂问题,因此数据科学家和研究人员可以寻找有意义的趋势和数据修改。简而言之,用于通过对数据执行数学计算来从数据中获取有用的见解。因此,我的建议是花足够的时间来学习对您的旅程有帮助的技能。
题库
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群