统计推断和假设检验简介
推理
在之前的博客(统计与数据科学之间的差异)中,我讨论了统计推断的重要性。在本节中,我们将扩展这些思想
统计推断的目的是对某些不确定性水平内未观察到的事物做出陈述。推理是困难的,因为它基于样本,即目标是基于样本来了解总体。的人口 为对象的集合,我们要研究/试验。例如,如果您要在某一天研究流水线的产品质量,则该天的总产量就是人口。在现实世界中,可能很难测试每种产品–因此,我们从总体中抽取样本,然后根据整个人群的样本推断结果。
从这个意义上说,统计模型提供了人口以及人口要素之间如何相互联系的抽象表示。参数是代表总体特征或关联的数字。我们从数据中估计参数的值。甲 参数表示作为目标人群的固定特性或措施的ummary描述。它代表的是我们进行普查(而不是样本)所获得的真实价值。参数的示例包括均值(μ),方差(σ2),标准偏差(σ),比例(π)。这些值分别称为统计量。一个抽样分布是通过从总体中抽取大量样本获得的统计量的概率分布。在采样中,置信区间提供了更连续的不确定性度量。置信区间为未知参数(例如,平均值)提出了一系列合理的值。换句话说,置信区间代表我们可以确定我们真实值所在的值范围。例如,对于给定的样本组,平均高度为175 cms,如果置信区间为95%,则意味着, 95%的类似实验将包含真实平均值,但5%的样本将不包含真实平均值。
图像来源和参考:置信区间简介
假设检验
了解了采样和推论之后,现在让我们探索假设检验。假设检验使我们能够对数据的分布或一组结果是否不同于另一组结果提出主张。假设检验使我们能够使用样本数据来解释或得出有关总体的结论。在假设检验中,我们评估有关总体的两个互斥陈述,以确定样本数据最能支持哪种陈述。在零假设(H0)是没有变化的声明,被认为是真实的,除非有证据表明并非如此。零假设是我们要反驳的假设。该备择假设:(H1或哈)与原假设相反,表示正在测试的声明。我们正在尝试收集支持替代假设的证据。的概率值(p值)表示基于当前样本或一个比所述当前样本更极端的零假设为真的概率。的显着性水平(α)定义了一个截止p-值对样品如何强烈违背了实验的零假设。如果P值<α,则有足够的证据拒绝原假设并接受替代假设。如果P值>α,我们将无法拒绝原假设。
中心极限定理
该中心极限定理是在假设检验的心脏。给定一个样本,人口统计信息是不可知的,我们需要一种推断整个人口统计信息的方法。例如,如果我们想知道世界上所有狗的平均体重,就不可能称重每只狗并计算平均值。因此,我们使用中心极限定理和置信区间来推断一定范围内的总体均值。
因此,如果我们采取多个样本–假设有40只狗的第一个样本,并计算该样本的平均值。再次,我们抽取下一个样本,例如50条狗,并进行相同的操作。我们通过获取大量彼此独立的随机样本来重复此过程-然后,根据中心极限定理,这些样本的“均值”将给出整个总体的近似均值。同样,均值的直方图将按照中心极限定理表示钟形曲线。中心极限定理很重要,因为该概念适用于未知分布(例如:二项式甚至是完全随机的分布)–这意味着假设检验之类的技术可以应用于任何分布(不仅是正态分布)

关注 CDA人工智能学院 ,回复“录播”获取更多人工智能精选直播视频!