全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析与数据挖掘
3754 0
2020-12-08
解释实时数据的P值和R平方得分–统计数据探索
在任何数据科学项目中,统计数据探索阶段或探索性数据分析(EDA)是任何模型构建的关键。一旦我们准备好将业务问题转换为数据科学问题,并确定并列出围绕该问题的所有假设,就可以立即开始。在这里,我们将尝试从给定的数据集中找到主要特征和隐藏模式。本文的重点将放在如何使用一些统计方法(例如P,R 2,假设检验和方差分析)进行数据探索,以比较两个不同的组,重点更多地放在应用程序侧而不是在概念本身。
我使用过Tableau之类的分析工具来获取一些有用的图,并使用scipy之类的python包来进行统计测试(例如一种方差分析)并比较f值。如果数据具有钟形曲线的形状,则大多数统计测试都将获得良好的结果。在我的情况下,因变量(研究变量)是一种高斯曲线,因此我想从统计学角度探索数据并据此进行推断。
回归分析和统计数据探索测试(例如假设测试)中使用的两个最重要的度量是R平方和P值,但通常我们几乎很少在分析中考虑这些。但是使用Tableau或power bi这样的现代分析工具,我们可以生成带有趋势线的一些好的图,并且可以轻松地计算这些度量,而不必编写我们自己的代码,并且可以将其用于推理。
重要条款
与概述中一样,本文分为3个部分。但是在进入各个部分之前,我们应该熟悉以下一些统计数据探索术语-
测定系数:   
通常将其表示为R 2或r 2   ,更通常称为R平方是特定自变量对因变量的影响程度。该值通常介于0和1之间。值<0.3较弱,值0.3和0.5中等,值> 0.7表示对因变量的影响很大。我们将在稍后的博客中再次讨论。
P值:
这是一个概率测度,即观察到的值是随机机会。当相应的自变量发生变化时,因变量中没有观察到显着变化。因此,P值越低,观察到的差异的意义就越大。这通常用于统计假设检验中,通常P <0.05意味着可以拒绝原假设,而P> 0.05则意味着当变量更改时没有显着差异。在下图中,阴影部分表示P值。
统计数据探索-p值
零假设H 0:
这里的想法是拒绝或取消零假设,并提出替代假设,以更好地解释这一现象。
替代假设H a:   
这与零假设相反,也就是说,它与零假设相反。例如,如果空假设指出“我将赢得$ 10”,则备用假设将为“我将赢得超过$ 10”。基本上,我们正在检查(替代假设)是否有足够的证据可以拒绝零假设。假设检验可以是一尾或二尾,如下图所示,该图描绘了标准法线模型(均值= 0,标准偏差为1)。P c是临界值或检验统计数据
统计数据探索-假设检验
置信区间和显着性水平(Alpha):
置信区间(CI)是值范围(-R,+ R),我们确定我们的总体参数(真实值)位于其中。这主要用于假设检验。显着性水平定义了我们需要多少证据来拒绝H0以支持Ha。它用作截止。常用的默认截止值为0.05。下面列出了CI表,其中具有标准正态分布的(1%,5%,10%)显着性水平的临界值和alpha值
统计数据探索-CI和Alpha
回归线和方程:   
通常,当在机器学习的上下文中提到回归时,我们指的是线性回归和y截距线,即该线切割y轴的点。该线可以在数学上表示为穿过(自变量,因变量)的数据点坐标的直线。在方程式中
y = m * x + C,其中C是y轴截距,m是梯度或斜率
在实时情况下,这可能并不总是一条直线,并且自变量或预测变量与因变量或我们要预测结果的变量之间存在非线性。因此,我们需要根据正在挖掘的数据集查看其他回归,例如多项式,指数或什至对数。在本文中,我有看起来像高斯曲线的数据(目标变量),因此我将尝试在其上拟合多项式回归。
多项式回归:
在统计中,多项式回归是一种考虑自变量非线性的回归分析形式,目标变量被建模为预测变量的n次多项式。那是
y = b 0   + b 1 * x 1   + b 2   * x 2 2   + b 3 * x 3 3   +….. bn * x n n
其中y是目标变量或因变量,
,b 1, b 2 ….b n是每个多项式的b 0的回归系数和y截距,x 1,x 2 …x n是预测变量或自变量。
自变量对因变量方差的统计数据探索
为了演示,我将从我的私人项目数据集中获取3个自变量(温度,电流,电压)和因变量(功率)。该数据与能源系统有关,其中,在该系统处于活动状态的任何给定日期,我们在每个时间步长上都有连续的瞬时功率产生。让我们看一下任何一天的功率趋势图(使用tableau生成)。
数据可视化
上面的曲线非常类似于钟形曲线,可以看到很多尖峰,因为这是在35到45秒的持续时间内产生的瞬时功率。
df.dtypes
日期时间对象
电源浮动
温度浮动
当前float64
电压浮动
dtype:对象
样本数据框记录
统计数据探索-负责人
如我们所见,功率值每30-40秒变化一次。该数据集包含两年的2019年和2020年的数据。让我们看一下特定月份的因变量和每个自变量的散点图。
统计数据探索-单变量分析
我们可以看到
当设备主动(Power> 0)产生功率时,大多数情况下温度值在42至65之间
当设备主动(Power> 0)产生功率时,大多数情况下电压值在18至45之间
电流似乎具有很强的线性关系,当电流值接近10时,功率最大。
由于输出似乎呈正态曲线趋势,因此我将使用多项式回归(针对6度的非线性)对其进行测试。我们也可以尝试拟合三阶多项式,基本上是超参数。我在这里使用了tableau分析工具,因为我们可以进行一些统计分析并轻松绘制趋势线等,而无需编写我们自己的代码。
接下来,让我们在下一节中了解如何解释这些值
可以从Tableau桌面绘制-分析-模型趋势线-多项式
统计数据探索-Tableau中的多项式回归
如何利用实时数据从P值和R平方得分得出推断
在对数据进行解释之前,我们需要将所有数据收集到某个地方。我已经按月对设备获取了这些值,并以表格数据的形式存储了它们。(见下文)。让我们先了解数据。有12行9列。行包含月份数据,列包含与目标相关的3个独立变量的数据。前三列具有该特定月份的中位数(您也可以使用平均值),后三列具有P值,后三列具有R平方值。绿线是多项式趋势线。
R平方和p值
数据解释–我收集了一些明显的事实:
从上表中,我们可以进行一些第一手推断,例如
1.所有自变量都指向否定零假设。有证据表明这些预测变量确实会影响目标。通常我们只考虑0.05或5%的显着性水平,但是在上述数据中,大多数值的P <0.0001,这意味着每1000个数据中有999个存在统计上有力的证据,支持替代假说,如果该预测变量发生变化,改变目标。  
2.从R 2得分,我们可以推断预测变量对因变量的影响程度。我们可以看到,电流是影响最大的变量,其次是温度和电压。
3.该设备在整个研究期间始终产生140-160瓦的功率。换句话说,我们可以安全地推断出该设备在任何给定的一天都能够产生大于等于140瓦的功率。
数据解释– II更深刻的见解:
1.电流与功率之间存在很强的线性关系,并且随着电流的值增加或减少,功率的值也会成比例地增加或减少。这也可以从始终具有接近0.99的值的R 2 scrore推断出来。请参考上面的散点图,该散点图也显示了与电流的线性关系。
2.当审查的预测变量具有值(电流= 10.42,温度= 60.62,电压= 36.30)时,达到了目标变量的最大值(功率378瓦)。这只是当前的信息。我们需要进一步挖掘它以获得更多的线索或模式组合,以获取最大的输出。
3.在整个实验期间,三月和四月似乎很不寻常,因为在这几个月中,温度中位数最低(<= 53),电压中位数较高(> = 38) 。与其他月份相比,当前的中位数也处于最低水平。这也可以从该月相应的R 2分数中得出。另一个有趣的推论是,每当温度在下侧时,电压对目标变量的影响就更大,反之亦然,从电流中值的值可以直观地看出影响的程度。
4.基于这些,我们可以在系统中设置实时警报,以监控这些预测变量的关键值以及最近D天的当前中位数,并基于当前中位数验证两个假设,优势程度可能会有所不同'和另一个假设-'当温度中位数偏高时,温度对目标的影响比电压要大,如果温度中位数下降,则电压会影响更大。
5.温度的P值在3月和4月异常高,这再次触发了我们将来遇到该P值时设备中某些异常行为。这基本上意味着,在一种情况下,我们无法拒绝零假设
使用统计测试(如Anova)比较两个不同的系统参数
方差和F统计量的分析:可以执行ANOVA测试以比较两组(在这种情况下为2个不同的设备),并计算F统计量以确定变异性。
在本节中,我使用了来自另一台设备的类似数据来进行一些统计假设检验。我已经演示了如何对两个不同设备的特定自变量进行单向方差分析测试。如果这些设备在同一位置彼此相邻放置,则我们将无法拒绝零假设,因为两个设备的性能均相同,但是如果将这些设备放置在其他地理位置,则将观察到差异。以下是设备2在另一个遥远位置的数据。使用python的scipy,我们可以做一个简单的测试来比较这两个设备的温度变化并评估每个月的f值。为了演示,我花了四月到八月的时间来获取f值。
阿诺娃
我们还可以进行更复杂的测试,例如
检查每日变化而不是月份值
使用f比率作为新功能,以后可以在预测建模中使用它来预测值,例如在设备2中,我们可以看到Sep和Oct的值不可用,或者将其用于复杂的分析(如“假设分析”) (新设备放置在特定位置,我们需要根据从当前设备获得的结果来预测该设备的值)
使用一种方法ANOVA测试假设的简单Python示例:
从scipy.stats输入2个设备的温度得分
device1 = [52.34
device2 = [61.97
import f_oneway
f_oneway(device1,device2)
#执行单方差分析
F_onewayResult(statistic = 43.35900660252281,pvalue = 0.00017210195536532808)
由于pvalue <0.05,我们拒绝空假设。因此,这两个设备的总体平均值不相同。
F =样本均值之间的差异/样本内的差异(在这种情况下为43)
结论
在此博客中,我仅分享了一些有关统计数据探索的想法,并且还确定了围绕因变量和自变量的新假设。在其他任何数据集中也可以进行类似的分析,即使在EDA –探索性数据分析阶段开始之前,也可以理想地识别并列出所有可能的假设,但有时在EDA期间,我们也无法获得与数据所属领域相关的深刻见解没有被概念化或更早地遗漏,或者是由于未知(无形)变量影响目标的原因。
题库
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群