每个Analytics Professional都应知道的Excel中的10种统计功能
让我们让它对我们更有意义-统计是“数据”科学的语法。您会注意到,几乎每位成功的数据科学专业人士或分析专业人士都对统计知识有扎实的了解-但这是否意味着您需要该学科的硕士学位?
绝对不!
统计函数Excel
我们将使用著名的帕累托原理来处理本文-80%的后果来自20%的原因。因此,我们将主要关注80%的时间中可用的20%的概念和功能!现在,作为分析师的问题是,如何开始实施统计?
当然,您可以使用Python和R等编程语言来实现和实践这些概念。但是,请稍等片刻,然后思考–大多数组织中最常用的工具是什么?
这是Microsoft Excel!老实说,Excel是分析专家的瑞士军刀,可以帮助您专注于重要的事情(在我们的案例中为统计数据),并自行处理其余的计算和自定义。
本文适用于所有开始使用Excel进行统计的人。我们将在Excel中使用10个主要统计功能来回答虚拟体育公司Khelo的问题,同时仔细研究其数据。
如果您是分析和Excel领域的初学者,我强烈建议您参加以下免费课程:
业务分析简介
Microsoft Excel:公式和函数
我们将如何在Excel中处理这些1o统计函数
我将Excel中的这些统计功能分为两类:
基本统计功能
中级统计功能
让我们开始!
了解数据和问题陈述
我们将解决有关我们的虚拟运动器材和服装公司Khelo的几个关键问题。这些是我们拥有的列:
设备
销售数量
每个项目的费用
折扣%
收入
统计函数Excel
在本文的过程中,我们将回答以下问题:
打折有几件商品?
商店出售多少设备?
不打折出售的产品数量是多少?
是否有售出的产品价格超过2000,且折扣率超过50%?
平均售出多少产品?
售出产品数量的中位数是多少?
最频繁的折扣百分比是多少?
售出产品数量的标准偏差是多少?
售出的产品数量与折扣率之间是否有关系?
Excel中的基本统计功能
MS Excel提供了一系列有用的统计功能。让我们从一些基本但功能非常强大的功能开始。老实说,您会发现您90%的时间都在使用基本统计功能,而其余10%的时间是由中级和高级功能占用的。
在这里,我们将主要讨论各种计数函数。这些与其他函数非常相似,例如求和,最大值,最小值,平均值。
1.计数功能
当需要计算包含数字的单元格的数量时,可以使用count函数。仅记住数字!让我们看一下函数:
COUNT(值1,[值2],...)
因此,让我们尝试找到第一个问题的答案–多少件商品打折?
统计函数Excel-计数
打折商品有11种。
2. Counta功能
尽管count函数仅对数字值进行计数,而COUNTA函数对非空范围内的所有单元格进行计数。该功能对于计算包含任何类型的信息(包括错误值和空文本)的单元格很有用。
COUNTA(值1,[值2],...)
我们将使用counta函数回答第二个问题,因为它可以计算所有非空值-商店出售了多少件设备?
Counta
商店出售的商品总数为13。
3. Countblank
该COUNTBLANK函数计算空白单元格的单元格区域的数量。包含返回空文本的公式的单元格也计入此处,但不计算零值的单元格。这是在分析任何数据时汇总空单元格的强大功能。
COUNTBLANK(范围)
总结空单元格是我们第三个问题的要求–折扣部分中没有哪些产品?让我们应用该功能!
统计函数Excel-COUNTBLANK
只有2件没有打折。
4. Countifs函数
Countifs是Excel中最常用的统计函数之一。COUNTIFS函数将一个或多个条件应用于给定范围内的单元格,并仅返回满足所有条件的那些单元格。
COUNTIFS(criteria_range1,条件1,[criteria_range2,条件2]…)
注意:每个新范围必须具有与criteria_range1参数相同的行数和列数。范围不必彼此相邻。
此功能似乎可以完美地回答第四个问题–是否有任何产品的销售价格超过2000,且折扣率超过50%?
问题似乎很复杂,但是在Excel中找到答案确实很容易。只有一种产品(即运动鞋)的价格超过2000,并且折扣率大于20%。
很好,不是吗?到目前为止,我们已经了解了MS Excel中的一些基本统计功能。接下来,让我们看一下中间统计函数。
Excel中的中间统计功能
我们将在此处讨论与集中趋势和离散有关的MS Excel中的一些中间统计函数。这些功能对于我们作为分析师的日常工作非常有用。
5.平均功能
我们日常生活中最常用的功能是平均值(或平均值)。AVE
RAGE函数只是返回给定范围内所有像元的算术平均值:
AVERAGE(数字1,[数字2],...)
但是,使用平均值有一个简单的缺点-平均值很容易出现异常值。因此,他们可能在我们的分析中描绘出非常不现实的图画。让我们找出平均销售数量:分散
平均值约为?365.2。我们还将对成本进行类似的计算。
6.中位数函数
可以通过对中心趋势使用另一个函数来解决离群值问题:中值。中值函数返回给定单元格范围的中间值。语法非常简单:
MEDIAN(数字1,[数字2],...)
让我们找到我们的体育用品商店所售商品数量的中位数,看看这与我们的平均值有多接近:
我们看到中位数为?320,非常接近平均值。这意味着我们的数据没有太大的波动。让我们看看是否是商品成本的情况:
每个项目成本的中位数和平均值相差很大。例如,一个球的成本是50,而一个球棒的成本是2000 –导致高度分散。
7.模式功能
对于数值,通常均值和中位数就足够了,但是分类值呢?在这里,模式进入了画面。模式返回给定值范围内最频繁和重复的值:
MODE.SNGL(数字1,[数字2],...)
注意:MODE.SNGL仅返回单个值,而MODE.MULT返回最常见的值的数组。
好吧,这很简单。让我们找到体育用品商店给出的最频繁的折扣值:
此折扣值为10%。
8.标准偏差功能
标准偏差是量化离散度的方法之一。它是衡量值与平均值的分散程度的度量。
在这里,我们将使用STDEV.P函数,该函数用于根据作为参数给出的整个总体来计算标准差:
STDEV.P(number1,[number2],...)
注意:STDEV.P函数假定其参数为整个填充。如果不是这种情况,则可以使用函数STDEV.S()函数。
对于较大的样本量,总体和样本的标准差将返回近似相似的值。以前,我们已经计算了均值和中位数来获得集中趋势的图片。让我们找出标准差以查看分散程度:
统计函数Excel-标准偏差
正如预期的那样,销售数量的标准偏差较小,这意味着分散程度较小,而产品成本的标准偏差较高。
9.四分位数功能
这是在行业中具有广泛应用的又一功能。它有助于我们将人口分为几类。QUARTILES.INC基于从0到1(含0)的百分位值返回数据集的四分位数。
例如,您可以使用此功能找出客户群中排名前25%的客户。
QUARTILE.INC(数组,夸脱)
10.相关函数
我个人最喜欢CORREL()函数。它提供了真正强大的洞察力,而肉眼却看不见。的CORREL函数返回两个单元格范围的相关系数。那是什么 它基本上告诉我们两个变量之间的关系有多强。
注意:它没有描述任何因果关系。
CORREL(数组1,数组2)
相关值的范围在-1和1之间。
我们来看最后一个最有趣的问题–售出的商品数量与折扣百分比之间是否有任何关系?
统计函数Excel-关联
好了,相关系数约为0.8,非常高。看来这些是正相关的-意味着更多的折扣,更多的出售数量。
题库