全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析与数据挖掘
452 0
2022-11-08
describe()主要用于分析一组数据对象的分布特征,使用describe()函数一个很大的优点是,我们会得到数值列的描述性统计,并排除了字符列。

让我们首先创建一个DataFrame,显示学生姓名及其在数学和英语中的分数:

import pandas as pd

data = {  
    'Name': ['John', 'Alice', 'Joseph', 'Alex'],
    'English': [64, 78, 68, 58],
    'Maths': [76, 54, 72, 64]
}

df = pd.DataFrame(data)  
print(df)  

输出:

English  Maths    Name
0       64     76    John  
1       78     54   Alice  
2       68     72  Joseph  
3       58     64    Alex  

我们只需要describe()在DataFrame上调用函数并获得各种度量,如均值,标准差,中位数,最大元素,最小元素等:

df.describe()  

输出:

   English      Maths
count   4.000000   4.000000  
mean   67.000000  66.500000  
std     8.406347   9.712535  
min    58.000000  54.000000  
25%    62.500000  61.500000  
50%    66.000000  68.000000  
75%    70.500000  73.000000  
max    78.000000  76.000000  

如您所见,该describe()方法完全忽略了“名称”列,因为它不是数字,这正是我们想要的。这简化了调用者的工作,因为在计算所需的数值统计数据之前,您无需担心删除非数字列。




二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群