数据集的聚合（Aggregation）与分组（Grouping）

1977

收藏 2017-03-03

首先导入所需的 Pandas 库与 Numpy 库，以及构建方便于结果展示的 display 类：

复制代码

接下来，我们导入 Seaborn 库，我们可以在这个库里找到我们所需的示例数据——一份天文观测数据：

复制代码

(1035, 6)
如下所示，我们的天文观测数据中一共有1035条记录，包含了所观测星球的轨道周期、质量等 6 个字段：

复制代码

作为一般的流程，我们会对得到的数据集进行一下汇总分析，在前面的章节中我们曾经了解过 Pandas 库中自带的 sum 函数与 mean 函数：

复制代码

2.8119254917081569

复制代码

0.56238509834163142

复制代码

在这个例子中，推荐大家使用 describe 函数，这个函数能够一次性输出每个列元素的多项关键统计指标，并且组织为数据框形式：

复制代码

接下来，我们将向大家演示如何进行数据的分组，Pandas 库中的 groupby 函数能够根据指定的列名创建对应的 DataFrameGroupBy 对象：

复制代码

<pandas.core.groupby.DataFrameGroupBy object at 0x7feaf87b9050>
对 DataFrameGroupBy 调用一系列函数则可以得到我们想要的分组汇总结果，如计算样本数总和：

复制代码

我们类似的操作处理示例的天文观测数据，查看一下每一种 method 下观测到的星球轨道周期中位数：

复制代码

<pandas.core.groupby.DataFrameGroupBy object at 0x7feaf87b9a90>

复制代码

<pandas.core.groupby.SeriesGroupBy object at 0x7feaf87d6050>

复制代码

以上内容转自数析学院，原文内容较多，暂时搬运到这，有需要的同学可以直接查看原文

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

2017-3-6 14:37:04

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

栏目导航

分享