在Python中使用ggplot:使用plotnine可视化数据
在本教程中,您将学习如何ggplot在Python中使用图形语法来创建数据可视化。图形语法是一种高级工具,可让您以有效且一致的方式创建数据图。它抽象了最底层的细节,使您可以专注于为数据创建有意义且美观的可视化。
有几个Python软件包提供了图形语法。由于它是最成熟的蛋白质组之一,因此本教程重点介绍其蛋白质组。plotnine基于ggplot2R编程语言,因此,如果您具有R的背景,则可以将plotnine视为与ggplot2Python等效。
在本教程中,您将学习如何:
安装plotnine和Jupyter Notebook
结合图形语法的不同元素
使用plotnine以高效且一致的方式创建可视化
将数据可视化导出到文件
本教程假定您已经具有Python经验,并且至少具有Jupyter Notebook和熊猫的知识。要快速掌握这些主题,请查阅Jupyter Notebook:简介以及使用Pandas和Python探索数据集。
设置环境
在本节中,您将学习如何设置环境。您将涵盖以下主题:
创建虚拟环境
安装plotine
安装Juptyer Notebook
虚拟环境使您可以在隔离的环境中安装软件包。当您想尝试一些软件包或项目而又不会弄乱系统范围的安装时,它们非常有用。您可以在Python Virtual Environments:A Primer中了解有关它们的更多信息。
运行以下命令以创建一个名为目录data-visualization和其中的虚拟环境:
$ mkdir data-visualization
$ cd data-visualization
$ python3 -m venv venv
运行上述命令后,您将在data-visualization目录中找到您的虚拟环境。运行以下命令以激活虚拟环境并开始使用它:
$ source ./venv/bin/activate
激活虚拟环境时,所安装的任何软件包都将安装在该环境中,而不会影响系统范围的安装。
接下来,您将使用pip软件包安装程序在虚拟环境中安装plotnine 。
通过运行以下命令来安装plotnine:
$ pip install plotnine
执行上述命令将使plotnine程序包在您的虚拟环境中可用。
最后,您将安装Jupyter Notebook。尽管这对于使用plotine而言并非绝对必要,但您会发现Jupyter Notebook在处理数据和构建可视化效果时确实非常有用。如果您以前从未使用过该程序,则可以在Jupyter Notebook:简介中了解有关该程序的更多信息。
要安装Jupyter Notebook,请使用以下命令:
$ pip install jupyter
恭喜,您现在拥有一个虚拟环境,其中安装了Plotine和Jupyter Notebook!通过此设置,您将能够运行本教程中介绍的所有代码示例。
建立你的第一个图用ggplot和Python
在本节中,您将学习如何使用ggplotPython构建第一个数据可视化。您还将学习如何检查和使用plotnine附带的示例数据集。
当您熟悉plotnine的功能时,示例数据集确实非常方便。每个数据集都以pandas DataFrame的形式提供,pandas DataFrame是设计用来保存数据的二维表格数据结构。
在本教程中,您将使用以下数据集:
economics:美国经济数据的时间序列
mpg:一系列车辆的燃油经济性数据
huron:1875年至1972年之间的休伦湖水位
您可以在plotnine参考中找到示例数据集的完整列表。
您可以使用Jupyter Notebook检查任何数据集。使用以下命令启动Jupyter Notebook:
$ source ./venv/bin/activate
$ jupyter-notebook
然后,一旦进入Jupyter Notebook,请运行以下代码以查看数据economics集中的原始数据:
from plotnine.data import economics
economics
代码economics从中导入数据集plotnine.data并将其显示在表中:
date pce pop psavert uempmed unemploy
0 1967-07-01 507.4 198712 12.5 4.5 2944
1 1967-08-01 510.5 198911 12.5 4.7 2945
... ... ... ... ... ... ...
572 2015-03-01 12161.5 320707 5.2 12.2 8575
573 2015-04-01 12158.9 320887 5.6 11.7 8549
如您所见,数据集包含1967年至2015年之间每个月的经济信息。每一行都有以下字段:
date:收集数据的月份
pce:个人消费支出(十亿美元)
pop:总人口(以千为单位)
psavert:个人储蓄率
uempmed:失业时间的中位数(以周为单位)
unemploy:失业人数(以千为单位)
现在,使用plotine,您可以创建一个图来显示多年来人口的演变:
from plotnine.data import economics
from plotnine import ggplot
(
ggplot(economics) # What data to use
+ aes(x="date"
+ geom_line() # Geometric object to use for drawing
)
这个简短的代码示例从economics数据集中创建了一个图。快速细分:
第1行:导入economics数据集。
2号线:您导入ggplot()类,以及一些有用的功能plotnine,aes()和geom_line()。
第5行:使用创建一个图对象ggplot(),将economicsDataFrame传递给构造函数。
第6行:您添加aes()了设置要用于每个轴的变量,在本例中为date和pop。
第7行:您添加geom_line()以指定应将图表绘制为折线图。
运行上面的代码将产生以下输出:
Hello Plotnine示例
您刚刚创建了一个图,该图显示了人口随时间的变化!
在本节中,您看到了使用图形语法时需要指定的三个必需组件:
您要绘制的数据
每个轴上要使用的变量
用于绘制的几何对象
您还看到了使用+运算符组合了不同的组件。
在以下各节中,您将更深入地研究图形语法,以及如何使用plotnine创建数据可视化。

关注 CDA人工智能学院 ,回复“录播”获取更多人工智能精选直播视频!