使用Python中的dtale库进行数据探索
数据分析是任何数据科学项目中最重要的部分。分析数据可为我们提供有关数据的一些重要而优美的见解。Python中有许多库可以执行分析,例如Pandas,Matplotlib,Seaborn等。
最近,开发人员引入了新的“ dtale”库,以更少的代码行执行分析。
故事
D-Tale是Flask后端和React前端的结合,为我们提供了一种查看和分析Pandas数据结构的简便方法。它与Jupyter笔记本和Python终端无缝集成。当前,此工具支持诸如DataFrame,Series,MultiIndex,DatetimeIndex和RangeIndex之类的Pandas对象。
让我们深入了解如何在Python中使用此dtale库!
为dtale设置环境
康达创建-n dtale python
康达激活dtale
现在,我们首先需要在各自的环境中安装dtale库。
点安装dtale
使用dtale进行探索性数据分析
现在,让我们使用dtale深入研究我们的数据。
导入dtale ##导入D-Tale库
导入Seaborn将有助于我们加载数据集。Seaborn有许多默认数据集。我们将使用“行星”数据集进行以下分析。
将seaborn导入为sns
df = sns.load_dataset('planets')
dtale.show(df,ignore_duplicate = True)
运行上述代码后,用户可以访问下面的交互式表以执行多个操作并可视化数据集。
导入数据
D故事交互表在左上角显示数据集的列数和行数(在这种情况下,为1035行和6列)
D-Tale以与大熊猫相同的方式向我们显示数据。唯一的不同是,左上角的菜单使我们可以对数据进行很多处理。
单击任何列标题都会打开一个下拉菜单,该菜单为我们提供了对数据进行排序并根据需要准确显示的选项。
列方法dtale
菜单有很多选项。让我们逐一探讨。
描述选项:
在此菜单中,我们可以找到的最有趣的选项是Describe(描述),它显示了所选列的统计分析结果; Column Analysis(列分析),显示了所选列的直方图。
描述选项
描述选项
选择所需的列后,我们将能够在屏幕中间看到三个主要选项“描述”,“直方图”和“类别”选项。describe选项为我们提供有关所选列数据的统计信息,而Histogram则为相应的图形表示。第三个选项是“类别”,因为我们可以从“类别破坏”中选择X轴变量。
距离
分类目录
该库的另一个重要功能是在右上角的“代码导出”选项。此功能提供了特定输出的代码。同样,在“描述”菜单中,我们将能够在底部看到所有异常值和“唯一性”值。
python代码
Python代码
尺寸/主菜单:
在D-Tale主菜单中,您将找到D-Tale中所有可用的选项。这就是D-Tale的所有魔力所在。通过单击DataFrame左上角突出显示的播放按钮,您将能够查看所有选项,如下图所示。
尺寸标注
主菜单
D-Tale提供执行简单操作(例如排序,过滤和格式化)的功能。
“重复项”选项的主要作用是帮助我们删除数据集中的重复值,“自定义过滤器”选项可以将过滤器应用于列。用于数据可视化的最重要的选项是相关性,图表和热图。
相关性:
在主菜单中单击“关联”选项后,它将重定向您到另一个“关联”选项卡。在这种情况下,我们必须在“查看相关性”下拉列表中选择变量。在下拉列表中选择值后,如果单击“ Correlation”值,您将能够看到散点图中两个变量之间的Correlation的直观表示,如下图所示。
相关性
相关性
图表: “主”菜单中的“图表”选项可帮助我们可视化所有不同类型的图表(折线图,条形图,ScatterPlot图,圆形图,Wordcloud,Heatmap图,3D ScatterPlot图和Surface)。D-Tale的神奇功能之一是交互式绘图,它还支持3D图表和带有group by和聚合功能的动画。它非常有用,因为您可以使用不同的图表来可视化任何类型的关系。下图显示了我们可以使用D-Tale中的Chart选项生成的一些图表示例。
图表
散点图
词云
词云
最后,最理想的选择之一是Heatmap。它根据每个单元格的值在数据表中显示颜色。可以使用b中的export CSV选项将图形数据导出到CSV文件
热图
热图
结论
在本文中,我们了解了D-tale如何节省我们的时间和精力来创建具有视觉吸引力和洞察力的EDA报告。该EDA报表工具在分析和可视化所有类型的数据集时非常有用。D-Tale是数据科学社区中最受欢迎的图书馆之一。D-Tale有很多选项,可帮助我们从统计角度了解数据的趋势,因此请继续探索。
题库