多年来,我一直以做数据分析为生。我的 DA 变体是 50 年前在学术界出现的探索性
数据分析 (EDA) 运动的直接后裔,作为对统计科学超数学化的反应。EDA 方法作为一种平衡方法,试图使用简单易懂的工具来引导和集中基本数据检查,而牺牲了假设通常令人怀疑的复杂模型。
虽然没有对 EDA 的准确定义,但我喜欢的一个特征是:“EDA 是一种数据分析方法,它通过允许数据本身揭示其底层结构的更直接的方法来推迟关于数据遵循何种模型的通常假设和模特。” 换句话说,EDA 深入研究数据,简单地单独和串联地检查变量。
在我的工作中,DA 从广泛研究感兴趣的属性内部和之间的数据分布开始。集中趋势、顺序统计/分位数、密度函数、异常值/异常检测、缺失值、相关性等的测量是至关重要的,支持这些技术的可视化也是如此,例如点图、条形图、直方图、条形图、箱线图、小提琴图、密度图、散点图、热图和 binplots。添加网格或小型多重功能以“按”附加属性的值查看分布和关系。
然而,尽管如此,对我来说最重要的 DA 技术是频率和计数的分布,包括单维和多维。这适用于所有数据类型,包括字符、类别和数字。
我花费了大量的时间和精力在 R、Python-Pandas 和 Julia 中构建频率制表工具。下面是我目前在 R 中的一些插图。下面的代码片段,具有功能 freqsdt 和 allfreqs,围绕着出色的 R data.table 包的超大功能,它通常支持我在笔记本上处理 25+ GB 数据的工作。data.table 是关于数据分析的能力、速度和大小的。确实,data.table 的出现以及互补的 tidyverse 生态系统已经彻底改变了 R 中的分析。虽然我喜欢 Python-Pandas,但如果 Python 版本的 data.table 很快变得强大,我一点也不感到惊讶竞争者。
主力 freqsdt 函数驱动了下面的大多数插图。基于 data.table 的查询和分组隐喻,freqsdt 接受两个字符串参数——第一个是可以包含过滤器的有效 data.table 名称;第二个,以逗号分隔的属性名称字符串,可以包含动态创建的变量。R 的 eval-parse 组合执行最终的字符串。下面详述的这种组合提供了一个全面的、多维的频率生成界面。
编辑推荐
1、
2022年300个以上最佳免费数据科学课程
2、
大厂数据分析面试指南!来自亚马逊、谷歌、微软、头条、美团的面试问题!
3、
机器学习模型方法总结
4、
历史最全机器学习/深度学习/人工智能专业术语表中英对照表
5、
机器学习如何应用于商业场景?三个真实的商业项目
6、
数据工作者的自我修养 | 哪些技能是必不可少的?
7、
《汗牛充栋:数据分析书籍分享》CDA网校新课上线
8、
文本挖掘常用的107个语料库
9、
一图读懂“东数西算”工程
10、
零基础转行数据分析,看这篇文章就够了
DA内容精选