Python是公认的目前数据科学和机学习领域最受欢迎的编程软件之一。而支持Python能够火热的主要原因就是它强大易用的标准库,它们可以帮助你完美地解决几乎所有数据科学领域的问题。
提到使用Python进行
数据分析,就不得不提到Pandas。
我们通常讲使用Python进行数据分析核心流程分成以上四个阶段,即字段选择(Data Selection)、数据清洗(Data Manipulation)、数据探索与可视化(Data Visualization)、建模分析(Modeling)。
Pandas通常是用于数据挖掘和清理(Data Manipulation)阶段,也就是在数据采集和存储(data capturing and storage)和数据建模和预测(data modeling and predicting)之间的中间工具,它在数据科学中起到了关键作用。
课程内容
- 数据清洗代码及数据集.zip
- 什么是数据清洗
- 数据清洗流程和常用方法
- 案例:数据探索及简单梳理
- 案例:重复值的处理
- 案例:异常值和缺失值的处理
- 案例:文本型数据的处理
课程地址:
《Python数据清洗公开课》
DA内容精选