全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 python论坛
27491 113
2019-07-18
“数据科学家们80%的精力消耗在查找、数据清理、数据组织上,只剩于20%时间用于数据分析等。”——IBM数据分析     

现实使用的数据常常是含有噪声的、遗漏的和不一致的。无论是进行统计分析、机器学习还是深度学习,都要求数据真实可靠,数据格式统一。

你可能要问,数据清洗处于数据分析的什么位置?
图片 1.png
按照IBM SPSS跨产业的数据挖掘标准处理流程,将数据挖掘工作流程分为以下六个阶段:商业理解-数据理解-数据预处理-建模分析-模型评估-模型应用。当然从上图可以看出,整个流程不是单一的,而是循环往复的过程。
“”

“有高质量的数据,才会有高质量的数据挖掘结果”。在数据挖掘的整个运行过程中,数据处理是最重要的一个步骤,数据处理的得当,对后续的数据挖掘过程是否有效和质量的好坏有着重要的影响。
同时数据前处理在整个数据挖掘的过程中,其重要性和所花费的时间,均居其他步骤的首位。

所以,数据清洗到底是在清洗些什么?

通常来说,你所获取到的原始数据不能直接用来分析,因为它们会有各种各样的问题,如包含无效信息,列名不规范、格式不一致,存在重复值,缺失值,异常值等.....

工欲善其事,必先利其器。应该如何选择数据清洗的工具?

这里就不得不提到Pandas。Pandas通常是用于数据挖掘和清理阶段,也就是在数据采集和存储和数据建模和预测之间的中间工具,它在数据科学中起到了关键作用。

对于一个典型的数据科学家来说,Pandas将在数据通过管道时扮演最重要的角色。量化这一点的一个指标是Stack Overflow APP上的趋势。
图片 2.png
可以看出,Pandas在Stack Overflow的活动超过其他任何Python数据科学库,并占据整个站点上提交的所有新问题的1%。
本次公开课,我们邀请到了数据挖掘工程师刘静老师,和你一起分享使用Pandas高效提升数据质量的话题。

在线报名预约直播:
(报名流程:点击我要报名-提交订单-等待直播开始-进入直播)

http://www.peixun.net/view/1418.html


扫码加入交流群领取资料:
7.18数据处理海报(1).jpg
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2019-7-18 10:17:45
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2019-7-18 10:19:36
有高质量的数据,才会有高质量的数据挖掘结果
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2019-7-18 10:21:08
pandas很强大,值得学习!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2019-7-18 10:26:57
已经报名参加直播!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2019-7-18 11:27:58
终于等到这个课程了,今晚必须看,上次课程错过了
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群