全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析与数据挖掘
392 0
2022-12-12

刚开始学习数据科学的人都会面对同一个问题:

我该选择先学习哪种编程语言。

不仅仅是编程语言,像SPSS、Modeler、WEKA等软件系统也是同样的情况。有越来越多的工具和编程语言,很难知道该选择哪一种。

事实是,你的时间有限。学习一门新的编程语言相当于一项巨大的投资,因此在选择语言时需要有战略性。


实际上这个问题没有标准答案,也没有万能的语言可以完成所有的工作,当你入门在入门选择语言时,你需要一种在这些领域都具有重要功能的语言。同时你需要执行这些任务的工具,以及在你所选语言中来学习这些技能的资源。

如上所述,你更多地需要关注流程和技术,而不是语法。


你需要学习如何解决问题。

你需要学习如何在数据中找到真知灼见。

为此,你需要掌握数据科学的3个核心技能领域:数据处理,数据可视化和机器学习。在R语言中掌握这些技能将比任何其他语言都容易。


一、数据处理

根据数据挖掘标准处理流程KDD,数据挖掘流程大致分为三个部分,即数据前处理、数据挖掘、报告展现。其中数据科学中80%的工作都是数据处理。俗话说“Garbage In,Garbage Out”。通常情况下,你需要花费大量时间来整理你的数据使。R语言中有一些很棒的数据管理工具。

R语言中的dplyr包使数据处理变得容易,这可以大大简化数据处理的工作流程。


二、数据可视化

ggplot2是最佳的数据可视化工具之一。ggplot2的好处是,在学习语法的同时,还学习如何思考数据可视化。所有的统计可视化都有很深层的结构。存在构建数据可视化的高度结构化框架,ggplot2基于该框架。

此外,当将ggplot2和dplyr组合在一起时,从数据中得出相关见解几乎毫不费力。


Echarts是有百度开发的一款免费、强大的图表生成和可视化库,其可以方便得对数据进行展示、交互、定制。使用echartR函数可以很方便的实现图形绘制

三、统计分析

这个就不用多说了,R语言是由新西兰奥克兰大学的Ross Ihaka 和 Robert Gentleman发明。这两位都是统计学出身,因此,R一开始就是为统计分析服务最合适的语言。


四、机器学习

最后,还有机器学习。虽然我认为大多数数据科学初学者不应该急于学习机器学习(首先掌握数据探索更为重要),机器学习是一项重要的技能。当数据探索不再带来洞察力时,你则需要更强大的工具。

R语言提供了目前几乎所有主流的机器学习算法包,如神经网络、决策树、支持向量机、KNN算法、贝叶斯分类、组合算法等等。


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群