全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析与数据挖掘
1752 0
2022-05-07

最近,我有幸在几个小组讨论会上向我的 MBA 同学和校友以及许多宾夕法尼亚大学的本科生发表了演讲。在这些谈话之后,有人问我什么是最好的资源对于来自商界(即非技术人员)想要培养成为有效数据科学家的技能的人的建议。这篇文章试图整理我给出的建议和我指向人们的一般资源。希望这将使更多人能够接触到我所学到的知识,并为那些意识到未来属于经验主义倾向(见下文)但不知道从哪里开始成为俱乐部一员的人提供一些指导。

然而,我要提醒读者,我在这里提出的只是一个真正理解良好数据科学力量的旅程的起点。而且,正如 Sean Taylor 曾经告诉我的,只学习实现目标所需的东西;如果这份清单上有一些你知道你不需要的东西,那就跳过它们,你不会伤​​害我的感情。数据科学的核心是好奇心、乐观和持续学习,所有这些都是持续的习惯,而不是需要检查的盒子。因此,我希望这个列表会随着工具本身的变化以及我继续发现更多关于数据科学本身的内容而发展。

1CfsIkA5XuTdTuSphJn1J6g

1. 线性代数

线性代数是作为数据科学家使用的许多统计技术和机器学习算法的基础。我喜欢推荐几年前通过 Coursera 学习的 MOOC,Coding the Matrix: Linear Algebra through Computer Science Applications。顾名思义,该课程在计算机科学的背景下教授线性代数(特别是使用 Python,它非常适合数据科学)。还有一本可选的配套教科书,它是一本很好的参考手册。

2.R

鉴于我们在 Wealthfront 使用 R,我有一些我认为在这里很重要的资源。第一篇由 Garrett Grolemund 和 Hadley Wickham 撰写,R for Data Science 将于 2016 年 7 月以物理形式出版,但现在可以在线免费获得。而不是用我自己的话来解释这本书的内容。如果你只读一本数据科学书籍,那应该是这本。

接下来,我们的朋友 Hadley 还编写了 Advanced R,其中涵盖了函数式编程、元编程和高性能代码以及 R 的怪癖。

Hadley 还负责我每天使用的一些包,这些包使 90% 的常见数据科学任务更快、更简洁。我建议查看以下库;他们将改变你在 R 中编写代码的方式:

  • ggplot2 — R 中图形语法的实现
  • devtools — 让 R 开发人员的生活更轻松的工具
  • dplyr — 专门用于数据帧的 Plyr:更快且具有远程数据存储
  • purrr — 用函数式编程让你的纯 R 函数 purrr
  • tidyr - 使用传播和收集功能轻松整理数据
  • lubridate — 让在 R 中处理日期变得更容易一些
  • testthat — 一个让测试变得有趣的 R 包

如需额外积分,请查看 Hadley 的另一本书:R Packages。对于那些想要编写其他人可以轻松使用的可重现、有据可查的 R 代码的人来说,这是一个很好的后续资源(其他人包括你未来的自己!)

3.SQL

这可能是本指南中最简单的部分,因为您可以在几个小时内自学大部分 SQL。Code School 有入门和中级课程,您可以在一个下午完成。

SQL 的续集涵盖了从聚合函数和连接到规范化和子查询的所有内容。虽然掌握这些技能需要练习,但您仍然可以了解 SQL 可以做什么,不做太多工作。

4. 贝叶斯推理

这本书可能是学习如何在 R 中进行数据科学的最佳全方位资源之一。

无需涉足由来已久的频率论与贝叶斯辩论(或非辩论),我认为贝叶斯推理和统计的坚实基础是任何数据科学家的重要组成部分。例如,贝叶斯推理是现代 A/B 测试的基础,而贝叶斯方法也应用于数据科学的许多其他领域(并且在介绍性统计课程中通常较少涉及)。

John K. Kruschke 具有很强的分解复杂材料并以直观实用的方式传达的能力。与 R for Data Science 一起,这本书可能是学习如何使用 R 编程语言进行数据科学的最佳综合资源之一。

此外,如果您正在寻找更多要解决的问题示例或阅读本书后仍然存在的问题的答案,那么 Kruschke 的博客是教科书的绝佳配套资源。如果教科书不是您想要的,那么 Rasmus Bååth 的研究博客 Publishable Stuff 是学习贝叶斯解决问题方法的另一个重要资源。

      相关帖子DA内容精选

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群