全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析与数据挖掘
1063 0
2020-12-07
成为数据科学家的14种必备技能
从Google,Microsoft,Facebook到Swiggy,Zomato,Byju's,每个人都希望只使用一种潮流-数据科学和机器学习。不可否认,数据科学及其就业机会是增长最快的领域之一。
到2024年,全球机器学习市场预计将达到208.3亿美元。这是巨大的!根据Glassdoor的说法,数据科学家的平均薪级为Rs。印度每年90万卢比,而计算机程序员的平均工资为卢比。每年40万。这就是我们正在谈论的规模。
数据科学家技能-Meme
但是数据科学如何看到如此巨大的增长?从简单的销售预测到自动驾驶汽车和个人助理,这一领域的应用无止境,一切都由Data Science提供支持。难怪每个组织都渴望有才华的数据科学家。
根据Gartner的最新报告,到2020年,机器学习和AI领域将新增约230万个工作岗位。那不令人兴奋吗?
但是有一个警告!
数据科学家技能-Meme
大量缺乏熟练的数据科学家!恩,那就对了!即使数据科学领域的工作正在增长,但仍缺乏具有适当技能的数据科学家。
因此,在本文中,我提到要成为一名成功的数据科学家将需要的14种技能以及完成这些技能所需的一些资源。
获得全部14种技能是一个漫长而艰巨的过程,这会增加您成为行业就绪专业人员的时间。该认证的AI和ML黑带+课程涵盖了在一个所有的15个技能以及多走多,深入1下:专家导师谁可以帮助你一直的1指导。我强烈建议您查看本旗舰课程。
在没有适当指导和计划的情况下开始数据科学事业可能会造成混乱。我们已编制了一份明确的免费路线图指南,以建立数据科学职业,该指南由Analytics Vidhya的专家策展人策划–
下载此免费的综合数据科学路线图以开始您的职业生涯
这14位必须具备数据科学技能
数据科学基础
统计
编程知识
数据处理与分析
数据可视化
机器学习
深度学习
大数据
软件工程
模型部署
沟通技巧
讲故事的技巧
结构化思维
好奇心
数据科学技能#1:数据科学基础
数据科学家技能-基础
作为数据科学的新手,我做了我周围所有人所做的一切–在没有了解基础知识的情况下开始应用诸如线性回归和SVM之类的机器学习技术。我相信这都是通用的“用5行代码构建您的机器学习模型”的错,但这与现实相距甚远。
您需要的第一个也是最重要的技能是了解数据科学,机器学习和人工智能的基础知识。了解以下主题:
机器学习和深度学习之间的区别
数据科学,业务分析和数据工程之间的区别
常用工具和术语
什么是监督学习和无监督学习
分类与回归问题
是否想获得所有这些问题的答案?消除您疑虑的最佳资源是本免费课程–
AI和ML简介
数据科学技能2:统计和概率
数据科学家技能-统计和概率
统计是数据科学的语法。
当您开始学习写句子时,必须熟悉语法才能正确地构建正确的句子。在生成高质量模型之前,统计数据是一个必不可少的概念。机器学习从统计开始,然后发展。甚至线性回归的概念也是一个古老的统计分析概念。??
必须掌握描述统计概念(例如均值,中位数,众数,方差,标准差)的知识。然后是各种概率分布,样本和总体,CLT,偏度和峰度,推论统计-假设检验,置信区间等。
统计数据是必须成为数据科学家的概念。您可以通过这些清晰的文章及其示例深入了解其中一些概念-
数据科学统计:什么是正态分布?
分析和数据科学的统计数据:假设检验和Z检验与T检验–
数据科学统计:什么是偏度?为什么重要?
数据科学技能3:编程知识
数据科学家技能-编程知识
仅仅由于计算能力的提高,机器学习才有了长足的进步。编程为我们提供了一种与机器通信的方式。您是否需要成为编程方面的佼佼者?一点也不。但是您绝对需要对此感到满意。
首先,选择您喜欢的编程语言。仅举几个例子,Python,R或Julia都有各自的优点和缺点。Python是具有多个数据科学库以及快速原型制作的通用编程语言,而R是用于统计分析和可视化的语言。朱莉娅提供两全其美,而且速度更快。如果您对选择哪种语言感到困惑,我已为您撰写了一篇非常有用的文章-
5种流行的数据科学语言-您应该选择哪种职业?
老实说,由于库的可用性和对深度学习的高度支持,我发现Python可以更轻松地执行机器学习任务。如果您想使用Python,可以参考以下免费课程,
数据科学用Python
数据科学技能4:数据操作和分析
数据科学家技能-数据处理和分析
您知道什么将优秀的机器学习项目与其他项目区分开吗?数据整理和分析。尽管这是两个不同的步骤,但由于顺序的缘故,我在同一时间将其包括在内。
数据操作或整理是您清理数据并将其转换为可以在下一阶段进行更好分析的格式的步骤。让我们以收拾行李为例。如果将所有衣服都放进包里会怎样?您将节省几分钟,但这不是一种有效的方式,您的衣服也会变质。相反,您可以花几分钟熨烫并将它们叠放。这样会更有效率,您的衣服也会保持良好状态。
同样,数据处理和争用会占用大量时间,但最终会帮助您做出更好的数据驱动决策。通常使用的一些数据处理和处理方法是-缺失值估算,异常值处理,校正数据类型,缩放和转换。
数据分析是您了解所有数据并获得其“感觉”的步骤。通常这是您可以学到很多数据的步骤。例如,每周的平均销售额是多少,购买最多的产品等等。
数据分析通常在Excel,SQL,Pandas中使用Python进行,是分析专业人员的最重要任务,而在机器学习中,数据分析是整个过程的一步。这是要结帐的免费课程列表–
Microsoft Excel:公式和函数
熊猫用Python进行数据分析
执行分析和数据科学数据分析的8种SQL技术
数据科学技能5:数据可视化
老实说,这是机器学习中最有趣的部分之一,数据可视化更像是一门艺术,而不是一成不变的步骤。这里没有“一刀切”的方法。数据可视化专家知道如何从可视化中构建故事。
首先,您必须熟悉直方图,条形图,饼图等图,然后再转到瀑布图,温度计图等高级图。在探索性数据分析阶段,这些图非常有用。使用彩色图表,单变量和双变量分析变得更容易理解。
如果您想知道在此步骤中使用了哪些工具,请不要担心。上面讨论的每种语言都为高级图表提供了大量库。如果您想向前迈进,给您的前辈留下深刻印象,那么Tableau是您的不二之选。它提供了具有拖放功能的平滑界面。我建议您使用这些资源,成为数据可视化方面的专家–
适用于初学者的Tableau
8个数据可视化技巧,以改善数据故事
3个雄心勃勃的Excel图表可增强您的分析和可视化产品组合
数据科学技能6:机器学习
最后!内在满足的技能!
对于数据科学家而言,机器学习是其核心技能。机器学习用于构建预测模型。例如,您想通过查看过去一个月的数据来预测下个月将拥有的客户数量,则需要使用机器学习算法。
您可以从简单的线性和逻辑回归模型开始,然后继续使用高级集成模型,例如,Random Forest,XGBoost,CatBoost等。知道这些算法的代码(只需要2-3行)是一件好事,但是最重要的是知道它们的工作方式。这将帮助您进行超参数调整,并最终使模型具有较低的错误率。这是一些免费课程,可让您着迷–
回归分析基础
合奏学习和合奏学习技巧
scikit-learn(sklearn)机器学习入门
学习机器学习的最好方法是练习问题陈述。Analytics Vidhya提供了各种练习问题,您可以随时工作。您还可以参加有指导的社区hackathon的HackLive,并向专家学习,他们可以解决您面前的问题,并通过参加hackathon做出贡献。您可以在这里了解更多–
数据科学实践问题
HackLive 4
数据科学技能7:深度学习
是由聪明的助手,很酷的无人驾驶汽车或由Deepfake制作的有趣视频激发的动力?由于深度学习,一切皆有可能。由于数据存储功能和计算技术的进步,它在人工智能领域是一个高速增长的垂直领域。
要在该领域表现出色,您必须精通编程(最好是使用Python),并且对线性代数和数学有很好的掌握。首先,您可以开始构建基本模型,然后跳至CNN,RNN等高级模型。
如果您想建立自己的深度学习事业,那么必须使用TensorFlow,Keras和PyTorch之类的库。您可以查看这些资源来开始自己的职业生涯–
2020年深度学习的综合学习之路
神经网络入门
Scratch的卷积神经网络(CNN)
数据科学技能8:大数据
我们每天要生成2.5亿亿个数据!由于互联网,社交媒体网络和物联网的兴起,我们生成的数据速率突然激增。这些数据的容量,速度和准确性很高,构成了大数据的3V。
组织已经被如此大量的数据所淹没,他们正试图通过迅速采用大数据技术来处理这些数据,以便可以正确,有效地存储这些数据,并在需要时使用它们。
Hadoop,Spark,Apache Storm和Flink,Hive是您必须掌握的一些框架/工具。
每个数据科学专业人员都应该知道的5种流行的NoSQL数据库
Hadoop分布式文件系统(HDFS)架构–适用于每位数据工程师的HDFS指南
Apache Hive中的表类型–快速概述
数据科学技能9:软件工程
要编写不会在生产阶段造成严重破坏的高质量代码,有必要了解一些软件工程主题的基础知识,例如–软件开发项目的基本生命周期,数据类型,编译器,时空复杂性等
从长远来看,编写高效,整洁的代码将为您提供帮助,并帮助您与团队成员合作。同样,您无需成为软件工程师,但了解基本知识将对您有所帮助。
Python面向对象编程的基本概念
Python的面向对象编程中的继承-面向所有人的深入指南
Python中的方法–面向对象编程的关键概念
数据科学技能10:模型部署
模型部署是机器学习生命周期中最被低估的步骤。我将在上一篇文章中引用有关模型部署的信息–
让我们在这里举个例子。一家保险公司启动了一个数据科学项目,该项目使用事故中的车辆图像来评估损坏程度。数据科学团队昼夜不停地开发具有接近完美F1分数的模型。经过几个月的努力,他们已经准备好了模型,并且利益相关者喜欢它的表现,但是之后又会怎样呢?
请记住,在这种情况下,最终用户是保险代理人,并且该模型需要由不是数据科学家的多个人同时使用。因此,他们不会在GPU上运行Jupyter或Colab笔记本。这是您需要模型部署的完整过程的地方。
该任务通常由机器学习工程师完成,但是根据您所从事的组织的不同而不同。即使这不是您公司的工作要求,了解模型部署的基本知识以及为什么这样做也是非常重要的。
如何使用Flask部署机器学习模型(带有代码!)
使用Flask部署图像分类模型
TensorFlow服务:轻松部署深度学习模型!
让我们谈论成为成功的数据科学家的一些软技能
在本节中,我们讨论了成为更好的数据科学家所需的软技能。
数据科学技能11:沟通技能
“良好的沟通就像黑咖啡一样刺激人,之后也很难入睡。” –安妮·莫罗·林德伯格
数据科学项目更像是一项寻宝工作,寻宝就是您从数据中获取的见解。问题是宝物的价格是多少?好吧,这是由您的利益相关者决定的。获得高价的唯一方法是能够交流结果的洞察力,以及这种宝藏如何帮助他们提高利润和组织。
此外,出色的数据科学家的素质在于制定问题陈述。在项目开始时,利益相关者将他们的要求告知数据科学家,然后由后者制定问题陈述。例如,利益相关者需要改善其OTT平台的内容推荐,以增加保留时间。这是一个非常模糊的描述,数据科学家的工作是传达正确的问题陈述。
数据科学技能12:讲故事的技能
想象一下观看板球比赛的统计数据,以表格的形式显示每个碗的得分。您认为您会从中获得任何重要信息吗?如果您被显示为每次得分的条形图怎么办?似乎更好。对?除非您使它具有交互性,否则不理解块状的人性。
讲故事是数据科学家获得的最重要的技能。您想通过数据了解冠状病毒吗?这是讲故事技巧的一个很好的例子–
信息是美丽的:冠状病毒图
数据科学技能13:结构化思维
假设您想成为一名数据科学家,您将把这个大目标分解为多个部分,例如培训,准备简历,申请工作,同样地,将问题分解为多个部分以有效解决问题的能力是结构化思维。
数据科学家总是从不同的角度看待问题。这是一项后天掌握的技能,但您绝对可以继续努力。Analytics Vidhya的创始人兼首席执行官Kunal Jain在此基础上开设了精彩的课程。您可以在这里查看–
数据科学专业人员的结构化思考和交流
数据科学技能#14:好奇心
为什么会这样呢?这怎么发生的?如果我对此进行调整,是否会影响整体效果?不断提问是数据科学家最关键的软技能之一。如果您呆板,则可以按照机器学习项目生命周期的所有步骤进行操作,但是您将无法达到最终目标并证明结果合理。
数据科学仍在发展,它让我告诉您最重要的事情–学习永远不会停止。您有一天会掌握该工具,第二天就会被高级工具运行。数据科学家需要保持好奇心,并且要经常学习。
题库
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群