全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析与数据挖掘
752 0
2020-12-11
全面的循序渐进指南,成为行业就绪的数据科学专业人员
人工智能与机器学习导论
人工智能(AI)及其子领域机器学习(ML)席卷全球。从面部识别摄像头,智能个人助理到自动驾驶汽车。这些新近出现的技术将使我们迈向一个更加强大的世界。
这是这个职业领域中最激动人心的时刻!到2025年,全球人工智能市场预计将增长到4000亿美元。从初创企业到大型组织,所有人都希望加入AI和ML潮流,以获取最先进的技术。
Gartner最近的一份报告预测,到2020年,人工智能和机器学习领域将创造约230万个新工作。
人工智能和机器学习已成为组织战略决策的核心。它们正在扰乱行业和角色的运作方式-从销售和营销到财务和人力资源,公司都在AI和ML上押注很大的赌注,以使其具有竞争优势。
人工智能可以定义为像人类一样工作和反应的智能机器的发展领域
但是,有一个警告。有很多工作职位可用,但是该行业正面临大量熟练的AI和ML专业人才的短缺!那么如何填补这一空白?您可以通过不同的途径来成为熟练的专业人员-阅读博客,观看教程,参加认证课程。
您必须掌握的技能!
1.数据科学工具包
–精通Microsoft Excel –如果要使用数字,没有比Microsoft Excel更好的工具了,Microsoft Excel仍然是最受欢迎的工具。对此工具感到满意。
–探索重要的公式和函数– Master Excel功能,例如数据透视表,快速图表,VLookUP,HLookUP,IFELSE,查找和搜索,连接,SUM,AVG –在实际环境中工作时,需要方便使用分析项目。
–使用MS Excel创建图表和可视化–没有一个适合所有图表的尺寸,这就是为什么要创建直观的可视化的原因,因此必须了解不同类型的图表及其用法。Excel是为我们的分析受众构建高级而有影响力的图表的理想工具
–熟悉MySQL – SQL是每位数据科学专业人员的必备技能。使您熟悉最广泛使用的数据查询和分析工具之一。大多数公司使用SQL来制定数据驱动的业务决策。
–在SQL中创建和更新报告–大多数公司使用SQL来制定数据驱动的业务决策。了解如何在SQL中创建和更新记录。这是最常见的任务之一。
–使用SQL执行数据分析–数据无法说明一切。在业务场景中,您需要通过分析数据并将其呈现给利益相关方来找到答案,例如–哪些城市带来了最大的收入?或想要成为数据科学家或业务分析师的用户数量是多少?
–探索Python进行数据科学– Python已迅速成为数据科学领域的必备语言,并且是招聘人员首先在数据科学家的技能中寻求的语言之一。精通Python对您的技能至关重要
– Python中重要的库和函数– Python本身不是机器学习语言,而Pandas,Numpy,Scikit-learn,Tensorflow等库和附加函数使其功能非常强大。
–使用python读取文件并处理数据–从来没有以干净的格式找到数据。如果将脏乱的数据发送到模型中,则该模型还将返回垃圾,因此您必须精通异常处理,缺失值插补。
–使用数据框,列表和字典– Python提供了一系列易于理解的选项来存储数据。为了更好地处理数据,您必须全部使用它们。他们在访谈中也经常被问到。
2.数据探索与统计推断
–与pandas和其他python库一起进行数据探索– Pandas是众多精英库中的佼佼者,这些库能立即吸引来自开发人员到数据科学家等各种背景的程序员。根据StackOverflow最近进行的一项调查,Pandas是世界上使用次数最多的图书馆/框架第4位。
–使用Matplotlib和Seaborn进行数据可视化–这些是在数据科学之旅开始时需要掌握的最重要的库。这些是无法避免的。
–创建图表以可视化数据并产生见解–没有数据可视化就无法启动或结束数据科学项目。一个好的数据科学家永远是一个好的讲故事的人。讲故事的人需要工具来可视化事实和数据。
–使用python进行单变量和双变量分析–了解数据非常重要。单变量和双变量分析有助于发现隐藏在数据集中的模式,也将在以后的阶段中为您提供帮助。
–对现实数据集进行统计分析–机器学习与统计分析同时进行,从一开始就进行基本统计测试以了解数据集的质量总是更好。
–使用统计测试建立和验证假设–可能是机器学习项目中被低估但最重要的初始步骤。任何数据科学项目总是以假设为起点。
–从数据中生成有用的见解–将数据转换为见解是数据科学家的目标。如果正确执行了上述所有步骤,那么您将获得一些隐藏的见解。
3.讲故事和仪表板
–熟悉Tableau界面–在构建行业级仪表板和执行精英级故事板时,Tableau是金标准。实际上,Tableau改变了行业分析和呈现数据的方式。熟悉Tableau界面。
–在Tableau中导入和使用不同种类的数据– Tableau为多个数据源提供了多个数据连接器,而没有任何数据丢失。这些连接器的范围从简单的数据格式(如Excel,PDF到云数据仓库)。
–制作气泡图,瀑布图,地理位置图等。–作为数据AI和ML专业人士,要讲故事,必须要有有效,美观的图表。Tableau提供基本图表,例如散点图,直方图到气泡图,瀑布图。您需要做的就是拖放!
–学习在Tableau中创建仪表板–仪表板是一种使您的分析可视化的惊人方法,查看者可以自由地分解分析。Tableau提供了一个交互式仪表板,可用于选择各种参数。
– Tableau中的主故事板–人们通常使用PowerPoint进行演示或使用Word展示他们的发现。有一种更好的方法–您可以直接在Tableau中创建幻灯片并直接放置可视化文件。您可以将已经构建的仪表板导入情节提要中,甚至不需要离开工具环境!
–在Tableau中执行功能工程–嗯,大多数人认为tableau只是拖放工具,不能提供灵活性和自定义功能。Tableau提供的功能远不止这些。您可以在tableau中构建新功能,以更好地理解分析。
4.问题的表达与沟通
–处理模棱两可的业务问题–业务问题不是预先定义的,它们是无结构的,充满不确定性的想法。理解利益相关者的需求是数据科学家的工作。
–将业务问题转化为数据科学问题–定义了利益相关者的需求之后,您就可以继续运用结构化的思路来分解业务目标并将其转化为业务问题。
–以有效的方式呈现分析和业务见解–业务领导者需要信心才能做出任何业务决策。数据科学家需要以有影响力但易于理解的方式展示他们的分析。
–与利益相关者交流想法和见解–沟通技巧是数据科学家的隐藏特征。如果您无法交流他们的分析和结果多么有见地,那么一切都是徒劳的。
5.基础机器学习
–学习重要的机器学习概念–首先了解机器学习的基础知识,例如监督学习和非监督学习,结构化和非结构化数据以及构成机器学习主干的其他基本概念。
–执行数据清理和预处理–数据清理和预处理大约需要数据科学项目80%的时间。掌握这些技术更为必要。诸如缺失值估算,异常值检测,数据转换之类的任务。
–对基本ML模型的深入理解–现在是进入机器学习最激动人心的步骤-机器学习模型的时候了。了解基本的机器学习模型,例如–线性和逻辑回归,KNN等。
–每个机器学习算法背后的数学– Python中的机器学习模型实现仅占用2-3行,但是它们的数学计算实际上很复杂。要成为一名优秀的数据科学家,您必须了解系统内部的数学原理。只有这样,您才能为自己的方案构建更好的模型。
–建立分类和回归模型–是时候动手了。尝试解决不同类型的问题以获得良好的曝光率。从建立分类和回归模型开始,并了解其评估指标,例如–准确性,RMSE等。
–用于改进模型的超参数调整–建立模型是一个反复的过程,超参数调整是一种通过经验获得的艺术。您可以通过许多不同的方式进行超参数调整,例如-gridsearch,贝叶斯超参数调整。
–使用机器学习解决现实世界中的业务问题–现在是时候将所有难题汇总在一起,并解决一个现实问题。从端到端解决问题陈述。此步骤将为您的所有学习锦上添花。
6.特征选择与工程
–学习特征工程的技巧–如前所述,特征工程是一种艺术,因为它是通过经验获得的,并且仅在多次迭代之后才执行。许多数据科学竞赛的获胜者都将要素工程的步骤归功于他们。
–从图像和基于文本的数据中提取特征–计算机仅理解二进制数字。我们必须从基于文本和基于图像的数据点中提取特征,以进行模型构建。
–自动化功能工程工具–随着自动化机器学习工具的出现,您还可以借助诸如Featuretools,Autofeat,Tsfresh等自动化功能工程工具。
–降维的概念–当使用实际数据(尤其是文本和图像)时,要素的数量可以升级到数千列。这就是减少尺寸的概念很重要的地方。
–特征选择和消除技术–减小尺寸的一种方法就是简单地选择重要特征,而消除其他特征。Sklearn提供了多种功能来完成任务。
–详细理解主成分分析(PCA)– PCA是一种从数据集中可用的大量变量中获取重要变量(以组分形式)的方法。它通过从高维数据集中获取不相关维的投影来提取低维特征集,其动机是捕获尽可能多的信息。
-因子分析的概念-因子分析是无监督MACHIN一个? 其用于维数降低学习算法。该算法从观察变量创建因子以表示共同方差,即,由于观察变量之间的相关性引起的方差。
7.高级机器学习
–探索高级ML概念和算法–到目前为止,您已经建立并体验了基本的机器学习管道。在过去的十年中,机器学习已经看到了一类新的算法,它们可以提供更好的效率和准确的结果。习惯了诸如集成学习及其变体这样的高级概念。
–使用集成学习技术(堆叠和融合)–堆叠和融合是集成学习的基础。了解多个决策树如何在串联和并联的重要超参数之间协同工作。
–了解并实施Boosting算法–没有任何数据科学竞赛可以作为成功的解决方案之一而进行。提升是一个必不可少的高级概念,您应该唾手可得。通过了解算法及其背后的数学开始。继续进行超参数优化,然后将其应用于实际问题。
–学习处理文本数据和图像数据–数据类型很多,最常见的是数字,然后是文本和图像数据。随着互联网和社交媒体的出现,文本和图像数据泛滥成灾。通过NLTK,gensim,textblob之类的库了解文本和图像数据的基础知识。
–处理结构化和非结构化数据–结构化数据是以表形式提供的数据,而非结构化数据则不是。后者通常与查找并返回模式的算法一起应用
–处理无监督的学习问题–无监督的学习算法应用于非结构化数据。它们没有目标变量。取而代之的是,这些方法致力于在数据中查找通用模式。
–包括k均值和层次聚类在内的聚类算法–聚类算法构成无监督学习算法的骨干。K均值和层次聚类用于对数据点进行分组。
8.深度学习
–深度学习的重要概念–学习深度学习的基本概念–什么是神经元,正向传播,向后传播,梯度下降的作用,激活功能,偏见。
–从头开始使用神经网络–从头开始构建神经网络。尽管将来不再需要您从头开始构建模型,但是此活动将帮助您清除概念。您可以在Numpy,TensorFlow的帮助下实现这一目标。
–探索不同类型的神经网络(CNN,RNN等)–深度学习中没有一种适合所有方法的规模。学习不同类型的神经网络,例如– ANN,CNN,RNN,LSTM等。了解每种神经网络的不同应用。
–深度学习的激活功能和优化器–激活功能可帮助网络使用重要信息并抑制不相关的数据点。经历不同的激活函数,例如线性,S型,ReLU,softmax等。
–建立深度学习模型来解决现实生活中的问题–与将您学到的一切应用到现实世界中的问题相比,最激动人心的是什么?您可以选择要选择的问题类型(图像,时间序列数据,文本数据)并开始使用。
–学习调整神经网络的超参数–超参数是需要手动设置的变量,例如隐藏层数,学习率等。
–探索各种深度学习框架–深度学习的快速采用主要是由于TensorFlow,Keras和PyTorch等框架的发展带来了快速的创新。尝试不同的框架,并采用适合您的应用程序的框架。
9.计算机视觉
–熟悉计算机视觉世界–计算机视觉是机器学习最热门的主题之一。首先了解基本概念,例如–对象检测,对象分类,面部检测,图像分割。
-迁移学习的计算机视觉-迁移学习改变了计算机视觉的世界。它本质上是针对特定任务使用预先训练的模型。预先训练的模型是已经由某个人或团队设计和训练以解决特定问题的模型。
–使用流行的深度学习框架– Pytorch – PyTorch是最流行和即将推出的深度学习框架之一,可让您构建复杂的神经网络。它在研究社区中正在迅速增长,Facebook和Uber等公司也在使用它。
–学习YOLO,SSD,RCNN等最新算法–深度学习领域正在迅速变化。如果您想在下一个黑客马拉松比赛中获得更高的排名,或者想要为您的深度学习项目获得更高的准确性,则必须紧跟最新算法,即使这些算法会随着时间的推移而不断发布。
–处理不同类型的问题–不仅仅存在一个简历问题。完成图像检测了吗?进入图像识别。也许尝试视频中的物体识别。您可以在计算机视觉中尝试许多问题。
–诸如图像分割和图像生成之类的高级计算机视觉问题–随着无人驾驶汽车的出现,我们正在转向一系列非常先进的计算机视觉问题。图像检测无法单独显示物体的位置和形状,它只是返回一个边界框。我们转向图像分割,以获取有关对象的更详细的信息。
–了解GAN的工作原理–生成模型和GAN是计算机视觉应用最新进展的核心。GAN或生成对抗网络用于生成数据。
题库
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群