轻松过渡到数据科学的11个步骤
数据科学作为专业领域的迅速兴起吸引了来自各个背景的人们。工程师,计算机科学家,市场营销和金融专业的毕业生,分析师,人力资源人员–每个人都希望从数据科学领域中脱颖而出。
Analytics(分析)Vidhya已经发布了一条 综合的学习途径, 供初学者使用数据科学。那么,为什么我要专门针对从事商业智能/ MIS /报告工作的专业人员呢?让我解释。
我经常遇到才华横溢的商业智能(BI)专业人士,他们希望担任他们的第一个数据科学职位。他们常常因缺乏机会而感到沮丧。他们中的许多人认为自己的角色是重复的,或者只需要执行他们提出的要求即可。
他们实际上错失了这样一个事实,即他们比其他专业人士更接近数据科学机会。
注意:如果您正在寻找突破数据科学领域的人才,那么这个综合性的Ascend Pro程序将数据科学知识与实际的与行业相关的实际问题结合起来,别无所求。
为什么对于商业智能(BI)专业人员而言,更轻松地过渡到数据科学:
商业智能(BI)专业人员比几乎任何试图过渡到数据科学的人都拥有巨大的优势,原因如下:
BI专业人员已经可以访问各个项目中的数据科学家
有关如何管理和处理数据的现有专业知识(有时会规模化)
BI专业人员具有业务背景,并且他们与业务紧密合作。
他们具有基本数据探索步骤的经验,除了他们使用的报告外,企业经常会要求这些。
换句话说,这些人在数据科学项目的“前半部分”中工作。与大多数有抱负的数据科学家相比,这已经是更多的行业经验!
如果您是这样的过渡者,希望从BI / MIS /报告角色过渡到数据科学,那么本文适合您。您可以将这11个步骤视为可以遵循的学习途径。实际上,我强烈建议您在当前的BI角色中实施这些步骤。从您所处的地方开始练习,直到您进入数据科学领域!
PS对于本文的其余部分–商业智能,MIS,报告,仪表板已互换使用。这些角色和名称几乎没有差异,而且有很多重叠之处。
那么,您准备好和我一起旅行了吗?让我们逐步进行此骑行。
1)开始执行侦探分析并从报告中生成见解
首先,让我们看一下BI(MIS /报告/商业智能)专业人员日常工作的三个报告示例。
范例1:
每日销售报告
该BI专业人员生成了一份报告,其中包含有关城市和地区级别的业务采购以及业务质量的详细信息。
范例2:
带有
RAG分析的销售报告
在这里,BI专业人员生成了相同的报告,并为“拒绝分数”列添加了RAG(红-琥珀-绿)分析。较低的拒绝分数意味着较高的业务质量。
范例3:
带有RAG分析的销售报告报告的关键见解
在此示例中,BI专业人员通过添加有关报表的见解将事情提升到了另一个层次。您可以看到他已经写了报告中的前2项调查结果。我在这里举了一个简单的例子,为您的报告增加了可解释性。您可以根据共享信息的类型添加更多视觉效果/图表。
以上哪个示例对企业用户更有意义?
看上面的三个示例,我将转向“示例3”,为业务增加更多价值,因为:
它为报告增加了更多的可解释性
它还强调了需要开展工作的可行领域
如果您查看结果,则发现之一是在区域级别汇总报告之后
这些实际上对业务用户有很大帮助。当您与高级主管一起工作时,您会发现他们中的大多数需要可操作的项目来进行工作。他们不想花时间专注于解释报告和进行深入分析。
要生成类似的报告,BI专业人员应该具有 好奇心,对细节的关注,对任何一种工具(Excel / SQL / QlikView / Tableau)的命令以及有关业务的知识。
此技能组不仅限于在BI中工作的人员!成为一名优秀的数据科学专业人员也很关键。在大多数情况下,数据科学家的60-70%的工作是与业务理解,数据探索以及对当前问题的见解有关。
与正在 过渡 到数据科学的其他专业人员相比,BI专业人员在这里具有巨大的 优势。您可以今天开始练习,这种技能组合也将帮助您在目前的职位上表现出色。这是双赢!
挑战与解决方案:
无法建立见解与业务之间的关系: 产生见解与您的业务理解直接相关。我建议您与主题专家(SME)联系,并尝试解释它如何影响业务指标。
没有足够的时间来生成见解:我同意–您的工作期限很紧,无法发布业务报告,也没有时间来生成见解。在这种情况下,我有两个建议:
不要从时间表非常严格的报告开始(例如在一天的开始)。选择发布时间较少的报告。每月报告是一个很好的起点,因为它们具有重要的信息,并在需要时为您提供了深入探讨问题的时间。
自动生成报告。 这将为您节省大量时间,您可以利用这些时间来理解报告并生成见解。您应该在Excel / SAS或等效的自动化工具中学习有关所使用的任何报告工具的宏。
2.学习统计数据以支持您对报告的见解
现在该用一些统计指标来支持您的见解了。不要仅仅局限于根据视觉解释来产生见解。看一下下面的图片–您的第一反应是什么?
条形图
我可以说,竞赛后采购的平均业务比以前更高。现在,问题是“竞争是推动平均业务增长的因素还是仅仅是随机增长?” 。在这里,我们需要依靠某些统计概念来支持我们的见解,例如进行z检验/ t检验或其他统计检验。精通统计知识将在这些情况下为您提供帮助。
如果您想担任数据科学角色,您应该对以下统计主题有扎实的理解:
描述性统计
均值,中位数,众数
方差和标准偏差
可能性
伯努利试验与概率质量函数
中心极限定理
正态分布
推论统计
置信区间
假设检验
C0方差/相关
以下是有用的资源列表,可帮助您入门这些主题:
关于推理统计的博客: 数据科学综合实用型推理统计指南
假设检验的详细指南: 《统计假设假设检验指南》
关于ANOVA的全面且易于理解的教程:ANOVA 的简单介绍
挑战与解决方案:
描述性统计数据很容易理解,但推论统计数据并不是我的功课:实践是关键。我建议您尽可能多地练习,并对该概念有一个直观的了解。在查看数学方程式之前,请执行此操作。这种方法将帮助您首先关注应用程序方面,而不是被理论所困扰。
这些 报表看起来过于统计,因此我无法与我的涉众/客户共享这些报表:查看这些报告的客户大致分为两种。第一类对直观的见解更感兴趣,而另一组(风险/数据科学团队)则更关注统计见解。与后一组工作的人保持联系,并开始围绕您的发现进行讨论。同样,这里最好的策略是与他们的语言而不是统计数据进行交流。例如,最初,如果听众不舒服,我将不使用“统计意义”一词。我只想说,与过去相比,我们需要了解此事件对于企业而言是否足够大。
3.向正确的小组介绍您的发现
如果您不与正确的团队分享发现,进行侦探和统计分析将无助于您扮演数据科学的角色。
讲故事是数据科学专业人员必须具备的关键技能之一。
在这里,我强烈建议您以目前的角色来练习这种叙事技巧。您可以从以下内容开始:
始终与报告或分析共享详细的见解
分享您的见解,并开始通过演示幻灯片演示故事
这是一条对我的职业生涯有个人帮助的重要建议–将可视化效果添加到您的幻灯片中。您在演示文稿中(或在会议中讲话)写的字词应为可视化添加上下文。困惑?让我用一个例子来解释。
查看下面的图表。它展示了有关Sachin Tendulkar的测试比赛生涯的详细信息。您可以在此处使用图表和数字讨论各种指标。这也说明了为什么业务理解如此重要–您不能谈论没有经验的指标!
您应该查看这篇出色的文章-“数据科学中的故事讲述艺术以及如何创建数据故事”。
挑战与解决方案:
无法向小组传达统计见解:不必使用单一语言进行交流(统计)。我们应该根据听众改变交流方式。例如,如果您正在与一组统计人员进行交流,那么可以进行更多的统计推断。如果您与非技术团队合作,则将统计方法和直观方法结合使用会更好
以前没有分享过任何见解,我现在如何开始?:您可能有以下想法:
这些见解对企业有意义吗?
我可能会误解数字。这将导致不良沟通并产生负面影响
您的担忧是可以理解的,但是您必须从某个地方开始积累经验!我的建议是首先与您的经理,经验丰富的队友或客户(如果可能)分享见解。这将使您的信心得到急需的提升,因此请开始练习!
4.探索开源工具以生成报告或执行侦探分析
到目前为止,我还没有谈论任何用于生成报告和见解的工具。我故意避免遇到类似问题–您应该选择哪种工具?还是哪个是正确的或更好的?那是因为我的目标是让您熟悉侦探分析,统计概念和磨练您的沟通技巧,以便可以使用当前的工作工具来展示您的发现。
现在,该学习具有以下功能的工具了:
数据处理能力(大批量)
图形功能
建立预测模型的能力(
机器学习模型)
深度学习支持
客户服务支持和繁荣的社区
您可以在SAS / R / Python中使用任何工具,因为所有这些工具都具有上面列出的功能。在这里,您在学习新工具时的初始任务非常具体-使您自己适应执行数据探索,可视化,检测分析和统计测试。您不需要对任何这些工具都有完整的专业知识(无论如何,一开始都不是)。
如果您不确定该选择哪种工具,建议您浏览一下Kunal Jain撰写的这篇 很棒的文章,比较这三种工具的优缺点。
SAS,R和Python
您可以查看以下教程,以使用SAS / R或Python学习数据探索:
使用Numpy,Pandas,Matplotlib进行数据探索
使用R进行数据探索的综合指南
使用数据步骤和Proc SQL进行数据探索
9种使用Python执行可视化的流行方法
使用SAS进行数据可视化
R中的数据可视化综合指南
挑战与解决方案:
没有事先的编程经验:请记住,这个想法不是要成为工具专家。重点应该放在使用新工具执行相同的练习(例如探索,可视化或统计测试)上。您将通过实践掌握这些技术,最终掌握该工具
当前的数据科学团队正在研究SAS,我应该转向Python / R吗?: 我建议仅从SAS开始。始终选择当前组织中的数据科学团队正在使用的工具。这将帮助您进行数据科学过渡
5.了解模型构建/预测建模步骤
现在终于到了转向数据科学最吸引人的部分–模型构建!在深入研究特定模型之前,建议您首先了解存在的问题的类型。这是一篇文章,解释了预测建模/机器学习的基础-初学者的机器学习基础。
大致而言,我们可以将模型构建过程分为5个步骤:
问题定义
假设产生
数据探索
模型评估与验证
建筑模型
我将暂存前两个步骤(问题定义和假设生成),以在本文后面进行介绍。我们将在本节中讨论数据探索。
数据探索步骤类似于侦探分析,在侦探分析中,我们的主要目标是了解变量的行为,以及彼此之间的行为。在这里,精通统计知识将为您带来很大帮助。此步骤侧重于见解生成以及数据清理。您可能需要估算缺失值,检测和处理异常值以及执行多种类型的转换。
我已经撰写了有关数据探索步骤的综合指南。 您可以对您行业中的数据集或使用任何开放数据集实践所有这些方法。
挑战与解决方案:
它与侦探分析有何不同:它与侦探分析类似,但增加了数据清理和转换步骤。在这里,您的重点应该放在进行数据探索以实现某个目标上,例如弄清楚给定的变量是否会对目标变量产生影响
我将如何与目标变量建立关系而又不先出现问题陈述?: 您可以使用定义了问题陈述的任何开放数据集并开始练习数据探索技能
6.评估模型性能的方法
在我们的模型构建过程中,我们在预先知道目标的数据集中训练模型,然后将其应用于测试数据集以预测目标变量。我们显然希望在估计目标变量时保持准确。
我们如何检查我们是否准确?我们需要一个度量标准,以帮助我们根据实际观察结果评估模型结果。让我们通过一个例子来理解这一点。
我们有一个客户群– C1,C2和C2。我们估计只有C3会从该客户群购买产品“ A”。事实证明,C2和C3都购买了该产品。这意味着我们的准确率为66.6%(3个预测中有2个是正确的)。这种准确性被称为我们的“评估指标”。
评估指标将根据您要解决的问题的类型而变化。这是 您应该了解的常见评估指标列表。
您已经确定了评估指标,但是您是否具有评估模型的实际结果?您无法准备将来准备测试数据集!在这种情况下,我们保留不训练模型的数据集的特定样本。稍后,我们在最终确定样本之前评估该模型。这种方法称为模型验证。您可以参考有关各种验证技术的本文,其中包括R和Python中的实际示例。
挑战与解决方案:
是否必须了解所有评估指标?:不一定。目前,仅关注两个评估指标–“ RMSE”和“混淆矩阵”。这两点足以开始。您可以将RMSE用于回归问题,将混淆矩阵用于分类问题
7.线性和逻辑回归的预测建模简介
您已经了解了数据集并查看了评估模型性能的指标。下一步是什么?
应用建模技术!不要同时开始学习多种技术。现在只关注两个-线性回归和逻辑回归。这两种技术将帮助您预测连续变量和分类变量。
例如:
线性回归将帮助您估算保险公司在未来3个月中预期的业务收入
逻辑回归将帮助您了解向特定客户交叉销售产品的可能性
以下是两篇很好的文章,以学习线性和逻辑回归并使用您选择的工具进行练习:
线性,岭和套索回归入门指南
Logistic回归简介
挑战与解决方案:
算法过于数学,难以理解:首先,首先对这些技术建立直观的了解,然后继续进行数学上的详细介绍。在这里,我建议采用自上而下的方法,将重点更多地放在实践方面。您必须能够解释模型结果(例如了解模型是否运行良好)
8.识别业务问题(与您的角色有关),将其转换为数据问题并进行预测
那么,在哪里可以找到您的域的数据集?寻找业务问题可能很困难。
您应该与领导或团队经理交谈,并将他们的业务挑战之一作为您的项目。在这里,第一步是将业务问题转换为数据问题。然后,开始进行之前在第5点中讨论的步骤-假设生成,数据收集,数据探索,数据清理以及最后的模型建立和验证。
作为BI专业人员,您拥有的主要优势之一就是您已经熟悉数据集中的变量。您的侦探分析技能也将帮助您理解变量之间的关系。您可以跳到诸如数据清理,转换,确定正确的评估指标,设置验证集以及最终建立模型之类的任务。
您应该花一些时间,观看下面的Tavish Srivastava的网络研讨会,以了解定义问题陈述和假设产生的重要性:
我还建议阅读以下有关在R和Python中轻松有效地构建模型的文章:
从头开始构建机器学习模型的综合指南
使用R在10分钟内建立机器学习模型
使用Python在10分钟内建立机器学习模型
挑战与解决方案:
找不到业务问题:您将遇到无法解决业务问题或无法说服业务/团队经理有关您的技能的情况。如果那是您的立场,请开始探索以下方法:
开始以自己的能力建立模型,以定义更明确的问题陈述: 假设您负责生成一份报告,其中列出了代理商(保险代理商)级别的按月业务。现在,在发布此报告的同时,您还可以估算未来几个月的业务代表绩效。这将基于人口统计或过去的表现,因为您已经可以访问所需的数据集。一个月左右后,您可以验证结果并检查估算结果
参加开放式数据科学竞赛并提高您的个人资料:参加数据科学竞赛是学习数据科学,提高您的知识和档案并评估您所处位置的绝佳方式,即与世界顶级数据科学家进行比较
9.与企业主共享您的模型结果并赢得他们的信任
建立模型后,您应该与主管或决策人员(例如团队或项目经理)共享结果。作为数据科学专业人员,分享您的发现非常重要(例如哪些功能正在影响目标变量)。您还应该定期交流有关模型结果与实际数字之间比较结果的更新。
此过程还将帮助您调整和改进模型。如果模型运行良好,则很有可能您会获得其他任务或参与核心数据科学团队。这就是我们的目标,对吧?
挑战与解决方案:
我的模型表现不佳,现在我该怎么办?:如果您的模型表现不佳,可以。您可以进一步探索数据集并查找问题。我们将专注于学习不同的算法,这些算法可能更适合您要解决的问题
题库