很长一段时间以来,数据科学一直被誉为科技和商业领域的下一次重大革命。使用数据科学应用的企业数量在最近几年才有所增加。根据 Statista 的数据,截至 2021 年,近60% 的公司在其团队中拥有至少 50 名数据科学家。
然而,如果客观地看待,数据科学提供的结果与它周围的噪音并不匹配。许多将数据科学方法应用于数据的组织经常发现他们的数据科学策略被证明是不可行的。
正如Gartner所说,这背后的一个突出原因是缺乏正确执行数据科学项目。其他原因通常包括对业务问题缺乏了解、项目设计不一致以及将数据洞察力转化为可操作结果的不足。
数据科学是一个由多个元素组成的复杂主题。因此,公司需要使用某些数据科学的最佳实践来更好地实施数据科学项目。
在本文中,我们将讨论组织可以采用的一些此类最佳实践,以提高其数据科学工作的成功率。但首先,让我们收集一些有关数据科学概念的信息。
解码数据科学的剖析
数据科学无意中获得了类似于比特币、NFT、加密等 IT 流行语的声誉。但是,如果我们过滤炒作,我们将看到一个包含数学推理和计算机编程各个方面的多层领域来理解数据。
与看起来相反,数据科学并不是一个新的 IT 术语。它的早期用途,特别是在 20 世纪后期,表明它接近于统计,这个词表示有组织的数据文档。
数据科学从根本上说是大数据、数据挖掘和
机器学习等学科的扩充和结合。今天,它本质上是指对组织的大量非结构化数据的收集和分析。
数据科学家,记录和揭开庞大和嘈杂数据的神秘面纱的专业人士,使用数学能力、编码技能和一系列与数据库、计算和通信相关的技能来处理数据并获得相关见解。然后,公司利用这些见解来改善他们的客户服务、产品质量、组织间沟通等等。
数据科学正逐渐成为一些组织梦寐以求的资产,随着时间的推移,它必将获得更多的牵引力。
10 个有影响力的数据科学最佳实践
到目前为止,我们已经收集了有关数据科学的定义和目的的信息。现在让我们看看公司可以遵守的一些数据科学最佳实践,以更好地利用数据科学的优势。
1. 在组织中建立专门的数据科学计划
公司无法充分利用其数据科学项目的主要原因之一是缺乏专门的数据科学基础设施。通常,公司由两三个人的数据科学团队组成,他们同时从事不同的工作。他们没有记录在案的作案手法,也缺乏衡量他们完成的每项任务成功与否所需的指标。
此外,在许多情况下,这些团队缺乏发挥其潜力所需的必要技术支持。因此,这些团队对企业整体增长的价值并不大。
为了更好地利用其数据科学团队未充分利用的能力,每个企业都需要鼓励建立数据科学计划,其中包括:
其数据科学计划的目的
为自己配备必要的数据科学基础设施(训练有素的专家、强制性设备等)
交付路线图
性能指标
2. 创建有能力的团队,而不是寻找独角兽
独角兽指的是一种神话般的生物,它像一匹马,额头上有角。在流行文化中,这个词被用作比喻来形容许多人渴望但难以获得的东西。
在数据科学的背景下,独角兽一词几乎具有相同的含义。它指的是一个人,更具体地说是数据科学家,拥有或可以获得企业所需的几乎所有数据科学技能。
正如独角兽的定义一样,数据科学独角兽是一种罕见的发现,但由于其投资组合的性质,需求量很大。
该最佳实践表明,公司应优先考虑建立跨职能的数据科学团队,而不是寻找全能型人才。
典型的跨职能或跨学科数据科学团队由以下人员组成:
数据工程师收集、转换和汇集未精炼的数据,为其他团队成员提供可访问和可用的信息。
机器学习专家创建 ML 数据模型以识别收集数据中的模式
DevOps 工程师部署和维护 ML 数据模型。
业务分析师了解公司的需求以及目标市场。
一个团队负责人,以适当地引导团队。
跨职能团队是独角兽的更好选择,因为他们可以:
分担工作量
在解决问题时提供不同的观点
改善整体决策
3. 在着手解决问题之前彻底定义问题
对描述数据科学问题的整体性的需求再怎么强调也不为过,甚至包括最细微的细节。
揭示问题的细节使数据科学家能够检查其每个组成部分,并根据优先级、清晰度、可用数据和投资回报率等具体参数对其进行衡量。它还允许他们确定解决该问题所需的主要和次要利益相关者。一旦定义了问题,数据科学家就可以将数据收集、分析和解释系统化。
然而,这个看似基本的命题是很多公司在开展数据科学业务时关注的。相反,他们模糊地解释了使数据科学家的工作更加复杂的问题。
因此,在尝试解决问题之前,公司需要将其分解为骨头,并暴露其所有组件和要求。
4. 确保 POC 在明确的用例上运行
POC 或(概念证明)对于任何数据科学项目都至关重要,因为它们决定了数据模型或数据科学解决方案是否可行。它本质上是更广泛的数据科学解决方案的测试案例,它决定了公司的数据科学计划是否能够满足其需求。
首先,运行 POC 需要一个用例。使用案例的选择可以决定 POC 看到生产阶段的前景。因此,数据科学家应该选择在 POC 运行时能够提供可量化结果的最合适的用例。
此外,用例应表示关键业务问题或一系列问题,以便为 POC 提供特定和相关的测量标准。
5. 确定并列出所有 KPI
是什么决定了一家公司的数据科学工作是否取得了足够的成果?与它们并列的是关键绩效指标 (KPI)。
现在,虽然大多数实施数据科学的公司都有一套业务目标,但他们缺乏相关的界定 KPI 来监控他们在实现这些目标方面取得的进展。
因此,企业需要留出某些可衡量的 KPI,例如投资回报率、每位消费者的收入增长百分比、CSAT 分数等,以确定其数据科学项目的可行性。
例如,如果企业部署了优化算法来增加收入,它可以使用月销售额、网站访问者数量等绩效指标。
6. 强调对利益相关者的适当管理
根据数据科学术语,利益相关者是使用数据科学家提供的数据的个人。他们可以是内部的——例如使用数据促进业务增长的业务分析师,也可以是外部的——与数据科学家联系以解释数据的客户。
现在,数据科学主要处理数据。但是,记住计划使用它的个人——利益相关者——也是必要的。
这样做可以确保数据科学家不仅分析数据,还分析与之相关的人为因素。换句话说,管理利益相关者使数据科学家能够与人一起工作,而不仅仅是数据。
为了有效管理利益相关者,数据科学家应实施以下策略:
建立透明的沟通渠道
向他们传达项目的所有可能结果
寻求反馈
发起合作努力
7. 基于利益相关者的数据科学文档
文档对于任何数据科学项目都至关重要。不,我们不想有其他想法。
正确记录项目的所有方面可以让利益相关者更好地理解和利用其数据。
但是,无论文档有多好,如果您无法将 DS 项目的细节传达给正确的利益相关者,那么该项目可能不会那么有效。
因此,您应该根据相关利益相关者的要求和专业化记录项目,而不是采取“一劳永逸”的方法。
8. 学习将数据科学工作与适当的工具相匹配
这一点似乎很明显,但是将正确的数据科学项目与正确的工具配对需要高超的技能和数据科学的才能。
蒂姆·博恩 (Tim Bohn) 的这篇关于需要为数据科学项目使用适当工具的说明表明需要这种最佳实践。
为数据科学工作选择工具可以参考:
选择合适的数据可视化软件
衡量项目的云存储容量
选择合适的编程语言
评估当前数据科学基础设施的可扩展性
确定解决手头问题的正确方法等等
这种数据科学最佳实践的前提是,准备好工作所需的工具有助于数据科学家更快、更有效地处理数据。
9. 采用敏捷方法
如果去掉所有装饰并过度简化,敏捷方法论指出软件开发应该分块进行,沟通和交互是关键。
每个部分都应该是一个 <插入时间框架> 长,并且开发人员应该优先考虑产品而不是理论解释。
现在,虽然有些人可能不同意,但将敏捷方法应用于数据科学项目会产生奇迹。
敏捷框架本质上将项目划分为冲刺——时间限制通常长达几周,数据科学家在项目的特定方面工作。
每个 sprint 在与利益相关者进行互动以概述其要求、确定利益相关者的预算、为他们提供交付时间表并确定要完成的任务的优先级后开始。
在每个 sprint 结束时,都会进行审查以评估迄今为止所做的工作。
10. 跟踪数据伦理
数据模型的执行是客观的,但数据科学家不是。因此,数据科学家必须建立不违反数据收集、分析和解释伦理并可能对人造成伤害的模型。
不遵守数据伦理可能会以多种方式严重影响公司的信誉和声誉。如果您了解 Cambridge Analytica 丑闻,您就会明白我们的意思。
结论
以上就是 10 个数据科学最佳实践的列表,以补充您的数据科学事业。
数据科学是一个快速发展的领域,其应用范围与日俱增。如果实施得当,数据科学可以成为企业的重要组成部分,并显着促进其增长。唯一的问题是组织应该为自己配备足够的数据科学基础设施,雇佣合适的人,广泛合作并遵循上述最佳实践,以充分利用他们的数据科学工作。