数据科学家认为数据是他们的头号难题。这就是为什么他们错了。
我经常看到将数据集成或准备工作确定为数据科学项目面临的关键问题的文章或帖子。这总是让我感到困惑,因为这不是我们的真实经历-并不是我们与采用预测分析,
机器学习或AI的财富500强公司合作时看到的东西。但是我想我已经知道了。问题如下:
数据科学家认为什么算作“数据科学项目”
,实际上并不是数据科学项目。
让我用一项出色的研究中的一些数据来说明这一点。早在2016年,经济学人信息部就“ 断开的链接:为何分析投资尚无回报 ”进行了一项调查,下面您将看到此数据看起来如何支持数据问题排在第一位的论点。
哇-很明显,数据集成/准备是最大的问题,报告该问题的项目几乎是下一个问题的两倍。
但实际上,这只是调查数据的一部分。这是完整的数据集:
数据集成和准备仅排名第四。问题定义/框架,解决方案方法/设计和行动/变更管理均排名较高。这是我们的经验。
在大型的成熟“成长型”公司中,数据科学项目失败的原因有两个或两个:
他们正在解决错误的问题。他们正在建立一种不是业务所需的分析,无法解决真正的业务问题或设计得不适合业务环境的分析。
他们无法采取行动建立自己的模型。他们无法通过更改已做出的决定和采取的措施来更改业务决策以利用分析的优势。
这说明了问题。
问题在于,数据科学家认为他们的项目始于数据,结束于他们的分析交流。如果这是您的重点,那么数据就是您的第一难题。
但这不是数据科学项目开始或结束的地方。他们必须从业务开始和结束。这意味着从业务问题开始-业务要改进的业务决策-到解决该问题为止- 业务行为有所不同(更好)。如果这是您的重点,那么您的问题不是数据,而是问题的定义和可操作性-使分析工作成为IRL。
这是在这些阶段中显示的差异。左边是许多数据科学家认为其项目涉及的内容,右边是其真正涉及的内容。
底线:如果您的数据科学团队告诉您
数据是他们的头号问题,那么他们做错了
我之前已经写过有关此内容的文章 -查阅有关研究本身的 LinkedIn 文章,以及有关采用决策模型作为定义数据科学团队试图解决的问题的更好方法的文章。您可能还喜欢我们最近发布的有关建立分析型企业的白皮书和视频。
随时在LinkedIn上与我联系,向我发送问题和评论。而且,如果我们可以帮助您的数据科学团队开始更好地定义项目,我们将非常乐意。
本文最初发布于LinkedIn ,具有60多个评论,140多个反应和1

关注 CDA人工智能学院 ,回复“录播”获取更多人工智能精选直播视频!