不要让数据科学成为骗局
公司已被出售有关数据科学的炼金术。他们被承诺会带来变革性的结果。他们以自己最喜欢的数字出生公司为模型,建立了自己的期望。他们已经花了很多钱来雇用昂贵的数据科学家和
机器学习工程师。他们在软件和硬件上投入了大量资金。他们花费大量时间进行构思。尽管付出了所有这些努力和金钱,但这些公司中的许多公司几乎没有享受到有意义的收益。这主要是因为他们将所有这些资源用于过多的实验,没有明确业务目的的项目以及与组织优先事项不符的活动。
当音乐停止并且资金枯竭时,钱包的绳子将收紧,为这项工作提供资金的资源也将枯竭。到那时,数据科学将被指控为骗局。
为了将数据科学从骗局转变为价值来源,企业需要考虑将其数据科学计划从研究工作转变为业务和流程的组成部分。同时,他们需要考虑奠定一个真正的信息架构基础。我们将其构建为AI阶梯:数据基础,分析,机器学习,AI /认知:
为了打破目前在数据科学领域的投资模式而不实现回报,企业可以解决以下关键领域:
寻找,保留和建立合适的人才和团队
制定数据和数据科学的企业策略
实施数据科学
克服文化冲击
寻找,保留和建立合适的人才和团队
我们之前的两篇VentureBeat文章涵盖了数据科学团队的组成以及我们在数据科学家中寻找的技能。回顾一下,伟大的数据科学团队依赖四个技能:数据工程师,机器学习工程师,优化工程师和数据新闻记者。如果要最大化合格申请人的数量,请尝试发布具有这四个职位和技能的职位,而不要寻找通用的“数据科学家”。
留住人才需要在多个方面给予关注。首先,团队需要与他们所驱动的价值保持联系:他们的项目如何影响业务和企业?其次,他们需要感到有力量,并且知道您有自己的后盾。最后,在为团队做计划时,应将20%至25%的空闲时间用于创新的蓝天项目,参加类似于Kaggle的比赛,并学习新的工具和技能。花费大量时间看似对生产力而言是昂贵的,但它为团队提供了建立技能的途径,以加速未来的用例,并且比雇用和培训新人才要有效得多。
制定数据和数据科学的企业策略
识别,评估和优先考虑决策
计划制定的决策 ,并使之与有形价值保持一致,特别是避免成本,节省成本或获得新的净收入。这是此过程中最重要的步骤,也是将数据科学从研究转移到业务不可或缺的第一步。之前,我们已经在“六个步骤”中规划了执行此操作的过程,但是简单来说,它需要与企业所有者(副总裁或其代表)就他们所做的决定进行直接对话。询问有关他们用于做出这些决策的数据,其完整性,是否有足够的数据治理以及企业使用已开发的任何模型的可能性有多大。
您可以使用直接集成到流程和应用程序中的仪表板来制定决策。但是,当心数据仅支持先入为主的概念的情况。相反,寻找机会影响真正的基础决策:
“我们应该在哪里定位产品以最低的成本获得最佳可用性?”
“我们最有可能针对特定客户进行交叉销售/追加销售的机会是什么?”
“哪些是我表现最好的团队?表现最差的团队?”
“如何在给定y个约束的情况下优化x来减少供应链成本?”
重视每个决定。 更快,更有效地制定决策可以避免成本,节省成本或增加收入。使用您的CFO提倡的任何方法和术语来表达此价值。
优先考虑决策组合。 该练习创建了一个决策组合,可以作为数据科学积压工作的基础。通过评估成功的可能性,实现的难易程度和价值(基于上表中的评分指标)来对积压工作进行优先级排序。我们通过自己进行练习,开发了一个框架,用于构建投资组合并确定其优先级。
离散交付物。 接下来,做出最重要的决定,并将其分解为可管理的小块,并以小规模的方式交付。首先,确定最低限度的可行产品(MVP),然后从那里开始工作。考虑三个星期的冲刺,可以在两个冲刺后开始产生价值(但是很小)。
实施数据科学
将数据从研究项目迁移到公司的组成部分需要对数据科学程序进行操作。除了组建团队和制定策略外,还需要将模型集成到流程,应用程序和仪表板中。还计划持续监视和重新训练模型部署。
真正集成模型意味着它们不能作为通过电子邮件发送的csv文件或通过墙壁扔给开发团队的代码进行部署。它们需要作为可重用和受信任的服务进行部署:直接从数据科学平台输出的版本化RESTful API。以csv文件的形式提供模型可以切断与流程的连接-以及来自实施的反馈。将R或Python代码扔给开发团队以将其转换为API的效率最高。但是要做好一些工作的准备。建立健全的流程通常可能需要三到六个月的时间,并且需要将其配置为一个反馈循环,以轻松地让您的团队重新训练和重新部署模型。
将预测性或规范性分析应用于您的业务不可避免地需要您对模型进行重新培训,以使其与模型所驱动的加速变化速率保持一致,并基于结果本身对模型的反馈。我们已经看到了这样的情况:一个团队在一年的时间内开发了一百多个模型来做出单个决定,而在第二年才开发零模型,因为该团队现在完全专注于监视和重新训练其现有模型。重要的是要认识到这并不是他们的方法中的缺陷。他们需要建立许多模型来解决问题。问题在于,在运行模型部署的过程中,他们没有自动监视和重新训练这些模型。
除非您已经为企业执行了大量的数据科学项目,否则操作上的挑战可能会令人惊讶-但它们是非常现实的。
衍生数据产品。 我们经常会忽略这样一个事实,即我们的设计功能本身就是有价值的数据。作为模型构建和工程的一部分,请考虑将这些新数据作为API部署并将其集成到适当的数据资产中,而不是让它们保持专有性。例如,如果数据科学团队设计了一个结合了客户数据,产品数据和财务数据的功能,则将该新功能部署为API,并让相应的模型使用该新API。
克服文化冲击
在众多企业中,数据科学成为骗局的各种原因中,尤其有一个隐约可见的原因是:文化抵制。为了克服管理层的阻力,应将重点放在任何兴奋参与的同行中。一旦他们开始在其过程和应用中应用数据和模型,倡导者就可能开始超越电阻器。在某些时候,管理者会问他们在做些什么,电阻器可能会感到压力,要求改变他们的位置。认为这是一种耻辱。您向经理展示的价值通常是通过避免成本,节省资金或创造净新价值来超越同行。
各个贡献者可能出于一些不同的原因而拒绝这种转变。他们可能担心会被机器取代,或者担心制造机器的人不完全了解过程或环境。两者都是有效的关注点。诚实并直面解决问题,以赢得信誉。但是,在大多数情况下,您实际上不会使任何人失业,而是使每个工作更安全或更高效。帮助团队直接看到这一点。由于担心数据科学团队并不真正了解他们的工作,因此可以考虑将其中一个保留项目从地板上拉出来,并要求他们作为产品所有者或主题专家直接在项目上工作。这为其他抵抗者提供了“我们中的一个”的拥护者。当该团队成员恢复正常工作时,
最后,您可以克服原始文化带来的文化冲击。确定一个用例,并建立一个由高级主管赞助的相关技巧。hack-a-thon应该包括有关机器学习,云和API的基本演示,以及有关相同主题的更高级的演示和对话。让团队亲手处理用例,并允许公司中的个人参加,而不受其培训和背景的影响。
为了将数据科学的炼金术变成黄金,企业必须使他们的数据科学工作与具有实际和有形价值的业务成果保持一致。他们必须停止专注于实验,并将其工作转向数据科学作为其业务模型的组成部分,并使它们与公司的优先事项保持一致。如果您遵循上述方法,音乐将继续播放,资金将不断流动,数据科学将不会成为您企业中的骗局。
题库