全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析与数据挖掘
543 0
2022-06-21
数据科学家和分析师一天中的大部分时间都在与数据问题进行交互——为分析准备数据、编写和测试算法等。然而,你必须经常向管理层展示和证明你的工作并回答他们的问题。

不幸的是,大多数决策者并非来自数据科学背景,他们的期望和愿景可能与您不同。管理层往往希望看到“最新和最伟大”的进步机器学习(ML) 在您的产品中实施,无论其是否适用于所需的业务成果。作为数据科学家或分析师,您有责任与管理层设定期望,以了解实现结果的可能性和最佳方式。这样做与研究最新的 ML 库一样重要。

ML 解决方案的问题

虽然从数据科学家那里听到这一点似乎很奇怪,但非机器学习工具通常是实现业务成果的更好选择,而不是 ML 对应工具。这是出于多种原因。首先是维护问题。就像您的汽车或房屋一样,算法系统不能简单地设置和忘记。它们需要定期维护才能以最佳性能运行 - 算法必须同步,必须考虑不断变化的机器学习库等。您需要帮助管理层了解这些系统由于技术复杂性而难以让非专业工程人员维护. 鉴于数据科学人才的匮乏,这对除了 Facebook 和微软之外的所有人正确利用机器学习系统的能力提出了严格的限制。

另一个问题是基础设施。除非您的任务很小或只需要执行一次,否则在支持基础设施方面的大量支出将是必要的。没有这个,就很难让机器学习系统准备好在生产中使用。在实施这样的系统之前,管理层需要意识到前期成本可能不会超过随之而来的技术债务。

在更基本的层面上,许多企业只是缺乏必要的数据来训练和提供管理人员希望看到的算法类型。我们现在转向这个问题。

数据卫生的重要性

商业领袖经常忘记,机器学习算法并不是万能的,它可以被塞进给定的用例中,并期望自己神奇地创造价值。算法依赖于大型、准确的数据集来训练和生成预测。数据科学只是需要大量投资的长期数据收集、清理和标记过程的最终结果。这就是为什么拥有一个强大的数据治理策略在您的企业中到位。不幸的是,管理层经常忘记这一点。尽管未能对数据治理进行必要的投资,但他们仍希望他们的数据科学家能够“弄清楚”。

即使管理层已对数据治理进行了必要的投资,并且您可以访问大型、健康的内部数据集,但您仍然难以执行某些功能。这些最突出的包括任何需要您利用客户数据的东西。涉及滥用数据的广泛违规和丑闻的频繁发生,以及随之而来的ZF监管的加强,使得在企业的机器学习系统中利用客户数据变得比以往任何时候都更加困难。数据科学家需要向管理层明确表示,有充分的理由无法访问客户数据,但有限的数据需要有限的结果。

专注于最小可行产品(MVP)

“精益创业”方法论中的一个长期存在的想法,“最小可行产品”(MVP)指的是创建新产品的最简单版本的概念,该版本仍将解决其预期的用例。我们的想法是尽快将您的产品交到客户手中,以便您可以观察他们如何使用它并从他们的反馈中学习。您显然不想花费大量资源来开发客户不想要或难以按预期使用的功能。出于类似的原因,MVP 概念在 ML 场景中提供了相同的价值。

如前所述,数据科学家是一种稀有且昂贵的商品,机器学习算法需要不断调整。通过遵循敏捷方法并发布更小、更频繁的应用程序,您可以让自己有机会在现场观察您的假设并根据需要进行调整以实现所需的业务成果。在此处的所有概念中,这可能是领导层最容易接受的。毕竟,管理层可能不了解数据科学,但他们可能对美元和美分有着敏锐的鉴赏力。

工程交接

我们之前注意到工程人员维护高级 ML 模型所固有的困难。但是,除非您是一个多合一的开发人员和数据科学家,否则大部分基础设施实施将留给工程人员进行,并且需要进行交接。为了确保流程尽可能顺利,对两件事进行管理支持至关重要:创建文档和设置定期跨团队签到。确保以Jupyter 笔记本或其他一些系统,以便尽可能简单地按照您的步骤进行操作。请记住,当有疑问时,最好记录下来。跨团队会议将为您提供机会,让您的工程同事了解文档并评估他们的知识水平。

获得必要的时间来完成这项工作可能很困难,因为管理层可能不愿意将技术人才投入到开发以外的任何事情上。作为数据科学家/分析师,您有责任证明对文档和团队间计划的早期投资将以以后节省的时间形式获得十倍的回报。

结论性想法

虽然普遍的想象可能会将数据科学家/分析师描绘成整天坐在显示器后面编写算法的人,但实际上您的角色非常类似于沟通者。让管理层相信他们需要进行投资以确保 ML 计划的成功以及如果他们不这样做的后果将取决于您。

      相关帖子DA内容精选
  • 大厂数据分析面试指南!来自亚马逊、谷歌、微软、头条、美团的面试问题!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群