您会从这个家伙那里获得见解吗?
“您需要做的第一件事就是将所有数据放在同一位置”。我们所有人都记得发起了数千个痛苦的IT项目的口头禅。有论点是,这将使“ 360度客户视图”或“数据驱动”决策成为可能。经过数百万美元和多年实施之后,许多公司都难以量化这些计划的商业利益。这里最有说服力的术语是这些努力应该“启用”分析,而不是交付价值。
从数据科学的角度来看,“数据优先”企业是错误的。首先,那里有无限数量的有用数据。其次,严格的数据科学从上至下进行工作-从客观数据到相关数据。因此,您要做的第一件事就是定义业务目标和指标。
一种新型的催乳素出现了,他出售的是可行的见解-与明胶差不多。我们现在已经进入AI炒作泡沫的几年了。现在,每个咨询公司,系统集成商,IT公司,软件提供商,甚至税务和审计公司都要求拥有专业知识。他们都声称自己占据了魔力象限中的主要房地产。当专注于创造价值时,一个构思周到的数据科学项目应该能够在6个月内达到收支平衡。您如何筛选数学,可视化和魔术演示,以选择可以实现这一承诺的分析合作伙伴?
在本文中,我们认为分析与任何其他业务工作没有什么不同,可以对其进行相应的评估和管理。本文为这两个阶段提供了建议。第一部分重点介绍了在提案阶段区分和评估供应商的关键问题。第二部分重点介绍了管理参与成功的最佳实践。
1. 供应商尽职调查
第一个要问的问题应该是显而易见的:“什么是他们独特的价值主张(UVP)?” 但是,许多供应商很难提供可靠的答案。他们有唯一的数据源吗?他们是否拥有经过验证的分析资产?他们可以轻松地集成和评估第三方数据的价值吗?他们是否有稳定的经验丰富的世界一流科学家?
大多数大型组织依靠惯性运行。他们还倾向于只珍惜自己所知道的东西,从而使他们将传统做法与数据科学相结合。如果他们的传统做法是出售大型机,那么他们现在正在推动云计算。系统集成商和咨询公司继续销售复杂的集成和咨询。四大巨头倾向于出售商业智能和报告工具。其他人则在出售“平台”。常见的说法是:“您首先需要这些东西。数据科学可以在以后添加。” 这种推销具有便利的附带好处,因为不必通过业务价值或ROI来证明基础架构,BI,计算资源,平台和软件工具的合理性。可能需要其中许多东西,但应通过经验分析(即数据科学)证明其成本合理。
领导层实际上是否具有数据科学专业知识? 许多公司只是将其服务和员工重新命名为“数据科学”。因此,索取凭证不是不礼貌的。尝试在Linkedin或Google Scholar上查找他们的个人资料。令人惊讶的是,有许多组织实际上没有任何科学家在职,或者声称“在某个地方离岸有一堆数据科学家”。
在一个富有启发性的采访中,人工智能四大巨头高级合伙人承认,他的团队没有数据资产,没有分析资产,没有数据科学家,并且在两年内没有一个成功的咨询项目。他继续吹嘘自己从未雇用过26岁以上的数据科学家。他的业务主管甚至没有大学学位。在晚宴上与整个团队会面,全球
人工智能负责人向我们介绍了有关科学家在社会上如何尴尬的故事。当被问及他的公司如何与其他提供商竞争时,他解释了他的策略:“ [w] e是值得信赖的专业服务合作伙伴。我们已经融入他们的业务。我们也可以进行他们的数据科学。” 显然,他们的主要UVP是chutzpah。
与当前的时代精神相反,该行业并未遭受技能或初级资源短缺的困扰。但是,肯定缺少对基础数学有深刻理解并拥有成功的数据科学解决方案记录的领导者。大多数工作还需要现场工程负责人-直接与业务和运营负责人合作,以捕获流程和业务约束,IT,决策点,输入和结果数据的最终来源。没有人希望通过中介机构,跨时区等来运行项目。这会增加大量的混乱,延迟和开销,并使交付面临风险。
他们的建议是否足够详细,可以进行技术评估? 供应商的方法在技术上既要可信又可行。如果他们无法解释他们的技术,为什么您应该信任他们?如果供应商通过引用专有IP逃避了细节,那么那里就没有“那里”了。如此基础的知识产权可以在15分钟的对话中被盗,这并不是很令人印象深刻。
此外,建议的特定算法可能与您的业务问题无关,也可能没有相关价值。经过数十年的研究,“
神经网络”是真实存在的东西。“自然语言处理”仅表示“我们从文本中提取信息”,并且可以像关键字匹配一样简单地指代技术。“认知”是形容词。
完善的技术方法是必要的,但当然不是成功的充分条件。例如,商业上成功的欺诈检测解决方案已采用了多种高级算法,包括异常检测,网络分析,图论,聚类分析,数论,决策树,神经网络,线性规划和卡尔曼滤波。图1比较了两种实时欺诈解决方案的性能。现有解决方案(蓝色)将专家规则与优化的决策树结合在一起。挑战者解决方案(黄色)结合了时间信号处理,NLP和神经网络。(使用认知线性规划解决方案的第三种方法无法在传统解决方案上进行改进,因此被淘汰。)挑战者解决方案的统计性能几乎是前者的两倍,直接将欺诈损失或运营成本降低了100%。这三种方法都具有可靠的分析和理论基础。解决哪种方法更好的唯一方法是经验检验。
图1:性能比较:没有它就不要离开家
他们的案例研究中是否有投资回报率或统计性能比较? 无法引用性能确实没有任何借口。数据科学意味着对业务问题采取有纪律的,经验性的方法。相对于BAU惯例的绩效和业务收益可以直接根据数据进行计算,或者在必要时在冠军/挑战者实时展示中进行测试。
案例研究是否针对真实的客户数据进行? 这个问题理应引起人们的警觉,但是市场上数量惊人的解决方案实际上从未在实时数据上进行过测试,或者从未在辅助数据集或无关数据集中开发过。对于数据科学家而言,这实际上是无法想象的,但是基于“合成数据”的解决方案在旧版软件公司中很常见,因为历史上一直将重点放在建立标准化的API上,而不是从数据中提取价值。许多公司甚至都没有安全地访问其客户数据,因此实际上无法验证其解决方案是否可以带来价值。这样的系统通常实质上是规则引擎,并且可能严重限制下游决策技术的复杂性和价值。
他们可以提供参考网站吗? 生活中令人沮丧的事实是,客户并不总是愿意充当参考站点。考虑到某些项目的敏感性,这是可以理解的。但是,如果有前途的供应商没有进行“ Alpha”部署,并且其技术方法和团队似乎是可信的,则您将有独特的机会来谈判价格。成为公共参考站点和数据研究权是交易服务的所有资产。签订共同开发协议可让您以折扣价构建定制的新功能。在许多大型咨询公司中,数据科学团队多年来一直在亏损,他们将渴望公开证明自己的真诚,并渴望获得用于研究和产品改进的真实数据集。
2. 供应商管理最佳实践
理想情况下,数据科学工作应生成三个可交付成果:诊断,价值证明和实施计划。应当召集一个指导委员会来审查参与过程中的每个可交付成果。
建立指导/审查委员会。 从一开始,就应该由关键利益相关者(通常是损益所有者,业务部门或产品所有者,运营负责人和分析负责人)的常设委员会监督项目。内部IT团队负责人可以进行尽职调查,但是IT部门通常不具备数据科学技能,并且如果他们不了解,无论多么琐碎,他们都可以“花费”项目的成本(夸大实施成本估算)任务或所使用的技术。分析团队可以通过不合作主动或被动破坏客观测试。另一种方法是聘请第三方顾问进行供应商的尽职调查。
定义业务目标和绩效指标。 在可行的情况下,应根据业务指标(利润,收入,成本,损失,发生率,转换率等)来定义工程目标。清晰的指标还可以简化尽职调查,为供应商建立具体的客户期望和“成功标准”。对于概念验证目标选择不佳的两个例子是预测客户流失或创建客户细分。这些努力都没有直接的商业利益。(损耗模型只是预测您将失去某些客户,而不是该怎么做。)两种用例都可以由具有中等技能的分析师快速交付。因此,用例都不能很好地检验供应商的能力或技术。
任何业务成果或KPI都可以用作目标,如果可以衡量,则可以预测。在完全数据诊断中,可以根据这些指标来测量当前和潜在数据源的信息值。即使是“可能的艺术” POC的价值,也可以根据降低的成本或确定的收入机会简单明了地表述。
在项目早期安排“通过/不通过”审查。 从克劳塞维茨(Clausewitz)借用的格言很少被证明是错误的:“没有计划能使与数据的接触永存。” 在提供访问数据的2–3周内,应安排进行一次临时审查以审查初步结果。到此时,供应商应该已经能够验证数据是否支持目标,并保证最低性能。另一方面,在分析过程中,供应商可能已经发现并推荐了替代目标和优先级。
这份初始报告有时本身也称为“诊断”或“规模和机会分析”,应视为可交付成果。通常,对效率,绩效驱动因素和根本原因进行深入的经验分析会产生政策和流程的增值建议,而无需预测性分析解决方案。从这个意义上讲,这种“可行的见解”是数据科学项目的额外附带利益。尽管不能保证存在这种“快速修复”,但通常,实施这些建议的好处可能会超过整个项目的成本。
在审查了结果之后,指导委员会可以决定中止该项目,重新承诺或重新确定目标的优先级,并制定计划来开发和测试迄今为止的学习成果。从这一点出发,毫无疑问,这种方法是否会带来价值;仅应考虑收益和实施成本的大小。
最后,提防昂贵的实施计划。 在前期,有时仅估算指示性的实施成本,因为在构建原型的过程中发现或确定了许多约束以及数据和基础架构要求。无论供应商是否正在出售本地安装平台SaaS,都应尽早建立合理的规定,以支付扩展功能的成本,包括安装第三方和内部解决方案的能力。
一些公司将在现阶段通过超额销售平台和基础设施来弥补成本。几个行业严重依赖已有数十年历史的决策引擎。替换这些系统是一项昂贵的提议,并且对于数据科学交付而言通常不是必需的。基础设施不可知评分引擎可用于创建客户决策,然后可以将其“推送”到旧式决策引擎中,作为表格加载到数据库中,或输入到现有的BI工具中。这种与生产数据流或记录系统并行工作的最小侵入性方法,既是实现价值的最快方法,又是成本最低的方法。增强功能和增加的功能相对来说不费吹灰之力,因为数据科学交付团队一直对引擎拥有所有权。
数据科学的潜力继续被构思不当的举措和伪装者削弱。成功的关键是进行严格的尽职调查,定义业务问题,建立明确的指标并进行价值证明。这些山丘上有金子,但要小心选择与谁一起勘探。
Russell Anderson(交易分析咨询总监)拥有超过25年的在金融服务,零售,电子商务和生物医学行业开发数据科学解决方案的经验。他曾在多家知名分析公司担任科学顾问,包括IBM,毕马威,Opera Solutions,NICE / Actimize,HCL,HNC Software,Mastercard Europe,JP Morgan Chase和苏格兰哈利法克斯银行。他拥有博士学位。加州大学生物工程学博士学位,已撰写了30多个科学出版物,并拥有商业预测解决方案的多项专利。

关注 CDA人工智能学院 ,回复“录播”获取更多人工智能精选直播视频!