机器学习引起混合反应。一方面,有人认为机器学习是公司新的超级大国,它具有“风靡企业技术,使用大量数据和算法进行预测。” 同时,机器学习被认为是过度炒作的时尚和灵丹妙药,未能交付。虽然两者都是正确的,但公司需要考虑
机器学习来实现业务自动化。
IDC 估计,全球“在认知和人工智能 (AI) 系统上的支出将在 2020 年达到 191 亿美元,比 2017 年的支出增加 54.2%。” 此外,“到 2021 年,40% 以上的数字化转型计划将使用人工智能服务。” 甚至国家也计划提高人工智能 (AI) 和机器学习能力。澳大利亚将致力于“2990 万美元为利用这些技术的项目提供四年多的资金。” 忽视机器学习技术,因为它们被夸大了,要付出高昂的代价,包括失去创新和业务。
那么企业如何有效地使用机器学习呢?好莱坞在 1983 年发布的战争游戏中提供了一些初步见解。在影片中,斯蒂芬·法尔肯教授创建了机器学习 AI 约书亚,以帮助美国空军改进其军事战略。当一名少年侵入系统玩全球热核战争游戏时,情节变得更加复杂,却发现该游戏将引发一场真正的核战争。War Games提供了一个框架来评估成功和失败的机器学习用例。
从机器学习开始(空军一头扎进让约书亚控制核导弹并试图赢得一场核战争)
电脑需要质量数据集(Joshua 的初始数据集有漏洞,可以帮助计算机学习。当 Falken 教授向 Joshua 介绍井字游戏时,
人工智能能够看到核战争的徒劳并停止倒计时)。
最后,机器学习程序需要适应上下文。(约书亚没有发射导弹的决策能力,幸运的是可以学会不发射,因为核战争是没有胜利的)。
从机器学习开始
赛斯·德兰德说决策者必须对机器学习技术有技术理解。当前的机器学习技术在发现模式和检测洞察力方面表现出色,具有离散性脚步. 充分利用这种优势的项目会成功。
例如,塞内加尔项目用伽马射线对雄性采采蝇进行绝育能够阻止昏睡病的传播。“机器学习将苍蝇数量减少了 98%,同时昏睡病也随之减少。” 具体的灯光特征区分雄性和雌性果蝇。这些算法从一组具体的图像中学习了如何快速对大量雄性苍蝇进行分类,从而简化雄性采采蝇的绝育。
由于采采蝇项目利用 AI 技术优势以特定和离散的目标来确定苍蝇的性别,因此机器学习方法是成功的,特别是因为人类对采采蝇进行分类既费时又费力。
另一方面,创建具有广泛目标的机器学习项目可能很容易,但并非所有涉及使技术发挥作用的东西。McCormick 的信息架构师 Terry Moon 运行了一个可行性研究关于使用机器学习来提高食品质量。
项目进行一年后,McCormick 冻结了项目的数据集,认识到机器学习成本太高且维护时间太长。Moon 换了个方向,考虑如何处理大量的数据种类。
在尝试开发一些 API 来解决 McCormick 的数据问题后,Moon 寻找有平台的供应商来提供帮助。她与 Ravi Shankar 建立了联系,并使用 Denodo 平台将 McCormick 的数据连接在一起——在某一点实时——更易于访问。通过解决这个问题,麦考密克继续其机器学习项目。
截至 2018 年 3 月,McCormick 一直使用机器学习技术,并在接下来的三年中扩展了这项技术。根据她的经验,Moon 建议公司花时间与数据虚拟化例如,解决诸如应该为连接到一组源系统而不是另一组源系统的策略等问题。
机器学习必须具备数据质量才能成功
机器学习需要准确且完整的数据并且必须有质量数据。正如 Paramita Ghosh 所报道的,“清理和运行这些数据并在其上添加一些商业智能需要大量的手动工作。” 对于那些触手可及的高质量数据集,来自过去的项目、程序或手头应用程序的人来说,这可能是应用机器学习时更容易开始的地方。
例如,RR唐纳利(现为 RRD),财富 500 强公司,增加了物流司弄清楚如何最好地运送印刷材料。RRD 员工和大学编写的算法分析了驾驶员手机中已经可靠且可用的地理、交通和天气信息。这些程序学习并更新了他们的程序,建议即时更改航线。移动 GPS 数据提供来自固定标准的可靠信息。
结果提及净销售额增长 3.7%,部分原因是物流。教训:如果您可以轻松访问标准、可信赖的数据集,请考虑首先将其用于机器学习项目。
忽略提供给算法的数据质量将导致机器学习项目失败,尤其是聊天机器人。詹姆斯·米肯斯解释这在第 27届Usenix 安全研讨会上进行了雄辩。他以微软创建的聊天机器人 Tay 为例,用于在互联网上与人们交流和学习。在一天, Tay 从发推文鼓励信息到赞扬希特勒,并发表种族主义和厌恶女性的评论。Tay 次日被下架,微软道歉.
Facebook聊天机器人 Alice 和 Bob 也遇到了问题,他们开发了自己的语言来与自己交谈,却忽略了与人交谈的意义。亚马逊的 Echo 设备 Alexa 试图为一些加利福尼亚人订购娃娃屋早间新闻将注释显示为命令。没有Good 生意会难堪数据质量引导机器达到其目的,尤其是当机器通过聊天机器人学习时。
机器学习算法特定于用例
机器学习算法可能在一个领域成功,但在另一个领域失败。在你应该知道的 10 个机器学习算法,决策不同,取决于程序。此外,在一种环境中失败的一种机器学习风格可能在另一种环境中成功。
IBM 的 Watson 在帮助 KPMG LLP 为企业研发部门纳税方面取得了非凡的成功。Watson 通过自然语言处理进行学习,它使用隐马尔可夫模型系统或 HMM。HMM 将单词设置为状态并计算语言转换的概率,这对法律语言非常有帮助。经过培训,Watson 获得了税收待遇权四分之三.
这使公司能够更好地利用联邦研究与开发税收抵免,从而为 IRS 提供更高质量的文件并节省工作时间。Watson 能够跟上法规、法律和法庭案件中的许多变化,从而为这种研发刺激提供良好的税收结果。
这与其在广泛的癌症项目上的工作形成鲜明对比。IBM 的 Watson Health 项目在诊断和治疗癌症. 2018 年 2 月,休斯顿的 MD 安德森癌症中心为一个预算为 240 万美元的机器学习项目损失了 3900 万美元。
不切实际的期望是,通过对机器学习算法进行微小改变来适应的 Watson,可能会推断出基因变异如何在癌症中发挥作用,从而导致了项目的失败。如果该项目仅限于 Watson 的学习优势,例如使用肿瘤图像集的数据集来识别特定的癌症,那么该项目可能会取得更大的成功。
结论
机器学习用例向我们表明,该技术最适合具体目标、良好的数据集以及对算法优缺点的理解。机器学习需要进一步的技术创新才能有效实现其他目标。位于巴黎的法国国家计算机科学研究所 Inria 的人工智能研究员 Pierre-Yves Oudeyer 博士认为,机器需要好奇心学习。鉴于某些业务目标超出了当前的机器学习突破,公司需要在应用机器学习之前跟上技术和用例的最新动态。
相关帖子DA内容精选
- 大厂数据分析面试指南!来自亚马逊、谷歌、微软、头条、美团的面试问题!
|