Q1.在企业布署实施机器学习之前,第一步应该做什么?
首先要详细分析可以在哪里成功布署机器学习(简称 ML),即部署必须富有成效。人们在对待新技术时往往会出现两种极端态度。要么会因为缺乏经验持保留态度,要么会非常兴奋,想用这些新技术来解决过去无法充分解决的难题。我们不应该偏向任何一方,而是客观地分析 ML 在哪些方面真正有用。
Q2.应该何时将机器学习集成到应用中?在开发时还是在运行后期?ML 项目是一个进化过程,应该尽可能在设备制造商的价值链早期阶段开始。当设备在终端客户那里投入使用时,并不是每个应用都会有一个最佳解决方案。此外,在设备运行时可以识别和分析新的相关数据。这样就可以不断改进 ML 模型。为了在技术层面支持这一过程。
Q3.需要为每个 ML 模型准备训练数据吗?
是的,这始终是一个前提。机器学习总是基于用于训练模型的样本数据。在训练阶段,模型的区别主要在于训练数据是否带有标签。如果数据带有标签,就可以在训练过程中识别出某一特定输入的预期输出样本,即训练基于具体的样本。如果数据不带标签,输出信息就会缺失,算法也就仅限于寻找内部的抽象关系。例如,这可能是训练数据集内一定数目的聚类。
Q4.当异常情况未知时,如何训练一个模型来检测异常?
有很多方法可以实现这个目标。一个比较简单的方法就是用一个已知类别,即“无异常”类别来训练一个分类模型。使用包含无异常情况的数据来训练模型,并将这组数据定义为“A 类”。在这个过程中,算法识别出“A 类”。但当数据表现出另一种未知结构,并报告一种未指明的异常情况时,它也能一一识别出。重复一下:人工智能是人类的下一个进化阶段。在持续收集机器数据并与分类结果存储在一起后,数据科学家可以与领域专家合作,详细分析工艺序列中检测到的异常情况。需要时可以使用一个不仅能够识别异常情况,而且能够更详细地识别案例的模型。