磨刀不误砍柴工——利用JMP探索离群值

JMPer

2093

收藏 2021-12-21

当你拿到数据开始分析时，第一步通常会做什么？

<span]是使用功能强大的JMP Graph Builder(图形生成器) 做可视化分析？

<span]或是利用JMP Distribution(分布)平台做描述性统计量分析？

<span]又或是利用JMP多样的预测建模工具，找到最适当的预测模型？

<span]虽然这些都是JMP为人所乐道的一些功能，但是作为使用JMP进行分析的第一步，除了上述平台外，你不妨考虑利用Explore Outliers (探索离群值)及 Explore Missing Values(探索缺失值)平台，来清洗你的数据，正所谓磨刀不误砍柴工。

也许你认为探索缺失值还能理解，毕竟空值要先剔除，对后续分析比较合理。但是，为什么需要将离群值也排除？假如这样的离群值正是代表数据总体的状况，是否对我们的分析会有影响？而且，离群值很难抓取出来，不能先忽略这个影响吗？

<span]

要厘清这些问题，我们需要先搞清楚什么是离群值。

<span]

哪些数据属于离群值？

<span]哪些数据属于离群值？

<span]一元数据的离群值

我们先讨论一元数据的情况。

<span]

随机生成1000个标准正态分布Nor(0,]

图一]

接着，我们来看二元变量的情形。

<span]

二元数据的离群值

<span]二元数据的离群值

<span]

在JMP软件中，利用Graph]

图二]

图二(b)]而当两变量间有强相关性，也能发现有些离群点距离其他的样本点之间的距离较大(图三红点)。

另外，利用Fit]如果只关注单一变量，有些离群值则会侦测不到，如下图所示，这一个典型的例子说明，我们全盘考虑多变量的离群值时，会抓到一些潜在的离群点，避免只观察管控单一变量的误判。幸运的是，JMP提供了这样的多变量离群点观测平台。

图三两变量间有强相关性的散点图

到此，我们能够了解离群值的概念，就是找出相较于其他的样本点，距离样本中心较远，或是点的坐落位置与样本整体”趋势”不符合的点。有趣的是，离群点不代表有问题的点，而是代表与其他的样本有着差距而无相同的”趋势”。所以离群值，有可能代表良善社会的问题人物，也可能代表万恶城市中的一股清流，就看你的样本来自哪里。

<span]接下来，我们用一个半导体制造的电性测试数据来进一步说明和验证。

半导体数据的案例说明

<span]半导体数据的案例说明

<span]半导体晶圆制造的组件参数都有其对应电子特性。因此透过电性测试这些参数的结果便可反推对应制程的质量。晶圆代工厂一般称电性参数测试称为WAT (Wafer Acceptance Test)，其客户需要检视WAT测试数据来确认制造质量。而新制程研发阶段更需要搜集大量WAT数据来解决制程问题或寻找优化的因子配置。

我们利用一组简单的WAT数据作为示范，其中包含10个观测参数数据。

<span]当我们直接分析产线三的数据时，利用JMP Analyze>Distribution （分析>分布）功能，可以快速做出相应的直方图及Outlier Box Plot （离群值箱线图）观察是否有离群值。

结果如图四(a)，Outlier]

图四(a)]根据Quantile Range （分位数范围）离群值检验，我们发现参数一存在一个离群值(红点)，利用Analyze>Screening>Explore Outliers （JMP>分析>筛选>探索离群值）平台中的Quantile Range Outliers（分位数范围离群值）功能，可以发现其离群值(图五)，并可以针对数据做标记、排除、视为缺失值等动作。

同时，你也可以调整判定为离群值的规则，可以调整尾端百分位值(Tail]

而当你的数据较不符合正态分布时，可以考虑使用Robust]

图五 Explore Outliers 平台中的Quantile Range Outliers

<span]

但当我们更全面考虑，纳入所有产线的数据，你会发现产线三拥有较高的参数一测试结果，如图六，原本产线三上的离群值8.01反而较符合大多数数据的测试结果，而实际的离群值则转为产线三最高的三个值(图六红点)，这样的结果也正如前面所说的样本出处的重要性，广泛获取能够代表总体数据对于筛选正确的离群值有着举足轻重的作用。

<span]

图六全部产线的Box Plot图六全部产线的Box Plot

当考虑所有参数的影响，找出所有参数影响下的离群值时，JMP也提供了Robust]在这里，我们使用K Nearest Neighbor Outliers 平台寻找离群值，利用复合选取距离较高的样本点，标记为离群值(图七)。

<span]

图七]通过Graph Builder 确认这些被选为离群值的数据点在每一个参数上的分布位置可以发现，不是所有的点都属于单一参数的离群值(如数据点290, 295, 296, 297, 298, 299)，这样的结果也和前面所提到的通过JMP多元离群值筛选平台，可以抓出许多在观测单变量下所忽略的潜在问题点(图八)。

<span]