蒙特卡洛模拟算法在 IBM SPSS Modeler 中的应用及分析

8951

收藏 2015-04-10

来自IBM DEVELOPERWORKS

蒙特卡洛 (Monte Carlo) 模拟是一种通过设定随机过程，反复生成时间序列，计算参数估计量和统计量，进而研究其分布特征的方法。在 Modeler 中，即使没有历史数据，使用用户指定的统计分布生成数据，或者对现有历史数据进行拟合而获取其分布并自动生成数据。即使模型输入中存在不确定性，在对预测模型的结果进行评估后还能生成模拟数据。本文通过实例介绍了三个模拟节点的配置、评估以及脚本的实现，使客户能根据随机模拟法近似计算出系统可靠性的预计值并顺利的应用到实际的业务流程中。

模拟节点配置、评估实例说明及脚本实现
模拟生成节点和拟合节点的的配置

统计分布就是在统计分组的基础上，把总体的所有单位按组归排列，形成总体中各个单位在各组间的分布，是某个变量可以使用值的理论出现频率。在“模拟拟合”节点中，会将一组理论统计分布与每个数据字段进行比较。主题分布中描述了可用于拟合的分布，对理论分布的参数进行了调整，能够根据拟合度的度量实现与数据的最佳拟合；Anderson-Darling 或 Kolmogorov-Smirnov 标准，通过“模拟拟合”节点实现的分布拟合的结果显示拟合了哪些分布、每个分布的最佳参数估算以及每个分布与数据的拟合度。分布拟合期间，还可以计算具有数字存储类型的字段之间的相关性，以及具有分类分布的字段之间的偶然性。分布拟合的结果将用于创建“模拟生成”节点。

在分布与数据进行拟合之前，会在前 1000 条记录中查找缺失值。如果缺失值过多，则无法进行分布拟合。分布拟合未排除用户缺失值。如果数据包含用户缺失值，并且希望从分布拟合中排除这些值，则应该将这些值设置为系统缺失值。

拟合分布时，不会考虑字段的角色。角色为目标字段的处理方式与角色为输入、分区、分割、频率和标识等的字段相同。

分布拟合期间，会根据字段的存储类型和测量级别以不同方式对这些字段进行处理。表 1 描述了分布拟合期间的字段处理。

表 1. 根据字段的存储类型和测量级别进行的分布拟合

对于测量级别为有序的字段，其处理方式类似于连续字段，包含在“模拟生成”节点中的相关表内。如果要将二项式分布、负二项式分布或泊松分布以外的分布拟合到有序字段，那么必须将字段的测量级别更改为连续。如果先前为有序字段的每个值定义了标签，并且随后将测量级别更改为连续，那么这些标签将丢失。

在分布拟合到具有多个值的字段时，会以相同方式处理具有单个值的字段。具有存储类型时间、日期或时间戳记的字段将作为数字进行处理。

将分布拟合到分割字段：如果数据包含分割字段，并且希望对每个分割单独执行分布拟合，那么必须使用上游“重构”节点来变换数据。使用“重构”节点可以为分割字段的每个值生成一个新字段。随后，可以将此重构数据用于“模拟拟合”节点中的分布拟合。

以 drug1n 作为源数据进行拟合，连接“模拟拟合”节点，设置如图 1 所示。

图 1.“模拟拟合”节点设置界面

点击“运行”按钮，“模拟拟合”节点会自动生成“模拟生成”节点。双击该节点打开属性设置界面，如图 2 所示。

图 2. “模拟生成”节点设置界面

可以选择需要设置的字段进行修改和设置。右侧工具栏是对选择字段进行上下移动，添加以及克隆。例如选择第一行“Age”字段，默认的最佳拟合分布为均匀分布。在对应于相关字段行中单击参数列，然后从列表中选择指定，打开“指定参数”子对话框进行编辑。例如设置多个最小值，并以逗号作为间隔，预览图会显示相应的拟合曲线。如图 3 所示。

图 3.“指定参数”设置界面

确定后返回“模拟生成”节点配置界面，“Age”字段的状态会变为手动指定状态。如果将分布

改为泊松分布，“最小值，最大值” 会高亮显示，此时从列表中选择指定，打开“指定参数”子对话框进行编辑。例如设置最大最小值，如图 4 所示。

图 4. “指定参数”最大最小值设置界面

点击“模拟生成”配置界面右上角的按钮“使用最接近拟合”可以恢复到初始拟合状态。对于“拟合详细信息” 按钮，只有在已通过执行“模拟拟合”节点来创建或更新“模拟生成”节点的情况下，“拟合详细信息”对话框才可用。此对话框显示所选字段的自动分布拟合结果。分布按拟合度进行排序，最接近的拟合分布首先列出。您可以在此对话框中执行下列任务：检查拟合到历史数据的分布、选择其中一个已拟合的分布，如图 5 所示。

图 5. 拟合详细信息界面

处理方法（度量）：显示所选字段的度量类型。此类型来自“模拟生成”节点对话框中的“模拟字段”表。可以通过单击箭头并从下拉列表中选择度量类型来更改此度量类型。提供了以下三个选项：连续、名义和有序。

分布：“分布”表显示适合于此度量类型的所有分布。已拟合到历史数据的分布将按拟合度从最佳到最差的顺序进行排序。拟合度由“模拟拟合”节点中选择的拟合统计量确定。未拟合到历史数据的分布按字母顺序列示在表中已拟合的分布下方。

“分布”表包含以下列：

使用：所选单选按钮指示当前为字段选择的分布。通过在“使用”列中选择与所需分布对应的单选按钮，您可以覆盖最接近的拟合分布。在“使用”列中选择单选按钮还将显示所选字段的历史数据直方图（或条形图）上叠加的分布图。一次只能选择一个分布。

分布：包含分布的名称。

拟合统计量：包含针对分布计算的拟合统计量。

连续：包含 Anderson-Darling 检验和 Kolmogorov-Smirnoff 检验的结果，还将显示与这些检验关联的 p 值。最先显示的是选择作为“模拟拟合”节点中的拟合度标准的拟合统计量，它用于对分布进行排序。Anderson-Darling 统计量显示为 A=aval P=pval。Kolmogorov-Smirnoff 统计量显示为 K=kval P=pval。如果无法计算某个统计量，那么将显示一个点来代替数字。

名义和有序：包含卡方检验的结果，还将显示与此检验关联的 p 值。统计量显示为 Chi-Sq=val P=pval。如果未拟合分布，那么将显示未拟合。如果无法以数学方法拟合分布，那么将显示无法拟合。注：对于经验分布，此单元格始终为空。

参数。包含与每个已拟合分布关联的分布参数。这些参数显示为 parameter_name = parameter_value，参数之间以单空格分隔。对于分类分布，参数名是类别，而参数值是关联的概率。如果分布未拟合到历史数据，那么此单元格为空，无法编辑此列。

对话框同时提供直方图缩略图（显示所选字段的历史数据直方图上叠加的所选分布图）和分布缩略图（显示所选分布的说明和图示）。

配置完成后，选择表格节点连接“模拟生成”节点，如图 6 所示，表格节点即可生成所有的拟合数据。

图 6. 拟合详细信息界面