IBM SPSS Modeler 新手使用入门（3）自动建模

4206

收藏 2016-03-11

自动建模
对客户响应建模（自动分类器）
通过自动分类器（Auto Classifier node ）节点，您可以为标志字段（例如某个客户是否很可能拖欠贷款或者是否会对特定的报价做出响应）或名义（集合）字段目标自动创建和比较多个不同模型。在本例中，我们将使用标志（是或否）字段。在一个相对简单的流中，节点生成一组候选模型并对它们进行排序，选择最有效的模型然后将它们合并为一个汇总（整体）模型。此方法将自动化操作的方便性与组合多个模型的优势融为一体，通常能产生单一模型所不能带来的更为准确的预测。
本示例以某虚构的公司为例，该公司希望通过为每个客户提供最合适的报价以获取更丰厚的收益。此方法突出了自动操作的优势。我们使用安装在 streams 目录下 Demo 文件夹中的流 pm_binaryclassifier.str，所使用的数据文件为 pm_customer_train1.sav。
图 27. 流 pm_binaryclassifier.str

历史数据
文件 pm_customer_train1.sav的历史数据包含过去的营销活动中为特定客户提供的报价，由 campaign字段的值表示，其中值为 Premium account的记录数最多。campaign 字段的值在数据中实际编码为整数（例如 2 = Premium account）。稍后，您可为这些值定义标签以产生更有意义的输出。
图 28. 数据样本

此外，其中还有字段表示每位客户的相关人口统计和财务信息。这些字段可用于构建或训练一个模型，通过基于收入、年龄或每月交易次数等特征来预测单个用户或用户群的响应概率。
构建流
添加使用 pm_customer_train1.sav的 Statistics 文件源节点，该文件位于 SPSS Modeler 安装程序的 Demos 文件夹中。（您可以在文件路径中指定 $CLEO_DEMOS/ 作为引用此文件夹的快捷方式。请注意，路径中必须使用正斜线而非反斜线，如图所示。）
图 29. 源节点

添加类型节点，然后选择响应（response）作为目标字段（设置其角色为目标）。将此字段的测量设置为标志。

对于以下字段，将角色设置为无：customer_id、campaign、response_date、purchase、purchase_date、product_id、Rowid和 X_random。因为这些字段（如用户 ID）对于构建模型其实是无意义的，把角色设置为无以后，构建模型时将自动忽略这些字段。
单击类型节点的读取值按钮以确保值获得实例化。
常见问题：当您在运行流的时候出现以下错误时，可以在类型节点中（流中没有类型节点时请先手动添加一个）单击读取值然后再运行流:

为字段 campaign 指定的类型不足
字段 campaign 未知，或有未实例化的类型

我们的源数据包含四项不同活动的信息，每个活动针对不同类型的客户。这些活动在数据中编码为整数，为了方便记住每个整数所代表的帐户类型，让我们为每个整数都定义一个标签。
在活动（campaign）字段的行上，单击值列中的条目。从下拉列表选择指定。
图 30. 类型节点

在标签列中，键入活动字段四个值中每个值将显示的标签。单击确定。
图 31. 类型节点 - 指定标签

现在我们可在输出窗口中显示标签而非仅仅是整数了。

将表节点附加到类型节点。
打开表节点，然后单击运行。
在输出窗口上，单击显示字段和值标签工具栏按钮（左起第三个）以显示标签。
单击确定关闭输出窗口。

图 32. 输出标签的表格

尽管数据包含有关四项不同活动的信息，但每一次的分析应集中关注其中一项活动。由于 Premium account 活动（在数据中编码为 campaign=2）中的记录数最多，因此可以使用选择节点实现仅在流中包含这些记录。
图 33. 选择节点

生成和比较模型
附加一个自动分类器节点，然后选择总体精确性作为对模型进行排序的度量。
将要使用的模型数设置为 3。这意味着在执行节点时将只选择三个最佳模型。
图 34. 自动分类器节点 - 模型页

在专家选项卡上，可从最多 11 种不同模型算法中进行选择。
取消选择判别式和 SVM模型类型。（这些模型需要花费更多时间培训这些数据，因此取消选中它们将可以加快示例的执行速度。如果您不介意稍等一下，也可以保留它们的选中状态。）由于在模型选项卡上将要使用的模型数设置为 3，因此节点将计算所选择九个算法的准确性，然后选择三个最准确的算法来构建一个模型块。
图 35. 自动分类器节点 - 专家页

在设置选项卡上，选择整体方法为置信度加权投票。此选项将确定如何为每条记录生成一个评分。
使用简单投票方式时，若三个模型中有两个模型均预测是，则是将以 2 比 1 的投票结果取胜。在使用置信度加权投票方式时，将基于各预测的置信度值进行加权投票。因此，如果一个预测否的模型的置信度比两个预测是的模型合在一起的置信度还高的话，则否取胜。
图 36. 自动分类器节点 - 设置页

单击运行。
几分钟后（实际情况中，由于大型数据集往往需要创建数百个模型，这可能会花费数小时或更长的时间），构建生成的模型块将放到工作区和窗口右上角的模型选项板中。您可浏览模型块，或以多种其他方式将其保存或部署。
我们从工作区打开模型块，它将列出在运行期间所创建的每个模型的详细信息。如果需要进一步探索任何单独的模型，可在模型列中双击此模型块图标，以浏览单独模型结果，甚至可以用它们生成建模节点、模型块或评估图表。在图形列中，可以双击缩略图生成标准大小的图形进行直观的显示。
图 37. 自动分类器模型块 - 模型页

默认情况下，模型会基于总体精确性排序，这是我们在自动分类器节点模型选项卡中选择的度量。根据这一度量，C51 模型的精确性最高，但 C&R 树和 CHAID 模型的精确性与之相差不大。您可以通过单击其他列的标题对该列进行排序，或者也可以从工具栏的排序方式下拉列表中选择所需的度量。
基于这些结果，我们决定使用所有三个最准确的模型。通过结合多个模型的预测，可以避免单个模型的局限性，从而使整体准确性更高。在是否使用列中，选择 C51, C&R 树和 CHAID 模型。
在模型块后附加一个分析节点（位于下方输出选项板）。右键单击分析节点，然后选择运行以运行流。
由整体模型生成的汇总得分将显示在名为 $XF-response 的字段中。当根据训练数据评分时，预测值与实际响应（如原始响应字段中的记录所示）匹配的总体精确性为 92.82%。尽管这不如本例中三个模型的最高精确性高（C51 为 92.86%），但它们之间的差距小得可以忽略不计。一般来说，整体模型应用到训练数据之外的数据集时，通常比单个模型效果更好。
图 38. 自动分类器模型块的分析结果

摘要
综上所述，我们使用自动分类器节点比较了多种不同的模型，然后使用三个最准确的模型并将它们作为一个整体自动分类器模型块添加到流中。

基于总体精确性，“C51”、“C&R 树”和 CHAID 模型对于训练数据效果最佳。
整体模型与最好的单个模型相比效果相差不大，而且当应用到其他数据集时可以起到更好的效果。如果您的目标是自动执行这一过程，您可以通过此方法获得在大多数情况下都很稳健的模型，而无需深入挖掘单个模型的细节。换句话说假设您不是对每个模型都很熟悉，那么可以尝一下自动建模，它将会自动为您提供专业的选择。
除了自动分类器节点（预测标志或名义字段），SPSS Modeler 还提供了自动数值节点（预测数值目标）和自动聚类节点（生成聚类模型），共三个自动节点。

张文彤老师SPSS Modeler数据挖掘实战案例培训2016年劳动节上海开讲！
https://bbs.pinggu.org/thread-4194839-1-1.html

附件列表

34.jpg

原图尺寸 56.94 KB

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群