SPSS Modeler 建模示例---细胞样本分类(SVM)学习
一.背景&目标:
一位医学研究人员获得了一个包含大量人体细胞样本特征的数据集,这些样本是从极有可能患上癌症的患者身上提取的。通过对原始数据进行分析,发现良性样本与恶性样本之间的许多特征显著不同。该研究人员希望开发一个 SVM 模型,使该模型可以使用其他患者样本中的这些细胞特征值尽早发现他们的样本是良性还是恶性。
二.实例数据位置:
[安装目录]\IBM\SPSS\Modeler\14\Demos\streams\下文件svm_cancer.str。

三.数据介绍:
点击图标cell_samples.data 下方的表格,在弹出的对话框可以看到格式标签下各字段及相关信息。
图1 原始数据各字段级相关信息

图1中各字段含义说明
- Clum:肿块的厚度
- UnifSiz:细胞大小的均匀度
- UnifShape:细胞大小的均匀度
- MargAdh:边缘的粘连
- SingEpiSize:单层上皮细胞的大小
- BareNuc:裸核
- BlandChrom:温和的染色质
- NormNucl:正常的核仁
- Mit:有丝分裂
- Class:良性或恶性
四.具体操作:
通过以上信息,可以初步了解该实例主要通过已知的样本,来建立SVM分类模型。
这里先后用两种设置的SVM方法分别做训练,然后比较这两种模型。
1.模型class-rbf,SVM内核设置为RBF,并计算变量重要性。
2.模型class-poly,SVM内核设置为多项式,并计算变量重要性。
五.变量重要性:
图2 模型class-rbf中,各有效输入字段的重要性

六.对比结果:

七.简单说明:
通过上述实验结果可以看出,使用多项式为内核的SVM训练得到的模型其可靠性要高于以RBF为内核的情况,通过这个例子,可以比较容易掌握SPSS modeler 的svm使用方式及结果分析。当然,没有给出比较多的SVM内核,和将该模型用于检测未知样本的方式。