写在前面:此笔记是张梦根据李玉玺老师在CDA LEVEL II 数据建模师培训的上课内容整理而成的。
第一节笔记中讲述了软件的安装,第二节主要讲述数据前处理MODELING主要讲理论,参加纸质版ppt及笔记。此处操作为主。
贝叶斯只能用SPSS
先挑选字段fetureslection(去除与target无关及互相有相关性的字段)<- 该模型不会自动选择输入字段,所以先自行挑选。
SPSS用统计的方式去计算,类别性用卡方 ->P value –>VALUE = 1- P value;数值型用方差anova(t test仅适用2个target类别)

可以人工选择。下面两个直接排除,因为单一值dominant
复制模型,直接套用在测试数据上。



再看测试数据,测试数据才是最终的训练结果。

Q&A 默认是Bayesian Network 没有NaïveBayes

上图红框这里可以调整null,即概率为0。
另外一种方式用MATRIX NODE评估


比刚刚多一个 P VALUE,越小说明比随机乱猜好。有100%的信息。
卡方越大,P越小。
还有一种方法检验:graph-> evaluation

这里没有算面积,EM有算。
linear regression
car name 都是文字而且太多,所以不能用。
origin摊平后尚可以用。
串接不同模型可以compare结果


回归树最好。
直接用节点导入文件,导入csv

EM 线性回归和逻辑回归自动摊平

比较模型,EM 没有MAE,只有MSE和R sqr

Regression Tree GenerationAlgorithm: CART
进化版:model tree
SAS SPSS都没有 SQL SEVER R 有
Classification/Decision Tree决策树和分类规则:分类规则用起来更好,因为可以optimization。决策树可以化成规则,规则未必可以化成决策树。

ID3:information gain
C4.5/C5.0:gain ratio = information gain/information value(分支度)
CART
CHAID
【dp_modeling.str】



发现C5.0在训练集不如贝叶斯。但是在测试数据集比较稳定。
Q&A 将模型导入SQL
神经网络Logistic RegressionEM可以讲神经网络接在LOGISTIC DECISION TREE后面,因为前者会帮手选择字段并删除共线性字段
SPSS需要自己先选择,并删除共线性
Q&A如果LOGISTIC字段太少怎么办?可以用树选,然后log时选null或者根据排序自己手动选择字段。
Q&A 关于指标:风险KS常用。ROC?
—————————————分界线君:以上预测性,以下描述性————————————-
聚类分析SPSS
TWO STEPS

K-MEANS 设为3


Kohonen好像效果不好

可以用聚类结果作为target跑决策树。
来描述分到某一类的样本具有什么样的特色。
Association关联规则Apriori
Q&A:confidence与统计学中的没关系。用了一个词儿而已。——这个困扰了我很久



Confidence为100%的时候,前提支持度与rule confidence一样
不产生 A->BC 因为怕run太久
EM可以做多个产品
SEQUENCEMODELER: new node
EM : LINE NUMBER 作为时间。Association会自动变成sequence mining

Q&A模型互相组合。如先聚类,在关联规则。
产品有层级的,是否可以?-现在的软件都没有跨层的关联规则。
Q&A SVM 集成模型->投票