全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析师(CDA)专版
1755 0
2017-01-03
写在前面:此笔记是张梦根据李玉玺老师在CDA LEVEL II 数据建模师培训的上课内容整理而成的。

第一节笔记中讲述了软件的安装,第二节主要讲述数据前处理MODELING

主要讲理论,参加纸质版ppt及笔记。此处操作为主。

贝叶斯

只能用SPSS

先挑选字段fetureslection(去除与target无关及互相有相关性的字段)<- 该模型不会自动选择输入字段,所以先自行挑选。

SPSS用统计的方式去计算,类别性用卡方 ->P value –>VALUE = 1- P value;数值型用方差anova(t test仅适用2个target类别)

可以人工选择。下面两个直接排除,因为单一值dominant

复制模型,直接套用在测试数据上。

再看测试数据,测试数据才是最终的训练结果。

Q&A 默认是Bayesian Network 没有NaïveBayes

上图红框这里可以调整null,即概率为0。

另外一种方式用MATRIX NODE评估

比刚刚多一个 P VALUE,越小说明比随机乱猜好。有100%的信息。

卡方越大,P越小。

还有一种方法检验:graph-> evaluation

这里没有算面积,EM有算。

linear regression

car name 都是文字而且太多,所以不能用。

origin摊平后尚可以用。

串接不同模型可以compare结果

回归树最好。

直接用节点导入文件,导入csv

EM 线性回归和逻辑回归自动摊平

比较模型,EM 没有MAE,只有MSE和R sqr

Regression Tree Generation

Algorithm: CART

进化版:model tree

SAS SPSS都没有 SQL SEVER R 有

Classification/Decision Tree

决策树和分类规则:分类规则用起来更好,因为可以optimization。决策树可以化成规则,规则未必可以化成决策树。

ID3:information gain

C4.5/C5.0:gain ratio = information gain/information value(分支度)

CART

CHAID

【dp_modeling.str】

发现C5.0在训练集不如贝叶斯。但是在测试数据集比较稳定。

Q&A 将模型导入SQL

神经网络Logistic Regression

EM可以讲神经网络接在LOGISTIC DECISION TREE后面,因为前者会帮手选择字段并删除共线性字段

SPSS需要自己先选择,并删除共线性

Q&A如果LOGISTIC字段太少怎么办?可以用树选,然后log时选null或者根据排序自己手动选择字段。

Q&A 关于指标:风险KS常用。ROC?

—————————————分界线君:以上预测性,以下描述性————————————-

聚类分析

SPSS

TWO STEPS

K-MEANS 设为3

Kohonen好像效果不好

可以用聚类结果作为target跑决策树。

来描述分到某一类的样本具有什么样的特色。

Association关联规则

Apriori

Q&A:confidence与统计学中的没关系。用了一个词儿而已。——这个困扰了我很久

Confidence为100%的时候,前提支持度与rule confidence一样

不产生 A->BC 因为怕run太久

EM可以做多个产品

SEQUENCE

MODELER: new node

EM : LINE NUMBER 作为时间。Association会自动变成sequence mining

Q&A模型互相组合。如先聚类,在关联规则。

产品有层级的,是否可以?-现在的软件都没有跨层的关联规则。

Q&A SVM 集成模型->投票


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群