CDA数据分析师学习之路出系列了,每篇都有数据分析、大数据相关文章和视频,各大名师主讲,每周一、二、四、五更新!CDA数据分析师学习之路已经更新到CDA数据分析师学习之路(26)了,欢迎观看学习!
另外欢迎各位坛友投稿数据分析相关视频和文章,一经选用将赠送100论坛币和现金奖励、并有机会获赠一套数据分析相关视频(SAS、SPSS、Java、统计理论等等)!(PS:相关文章和视频得原创!联系方式见下方,欢迎投稿!)
CDA数据分析师学习之路(26)
附赠曹正凤老师在CDA俱乐部演讲《基于SAS的数据分析技术》的干货视频
最优转换问题
表:转换类功能一览表
| 转换 |
描述
|
非线性拟合变换
|
|
Box-cox
|
只处理因变量
|
Pbspline
|
只处理自变量;依据因变量和模型进行变换,但不是OLS
|
Smooth
|
只处理自变量;依据因变量和模型进行变换,但不是OLS;相似于Pbspline
|
最优变换
|
一个变量输入,一个转换变量输出;最小误差平方标准
|
Linear
|
线性
|
Monotone
|
|
Mspline
|
|
Opscore
|
拟合总体模型时与class一致
|
Spline
|
OLS标准
|
Untie
|
|
ü Spline与MSpline
变量缺失部分的变换,Spline、MSpline变换与Linear、Monotone、Opscore、Untie的变换相同。
变量非缺失部分的变换,即最优变换(Spline变换),为b-spline基向量的线性组合,而b-spline基可以精确(数量少,没有共线性)、有效(计算有效性)的替代分段多项式基(piecewise polynomial spline basis)。
MSpline在Spline基础上保持变换的单调性。
ü Degree与knots的确定
1.一般来说,最好degree<=3,knots<=10,同时在某前提下,建议在尽量小的degree下,设定较多的knots;当然样条在拟合数据时,将产生p(degree的数量)+q(knots的数量)个参数,所以对样本量的要求是:一般回归而言,10*k(自变量数目)*(p+q)。
2.当指定nknots=q,要确定样本是否足量,每个样条q+1部分的样本量平均为n/(q+1);如果指定knots=数值列表,确定每个区间的样本是否足量,设置结点时不宜超过变量的全距。
3.一般表达式
proc transreg data=data_anl.food_qualification;
model identity(raw_material)=
spline(auxiliary_materials3/degree=3 knots=1.1 3 3 4);
run;
如果degree=1或2或3表示拟合线性、二次曲线、三次曲线;nknots=1或2或┄表示在线性(或曲线)上增加结点从而容许样条根据情况拟合数据。
感谢丁亚军老师提供文章资料!
附赠曹正凤老师在CDA俱乐部演讲《基于SAS的数据分析技术》的干货视频
【CDA数据分析师学习之路】CDA俱乐部活动之基于SAS的数据分析技术
感谢翟祥老师提供视频资料!
由于是现场录制的视频,清晰度有所影响,但是干货多多,会有您意想不到的收获!
想加入CDA俱乐部? 添加微信号:joinlearn,拉入五百人数据分析交流群!
***************************************************************************
投稿流程:投稿前请加我QQ联系我,或者直接将文章或视频发送到我的邮箱,但一定要备注好您的姓名、电话、邮箱,以方便我联系您们赠送现金和视频教程的事宜!欢迎投稿!
投稿联系方式:
小段老师QQ:2881989713
邮箱:duanliangbin@pinggu.org
***************************************************************************
相关链接:
CDA数据分析师就业班第四期4月10号开课啦!https://bbs.pinggu.org/thread-4160404-1-1.html
CDA大数据分析师就业班第二期4月17号开课啦!https://bbs.pinggu.org/thread-4160397-1-1.html
上一篇:
CDA数据分析师学习之路(25)https://bbs.pinggu.org/thread-4471265-1-1.html
下一篇:
CDA数据分析师学习之路(27)https://bbs.pinggu.org/thread-4476179-1-1.html