全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 SAS专版
2402 2
2011-04-02
悬赏 20 个论坛币 未解决
求高手帮忙,如何确定logistic回归预测中的最佳概率分界点呀?而不是简单的确定P>0.5为违约...
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2011-4-2 23:33:35
1.1 首先要做的是数据的正态性检验。
   做正态性检验的目的就是在做统计推断时,对样本数据进行假设检验(U、T检验)要求样本数据服从正态分布。当样本数据为非正态分布或为小样本或两样本方差不等时则要用非参数检验(卡方、符号、秩和等)。
样本的正态性分布检验通常采用Shapiro-Wilk检验和Kolmogorov-Smirnov检验。Shapiro-Wilk检验适用于完全样本,样本量在8~50之间。而绝大多数情况下,样本数肯定是大于50的,因此采用Kolmogorov-Smirnov检验:
用SAS软件检验正态性:
(A)正规的正态性检验可以通过PROC UNIVARIATE中的选择项NORMAL来实现。输出结果包括6部分。其中第4部分输出正态检验结果:
当样本数N<2000时,shapiro-wilk的W统计量检验正态性;
当样本数N>2000时,Kolmogorov-Smirnov的D统计量检验正态性;检验时,根据样本计算一个统计量即检验统计量D。它把样本分布的形状和正态分布相比较,比较得出一个数值p(0<p<1,即实际的显著性水平)来描述对这个想法的怀疑程度。如果p值小于0.05(给定的显著性水平),则原假定非常可疑,认为数据不是来自正态分布,反之则认为数据来自正态分布。
(B)附加检验之一,观察正态概率图,如果数据来自正态分布,图形的散点应该呈现一条直线。用Plot绘制正态分布的概率图,里面的“+”构成一条直线(正态分布数据概率图散点应该成一条直线),“*”代表样本数据散点。根据“*”覆盖 “+”的程度,说明样本数据是否来自正态分布数据。
(C)附加检验之二,绘制数据的条形图,如果数据来自正态分布,条形图呈现“钟形”分布。用histogram绘制直方图/normal在直方图中拟合正态分布的密度曲线,可以看到,曲线几乎是个标准钟形,可以认为数据是正态分布。
(D)附加检验之三,观察描述性统计量中偏度系数(Skewness)g1和峰度系数(Kurtosis)g2,如果数据来自正态分布,则两者都应该是0(适合大样本,仅当N>30时才有效)。用g1,g2,бg1,бg2来计算U值,用U检验法。U1= 同理计算U2,要两个都小于1.96,即p大于0.05才可以。
(E)附加检验之四,茎叶图(适合小样本)
1.2 指标区分能力检验,考察每个变量对违约这个目标变量的影响是否显著.
(A)对于满足正态分布的变量采用参数检验中的检验;
(B)对于不满足正态分布的变量采用非参数检验中的Kruskal-Wallis单向评秩方差分析和Kolmogorov-Smirnov Z检验分析两种方法。

1.3 多重共线性检验
使用容许度(TOL)和方差膨胀因子(VIF)两个指标,其中TOL=1/VIF。
一般来说TOL<0.2可以认为多重共线性存在,TOL<0.1则说明多重共线性现象很严重。
建议方法:删除一些变量,再做共线性分析,直至满足要求为止。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2016-3-24 22:35:41
lwfaaa3 发表于 2011-4-2 23:33
1.1 首先要做的是数据的正态性检验。
   做正态性检验的目的就是在做统计推断时,对样本数据进行假设检验( ...
TOL检验代码是怎样的
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群