要做一个分类模型。首先用了参数方法,脚本如下,最终执行结果错误率比较高。
DATA work.VW_YG_DATA;
PROC DISCRIM distance OUTSTAT=DISSTAT PCORR POOL=TEST ANOVA MANOVA CROSSLISTERR;
CLASS ISSALE;
VAR SEX AGE GZPHD TDPHD BXRKD ISHAVESB CAREER VILLAGE PPZXD;
由于以上的分析结果,错误率比较高,心想是不是有问题。对所有变量进行正态分析,有一个变量的正太分布不是很好.
就改用非参数方法进行分析,脚本如下:
DATA work.VW_YG_DATA;
PROC DISCRIM method = npar R = 0.2 distance;
CLASS ISSALE;
VAR SEX AGE GZPHD TDPHD BXRKD ISHAVESB CAREER VILLAGE PPZXD;
RUN;
这个执行完之后,错误率是9%,觉得效果还挺不错,再试着把R值改为0.1,错误率变成了2%.再把R值改成0.4时,错误率又变为了18%。真不知道这个R值到底该取多少,这个问题一直在困惑我。问了好多人都不太清楚,求大牛指点!!!!!