xulimei1986 发表于 2012-10-17 13:18 
样本很大,都是几个G的数据
个人几个建议:
1.筛选变量,logistic用逐步回归法筛选,估计楼主已经做了;
能不能增加一些解释变量,再重新筛选变量,模型的好坏很大程度取决解释变量的选取。
2.决策树的一些算法,看是否出现了过度拟合,而导致模型的推广能力不足,出现训练模型不错,测试样本预测很糟糕的情况,如果这样,建议增加分支节点的最小记录数,或者全局修剪决策树,防止过度拟合的发生。
3.楼主说到流失,我不知道是不是流失率很低的模型,如果是这样,应该采取过度抽样的方法,即人为加大流失在样本中的比率,从而能够提取流失的特征,而判别模型的好坏,也非传统意义上的“预测准确率”,通常通过提升图,增益图一些方法来判别。
4.如果以上方法都行不通,试试从技术上解决,试试 proc gam拟合非参数的logistic,或者proc discrimi 试试非参数判别,不过不清楚这两个过程处理大数据量的效率。