1、变量选择的方法有很多种。一个是看变量数据是否OK,缺失情况等,另一个是看变量在正负样本上的区分能力。可以通过历史经验选择,也可以通过数据的方法,如信息值等方法。共线性是因为变量间的强相关性,如果要消除共线性,可以通过对相关性强的变量做处理后再建模,处理的方法可以是剔除强相关的变量,也可以是降维用新的变量建模,当然也可以选择复杂算法如随机森林之类的。当然如果你的数据量比较大,决策树对共线性并不会太敏感。
2、模型效果的评估,一方面是模型稳定性的评估,如在不同数据集上的效果是否稳定;另一方面是模型性能的评估,这个就需要基于你预定的目标和现状,看有了模型ROC达到多少,PR图上的P、R达到了多少,能比现在提升多少。