貌似你的论坛币不多,呵呵
不过都是同道中人
我的建议是
【1】至于选取因素,应该尽可能的多,手动去掉或过滤掉那些明显无关的因素,对于自己拿不准的,最好先选入,然后利用软件的“重要变量选择功能”加以选择(软件上有这个功能, 想sql上有个“建议”选项,clementine上有个“特征选择”,很多模型都已经嵌入了这一功能)
【2】至于有个风险次数,如果能结合其他变量,譬如赔付率,赔付金额等,直接构建高风险,低风险,不必在用聚类分析等,至于判别分析,那是在变量分类已知的情况下对未知类别的判定,个人感觉饿用处不是很大
【3】至于使用的方法,分类的方法就可以用,比如决策树等,可以得到比如高风险客户的规则,例如
年龄《30,收入》3000。。。为高风险
当然也可以使用逻辑斯回归等
【4】仁兄提到可以用预测,其实预测,估计,分类等有很大差别,呵呵
个人建议
欢迎继续讨论
QQ420948492
注:论坛币就不用给了,呵呵,仁兄也不富裕