我们都知道运营商都会有一些包月套餐,比如50元包含 XX主叫分钟数、XX流量,然后80元又包含 XX主叫分钟数、XX流量,如此类推有二十多种套餐。
这里面就包含三个信息:消费金额、通话分钟数、流量。目前已有一些客户开通了这些套餐,也就是这些客户的套餐类型(分组)、消费金额、通话分钟数、流量信息都知道。
如何将未开通套餐的客户通过消费金额、通话分钟数、流量等信息将其归类到以上的二十多种套餐中呢?
按照一般的处理应该是根据已有客户的信息:以套餐作为分组变量,以网龄、消费金额、通话分钟数、流量作为自变量,通过判别分析法,建立判别函数。
但我根据此方法得到了4个典则函数(function),最后训练样本的分类结果不太好,有些分组的训练结果只有10%一下会分到其本来的类,最高的分组也只有70%多。
我的疑问是:
1、为何误判率这么高、原始数据的误判率如此高是否会影响建模?是否我的分类太多?
2、既然各个套餐(分组)的分组标准如此准确(有确切的消费金额、通话分钟数、流量),是否有方法直接根据套餐的信息建立模型,然后将未开通套餐的客户代入模型来分类?
求大侠帮忙,谢谢!