全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析与数据挖掘
1136 5
2014-06-10
          最近在做一个电信项目,分析宽带离网用户的行为特征。我从数据库取了26个字段,其中客户属性有5个,产品属性有11个,消费情况(在网时间、ARPU、投诉情况等)有8个,其他字段有4个。
        宽带离网用户占全部宽带用户的1%,现在为了找出离网用户的行为特征,觉得主要要用聚类和关联规则挖掘方法,因为这两种方法是探索未知事物内部规律的基本方法。但是关联规则涉及到用户是用产品组合情况,这种情况我已经用SQL语句实现了(也就是找出用户有哪些产品组合,比如有宽带+CDMA的组合、宽带+IPTV+固话组合等),所有关联规则pass掉,现在主要考虑聚类方法。问题有
1.如果用全量数据做聚类分析,得到的聚类种类都是非离网用户的行为特征(因为离网用户占1%),这就分析不出离网用户的特征。
2.如果将离网用户和非离网用户筛选出来,分别用同种模型做聚类分析,那么离网用户和非离网用户各自得到比较多的聚类数,
这些聚类数不好比较(比方说用离网用户做聚类分析得到8个类,用非离网用户做聚类分析得到7个类,非离网用户和离网用户就不好比较).
      所有现在很纠结!!不知道如何去分析!!
请高人赐教!!在下不甚感激!!
    现在考虑一个方法,对离网用户和非离网用户做平衡化处理,然后用处理后的数据做聚类分析,不知道这种方法是否可行??!!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2014-6-10 14:01:25
用C5.0的规则集建模
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2014-6-11 08:38:05
kuangsir6 发表于 2014-6-10 14:01
用C5.0的规则集建模
C.5要制定输入和输出,我现在想探索离网用户的行为特征,这些用户都是离网的,没有输出字段。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2014-6-11 08:38:56
没人回应,貌似高手稀少。。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2014-6-11 12:26:17
langrenwanghu 发表于 2014-6-11 08:38
C.5要制定输入和输出,我现在想探索离网用户的行为特征,这些用户都是离网的,没有输出字段。
你前面不是说过,有不离网的吗?,离网用户占1%吗?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2014-6-11 21:54:59
个人看法离网聚类分析意义不大.离网前特征和因子分析可能更重要.
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群