全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 SPSS论坛
9781 11
2012-09-03
请教一下这么个项目:
假如要为1亿个用户,根据其日常行为特征进行分类,可以描述其日常行为特征的变量有若干:变量A、变量B、变量C、。。。

具体的思路该是什么?

我现在自己的想法是:
从所有用户中随机抽取比如5万个用户,对这5万个用户,按照上述变量进行聚类分析(k-means或系统聚类),然后针对SPSS给出的聚类结果,根据实际研究背景,确定分类结果。

然后该如何对剩下的那(1亿-5万)个用户进行归类操作呢? 是不是根据那5万个分好类的用户,分别确定每一类的阀值,然后将剩下的用户按照这些确定好的阀值归到相应的类别就行了? 那这个阀值该如何确定?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2012-9-3 14:03:09
然后该如何对剩下的那(1亿-5万)个用户进行归类操作呢? 是不是根据那5万个分好类的用户,分别确定每一类的阀值,然后将剩下的用户按照这些确定好的阀值归到相应的类别就行了? 那这个阀值该如何确定?

做一个判别分析就可以了.方法有判别分析,决策树,LOGIST回归等
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2012-9-3 14:40:10
sunkist123 发表于 2012-9-3 14:03
然后该如何对剩下的那(1亿-5万)个用户进行归类操作呢? 是不是根据那5万个分好类的用户,分别确定每一类的 ...
恩 那整个的思路就是:先选取一部分样本做聚类分析,然后再做判别分析?


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2012-9-4 10:26:15
不知道做聚类分析的变量是否很多,相关性是否很高,如果变量多相关性高,是否应该先做个因子分析划分出因子在做聚类呢
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2012-9-4 11:58:54
sam800423 发表于 2012-9-4 10:26
不知道做聚类分析的变量是否很多,相关性是否很高,如果变量多相关性高,是否应该先做个因子分析划分出因子 ...
恩,变量大概有十一二个,有些相关性还是蛮高的,可以考虑先做因子分析。但针对剩下的那些大量数据,该怎样处理呢?  判别分析的前提是要先有明确的类别存在,但现在是这些客户可以分为几类是探索性的。

先做聚类分析得到可以分几类,再做判别分析,得到判别公式,然后将剩下的客户根据公式算出类别,这样的思路可行吗?

有没有达人可以告知一下?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2012-9-4 13:49:03
dddd
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群