Hi 专家们,
现在小弟在给一家金融客户,用SAS做数据挖掘,初步定的是做集团客户细分。大概客户数有约1.7亿,存在Oracle 数据库中。所以最终宽表会比较大。
我的思路是:1、数据存在Oracle库中,所以基本的宽表加工也放在数据库中进行。SAS EM专注做数据的插补和建模,聚类。
2、因为数据量太大,所以我会选择小一点的样本(10%)的数据,基于此进行建模,分群,形成评分程序。
3、然后将宽表全量数据作为输入,利用评分程序产生最后的聚类分析结果。
4、再用EG对最终聚类结果进行各类群的描述性分析,产生相应的PPT和文档输出。
问题: 1、请问,以上的做客户细分的思路,是否合适?
2、再做数据抽样时,选用什么方式比较好,再Oracle 库中做,还是利用SAS程序做(发现SAS做抽样,效率很低)。
3、做数据标准化是否需要将所有的变量都数值化,以利于后续的变量聚类过程。
4、一般这种聚类过程怎样实现自动化?便于后期半年后,客户自己再做一次。例如,用Shell 调用评分过程??
以上是目前的主要问题了,欢迎有经验的大家给点建议吧。谢谢了