全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 SAS专版
4516 15
2014-11-05
Hi 专家们,
     现在小弟在给一家金融客户,用SAS做数据挖掘,初步定的是做集团客户细分。大概客户数有约1.7亿,存在Oracle 数据库中。所以最终宽表会比较大。
     我的思路是:1、数据存在Oracle库中,所以基本的宽表加工也放在数据库中进行。SAS EM专注做数据的插补和建模,聚类。
                          2、因为数据量太大,所以我会选择小一点的样本(10%)的数据,基于此进行建模,分群,形成评分程序。
                          3、然后将宽表全量数据作为输入,利用评分程序产生最后的聚类分析结果。
                          4、再用EG对最终聚类结果进行各类群的描述性分析,产生相应的PPT和文档输出。


     问题: 1、请问,以上的做客户细分的思路,是否合适?
                 2、再做数据抽样时,选用什么方式比较好,再Oracle 库中做,还是利用SAS程序做(发现SAS做抽样,效率很低)。
                 3、做数据标准化是否需要将所有的变量都数值化,以利于后续的变量聚类过程。
                 4、一般这种聚类过程怎样实现自动化?便于后期半年后,客户自己再做一次。例如,用Shell 调用评分过程??


  以上是目前的主要问题了,欢迎有经验的大家给点建议吧。谢谢了


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2014-11-6 14:05:19
数据探索和一些ETL处理用EG比较好一点,毕竟oracle相关功能比较弱。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2014-11-6 14:06:04
建议先做变量聚类,再做样本聚类。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2014-11-6 14:07:36
调度用win wever的调度服务就可以完成,去调你的评分代码,当然要做好这种异常处理逻辑。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2014-11-6 14:11:22
思路没什么大问题。要做抽样用oracle应该会快一点。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2014-11-6 14:16:03
数据标准化不是必须的,要看你用什么算法,比如回归就不需要标准化,但聚类需要算距离的最好标准化。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群