如何在正版SAS的BASE和STAT的最低装备下做数据挖掘, 此帖发出后,似乎关注不多,因此本人抛砖引玉,先附加一个关联分析的DEMO.
1. 在Apriori Demo.sas中,修改TRADE1.CSV和Apriori v1.06.sas在你本地机器上的路径;
2. 运行Apriori Demo.sas即可;
3. 在WORK 中会生成L1,L2,L3,即为频繁集, 一堆乱七八糟的中间数据供调试时参考;
TRADE1.CSV中的例子偶想大家在教科书中是再熟悉不过的经典了.
尽管是DEMO版本,但其实只要把参数修改一下,同时遵循TRADE1.CSV的数据结构, 偶实际处理过百万记录以上的数据, 用到的时间至少半小时以上(汗!)
本人原创, 实属无奈, 废弃全自动的方式,因为实际大数据集处理太慢,还是一条条用%Ls_Add调用为妙. 没有计算信任度CONFIDENCE,是因为这个实在比较简单,而且通常是MISLEADING的(伪相关), 实际使用中偶是用LOGLINEAR 高维表格分析模型的 (GENMOD procedure可以精确检验和量化).
有兴趣者请多给偶BUG信息, 或者提出改进意见.
附件列表
Apriori.zip
大小:5.52 KB
只需: 10 个论坛币
马上下载
本附件包括:
- Apriori v1.06.sas
- Trade1.csv
- Apriori Demo.sas