全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 R语言论坛
6709 2
2015-12-22
请教板上各位大神,我想用arules包里的apriori做关联规则挖掘,原始数据结构如下

‘data.frame’:        3750293 obs. of 2 variables:   
$ itemname: Factor w/ 72 levels “AAA”,”BBB”,..: 13 53 50 26 48 35 46 13 53 26 …   

$ id : num 1 1 1 1 1 1 2 2 2 2 …


用as(split( datatran[,”itemname”], seqgame[,”id”]), “transactions”)转换成apriori可用的对象
三百万行的数据用时已经超过12个小时了还没转换成功,请问这是不是正常现象?
如果是,有没有效率更高的方式呢?多谢多谢!





二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2015-12-22 23:34:57
先测试一下split占了多少时间吧。


不过,R原始函数确实不适合大数据。

数据多了建议优化、或者并行计算。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-12-24 09:44:23
wangfs111222 发表于 2015-12-22 23:34
先测试一下split占了多少时间吧。
感谢指点!
并行化或者优化都不太懂,用了个笨办法:
把数据写到硬盘里,再用read.transaction读进来就很快了
KUSO吧。。。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群