R做svm预测和随机森林分类好慢啊！

露露的家园2012

10336

收藏 2017-12-12

R软件拿随机森林做一下变量筛选，数据15万，运行了一天都没出来，我不敢相信，我觉得有可能是哪里有问题，谁能帮我解答一下，谢谢！代码如下：

library(caret)
library(randomForest)
control <- rfeControl(functions=rfFuncs, method="cv")
rfe.train <- rfe(asyc[1:150000,1:10], asyc[1:150000,11], sizes=1:10, rfeControl=control)

R软件那20万数据做svm做预测，也是运行12小时也没有运行出结果，我觉得太不可思议了，谁能帮我找找问题！我觉得数据量并不是很大啊！
代码如下：
#采用svm进行预测
library(e1071)
traindata<-asyc[1:150000,c(1,2,4,5,6,8,9,10,11)]
svmfit<-svm(traindata[,9]~.,data=traindata,kernel="radial",type='eps-regression')
predict_svm<-predict(svmfit,data=asyc)

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

雾锁山城

2017-12-12 09:20:05

变量选择的时候时先不要参数调优以及交叉验证，并且在变量选择的时候随机森林的 ntrees可以设置的小点。
使用formula时一般不使用 df[,ncol]~.,要么传入公式要么传入 X 和 y

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

露露的家园2012

2017-12-12 09:33:00

雾锁山城发表于 2017-12-12 09:20
变量选择的时候时先不要参数调优以及交叉验证，并且在变量选择的时候随机森林的 ntrees可以设置的小点。
使 ...

ntree指的是什么，能详细说一下嘛

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

露露的家园2012

2017-12-12 09:55:34

雾锁山城发表于 2017-12-12 09:20
变量选择的时候时先不要参数调优以及交叉验证，并且在变量选择的时候随机森林的 ntrees可以设置的小点。
使 ...

我刚刚重新尝试一下，将df[,ncol]~.,换成了：
svmfit<-svm(traindata[,9]~traindata[,1]+traindata[,2]+traindata[,3]+traindata[,4]+traindata[,5]+traindata[,6]+traindata[,7]+traindata[,8],data=traindata,kernel="radial")
仍然很慢

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

露露的家园2012

2017-12-12 09:55:35

雾锁山城发表于 2017-12-12 09:20
变量选择的时候时先不要参数调优以及交叉验证，并且在变量选择的时候随机森林的 ntrees可以设置的小点。
使 ...

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

ryoeng

2017-12-12 11:42:26

提示: 作者被禁止或删除内容自动屏蔽

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

点击查看更多内容…

jameschin007

2017-12-12 13:30:05

随机森林和SVM就是很耗资源。建议做变量筛选。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

露露的家园2012

2017-12-12 14:38:44

jameschin007 发表于 2017-12-12 13:30
随机森林和SVM就是很耗资源。建议做变量筛选。

svm预测是做完变量筛选以后做的模型，而随机森林是为了做变量筛选的

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

jameschin007

2017-12-12 15:36:28

露露的家园2012 发表于 2017-12-12 14:38
svm预测是做完变量筛选以后做的模型，而随机森林是为了做变量筛选的

服务器内存多少，CPU啥情况。

SVM吃CPU， RF吃内存。换Python或java weka 快很多

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

雾锁山城

2017-12-12 15:40:53

露露的家园2012 发表于 2017-12-12 09:55
我刚刚重新尝试一下，将df[,ncol]~.,换成了：
svmfit

randomForest(x, y=NULL, xtest=NULL, ytest=NULL, ntree=500) ntree改为 50之类的，因为变量选择的时候可以接受模型有点欠拟合；
formula写成 y~x1+x2+x3 之类，因为貌似有时 df[,1]~df[,2]+df[,3]是会出现问题；
变量选择的时候也是可以考虑对样本进行抽样（资源不足的情况下）

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

雾锁山城

2017-12-12 15:42:20

露露的家园2012 发表于 2017-12-12 09:55
我刚刚重新尝试一下，将df[,ncol]~.,换成了：
svmfit

svm不适合数据量大的情况，本身svm更适合数据量比较小。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

露露的家园2012

2017-12-12 15:49:41

jameschin007 发表于 2017-12-12 15:36
服务器内存多少，CPU啥情况。

SVM吃CPU， RF吃内存。换Python或java weka 快很多

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

kantdisciple

2017-12-13 13:09:39

10万数据对NN来说不大，但是对svm来说已经非常大了。它不适合大样本情况。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

jameschin007

2017-12-13 13:20:05

露露的家园2012 发表于 2017-12-12 15:49

不是打击你，这个配置差不多就是这样的。
所以建议比如把数据分成5份或10分，用RF或SVM 分别做5个模型。然后在做ensemble。

另外，这两个模型都是不支持多线程，所以就一个cpu在跑。所以现在4核，8核也没用。拿服务器跑也那样。
你可以看任务管理器里，只有一个cpu彪满，其他的都在休息。。。。
有人建议用并行包 parallel, 可以试试，但是很可能让你失望。SVM 上并行不稳定，很可能运行半天之后，会报错终止。而且是随机的。有时运行挺好，有时就出问题。

建议你换xgboost吧。支持并行。效果很好。 R做原型验证还行，做实时分析肯定是满，所以还是换python或者java weka 比较有效。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

栏目导航

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群