随机森林 - 经管之家

1、随机森林对变量类型有什么要求吗
随机森林的好处就是简单，粗暴。对变量原则上没要求。不需要做one-hot编码，不需要做归一化。（归一化做了，还是有效果的。）

2、怎么选择最佳ntree和mtry
randomForest - For classification models, the default is the square root of the number of predictor variables (rounded down). For regression models, it is the number of predictor variables divided by 3 (rounded down).
mtry，基本默认值就是最佳的。
ntree 可以适度增加，从500涨到1000. 一般来说，会增加准确度。条件是数据足够多，你的机器足够好。随机森林是很耗资源的。

随机森林主要是通过 importance 做feature selection，适度去掉一些无用的维度。看看是否能提高预测境地。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

1、随机森林对变量类型有什么要求吗
随机森林的好处就是简单，粗暴。对变量原则上没要求。不需要做one-hot编码，不需要做归一化。（归一化做了，还是有效果的。）

2、怎么选择最佳ntree和mtry
randomForest - For classification models, the default is the square root of the number of predictor variables (rounded down). For regression models, it is the number of predictor variables divided by 3 (rounded down).
mtry，基本默认值就是最佳的。
ntree 可以适度增加，从500涨到1000. 一般来说，会增加准确度。条件是数据足够多，你的机器足够好。随机森林是很耗资源的。

随机森林主要是通过 importance 做feature selection，适度去掉一些无用的维度。看看是否能提高预测境地。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

没有；随意调，一般默认参数即可，ntree一般我取2000

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

1.没有要求，随机森林对变量的各种形式容忍度很高
2.一般先设定mtry为变量个数的均方根，在寻找最优的ntree
可以通过：
plot(model2$err.rate[,1],type='l') ##总误差分布
plot(model2$err.rate[,2],type='l') ##误判正误差分布
plot(model2$err.rate[,3],type='l') ##正判误误差分布
寻找误差分布收敛的ntree点值为模型训练值，再基于选择好了的ntree值反过来选择mtry的深度，
##寻找最有的深度mtry
rate<-rep(0,5)
for( i in 1:(ncol(train_test1)/2))
{
  set.seed(112)
  model<-randomForest(tag~zhi_score+phone_score+guide_score+risk_level+high_orders+airport_orders+company+consume+area,data=train_test1,importance=T,proximity=T,mtry=i,ntree=500)
  rate[i]= mean(model$err.rate)#计算基于OOB数据的模型误判率均值
}
不同的深度对应的OOB的值存在差异，合理选择

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群