请教关于xgboost的优化问题

yaoqsm321

2017-2-15 17:26:07

jameschin007 发表于 2017-2-15 16:11
其他的搞定了？

恩，今天已经通过调参，最高把正确率提到了68%，不能再提升了，所以不知道到底是参数问题，还是数据本身有问题（虽然我知道我的数据的自变量跟因变量的相关性很小）

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

yaoqsm321

2017-2-15 17:30:01

jameschin007 发表于 2017-2-15 16:11
没有好办法 Gridsearch +CrossValidation

我用这行代码做的CV，不知道对不对

cv.res <- xgb.cv(data = tdata, label=y,max.depth = 32,
eta = 0.0001, nround = 10000, objective = "binary:logistic",nfold = 10)

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

jameschin007

2017-2-16 08:45:41

yaoqsm321 发表于 2017-2-15 17:26
恩，今天已经通过调参，最高把正确率提到了68%，不能再提升了，所以不知道到底是参数问题，还是数据本身有 ...

违约预测就是这样。特别是在数据不平衡的问题下。就是以牺牲准确性来增加数据敏感性。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

yaoqsm321

2017-2-16 09:55:18

jameschin007 发表于 2017-2-16 08:45
违约预测就是这样。特别是在数据不平衡的问题下。就是以牺牲准确性来增加数据敏感性。

那这样的模型不就没有用了吗，哎，不知道该怎么办了

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

yaoqsm321

2017-2-16 10:23:29

jameschin007 发表于 2017-2-16 08:45
违约预测就是这样。特别是在数据不平衡的问题下。就是以牺牲准确性来增加数据敏感性。

如果我把所有的连续型数据进行离散化，会不会有点改变啊

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

yaoqsm321

2017-2-16 12:22:46

jameschin007 发表于 2017-2-15 16:11
没有好办法 Gridsearch +CrossValidation

我不知道该怎么去学习gridsearch，网上搜不到教程。。。

10折交叉验证结果是这样的：
10-fold cross-validation on training data:

Total Accuracy: 64.43588
Single Accuracies:
64.74563 62.83784 63.75199 65.47477 64.42766 64.5469 64.36234 63.91097 64.90461 65.39531

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

jameschin007

2017-2-16 12:46:03

yaoqsm321 发表于 2017-2-16 12:22
我不知道该怎么去学习gridsearch，网上搜不到教程。。。

10折交叉验证结果是这样的：

https://www.r-bloggers.com/r-setup-a-grid-search-for-xgboost/

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

栏目导航

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群