全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 R语言论坛
3539 14
2018-09-30
现在的数据集大约20000个样本,200个特征(20000x200的data_frame),R里面有哪些包是针对与大数据集机器学习进行改进的?望大神告知,非常感谢!
由于之后网格搜索优化以及交叉验证,所以计算量还是很大的。。。就我所知的有dplyr以及data.table,加上并行处理的方法,我想知道还有没有漏网之鱼?宗旨当然是越快越好。。。(前提是数据能够被机器学习相关包处理)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2018-9-30 08:41:01
jmq19950824 发表于 2018-9-30 08:28
现在的数据集大约20000个样本,200个特征(20000x200的data_frame),R里面有哪些包是针对与大数据集机器学 ...
h2o, tensorflow, keras
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2018-9-30 09:57:09
cheetahfly 发表于 2018-9-30 08:41
h2o, tensorflow, keras
多谢!尝试一下!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2018-9-30 12:18:36
推荐两个很好的机器学习平台:caret和mlr,其中几乎包含了当今所有主流的机器学习方法;
此外,就是以神经网络为主的包,主要是h2o和keras两大家,都是很好的平台。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2018-9-30 12:24:44
narcissism0923 发表于 2018-9-30 12:18
推荐两个很好的机器学习平台:caret和mlr,其中几乎包含了当今所有主流的机器学习方法;
此外,就是以神经 ...
多谢!我基本是用的caret进行机器学习,然后用doParallel并行加速,主要还是想再快一点。。。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2018-9-30 13:26:58
jmq19950824 发表于 2018-9-30 12:24
多谢!我基本是用的caret进行机器学习,然后用doParallel并行加速,主要还是想再快一点。。。
xgboost,lightgbm(这个速度确实很快,公布时曾经很惊艳!但似乎停止开发了……)
机器学习的算法在速度上差异很大,甚至一个算法的某个参数微调一下,速度就差不少,但结果却差不多。
所以经常需要花费很多时间调参,因为要面对的数据集千差万别。
我的经验是对于量稍大的数据集,先抽样个小子集,试用几个候选最佳方法后,再拿原始数据集跑跑……要不有时候动辄跑一次交叉验证就得十几分钟……
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群