【经验分享】如何让R语言处理大数据时效率不降低 - 经管之家

› 论坛 › 数据科学与人工智能 › 数据分析与数据科学 › R语言论坛

【经验分享】如何让R语言处理大数据时效率不降低

2605

9

收藏 2018-10-08

本人在实际研究过程以及阅读文献总结出来，R（我用的是Rstudio）在运行某些复杂的模型，加之庞大的数据时，往往会出现越运行越卡的现象，提供一个较好的解决方法（实测有效），仅供参考普通直接用read.csv读入的是dataframe，现用data.table以及dplyr两个包对数据进行加载，分两步进行，代码如下：

library(data.table)
data_train_select<-fread('data_train_select.csv')
#应用dplyr一般化表格数据
library(dplyr)
data_train_select<-as.tbl(data_train_select)

实测能显著改善Rstudio运行效率。
另外在程序代码中设置gc()释放内存也是一个比较好的习惯。

二维码

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

2018-10-8 11:09:25

不错

二维码

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2018-10-9 06:50:09

jmq19950824 发表于 2018-10-8 11:05
本人在实际研究过程以及阅读文献总结出来，R（我用的是Rstudio）在运行某些复杂的模型，加之庞大的数据时， ...

谢谢分享

二维码

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2018-10-9 22:41:13

fread是快速读取。其实只是读取的速度变快了，跟效率没太大关系。

二维码

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2018-10-10 11:38:07

jiangbeilu 发表于 2018-10-9 22:41
fread是快速读取。其实只是读取的速度变快了，跟效率没太大关系。

谢谢指正！

二维码

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2018-10-10 11:48:40

tibble

二维码

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

点击查看更多内容…

相关推荐

栏目导航

热门文章

推荐文章

扫码加好友，拉您进群

各岗位、行业、专业交流群