如何高效合并大量的data.frame

lqb1987

7813

收藏 2016-10-04

我有3000个data.frame存在sqlite多个库的3000张表中，需要循环取出每张表，经过适量预处理后形成data.frame，将所有data.frame合并为一个大的data.frame。

简单实现就是for(i in 1:3000){...}
循环中读表，处理，再df=rbind(df, newdf)。

问题来了，期初，df较小，rbind操作还很快，到后来，df越来越大，rbind操作越来越耗时。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

johnmy

2016-10-4 19:55:00

因为每次rbind都要重新分配内存，所以会慢。
我想可以预先定义一个list来存放表格。
最后再rbind

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

zhou1_20

2016-10-4 20:03:48

lqb1987 发表于 2016-10-4 14:58
我有3000个data.frame存在sqlite多个库的3000张表中，需要循环取出每张表，经过适量预处理后形成data.frame ...

用data.table

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

微笑曙光

2016-10-4 20:28:10

dat=list(data.frame1,data.frame2,....)
do.call("rbind", dat)

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

lqb1987

2016-10-6 10:18:34

感谢微笑曙光的想法。我再试试zhou1_20的利器。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

lqb1987

2016-10-6 10:19:47

微笑曙光发表于 2016-10-4 20:28
dat=list(data.frame1,data.frame2,....)
do.call("rbind", dat)

读取数据(200组)
> system.time({
+ dat <- list()
+ for(i in seq_along(lst)) dat[] <- dbReadTable(con, lst[j])
+ })
用户  系统  流逝
33.05  4.95 38.55

合并数据
> system.time({df <- do.call("rbind", dat[1:10])})
用户系统流逝
0.42 0.07 0.48
> system.time({df <- do.call("rbind", dat[1:20])})
用户系统流逝
1.18 0.53 1.83
> system.time({df <- do.call("rbind", dat[1:30])})
用户系统流逝
2.43 1.08 3.55
> system.time({df <- do.call("rbind", dat[1:40])})
用户系统流逝
4.39 1.89 6.28
> system.time({df <- do.call("rbind", dat[1:50])})
用户系统流逝
6.89 2.93 9.88
> system.time({df <- do.call("rbind", dat[1:60])})
用户  系统  流逝
9.88  4.48 14.46
> system.time({df <- do.call("rbind", dat[1:70])})
用户  系统  流逝
14.28  5.69 20.25

rbind合并耗时基本是二次项增长的，说明还是每次追加1组数据就重写内存的。10个df耗时0.5秒，我的数据有3000个df，按这个速度预计需要40830秒，还是不行的。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

点击查看更多内容…

7楼

lqb1987

2016-10-6 10:32:04

zhou1_20 发表于 2016-10-4 20:03
用data.table
dat <- list()
for(i in seq_along(lst)) dat[] <- dbReadTable(con, lst[j])
system.time({  df <- data.table::rbindlist(dat[1:70])  }) #耗时0.28秒，耗时线性增长
system.time({df<-do.call("rbind", dat[1:70])}) #耗时20.25秒，耗时二次项增长

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

8楼

cheetahfly

2016-10-8 20:25:44

最近刚好做过类似的工作，把所有A股个股的历史数据合并成一个总的data.frame，其他方法要么慢，要么内存需求太大，最后还是用data.table package搞定的。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

9楼

jiqimao742

2016-10-9 00:14:47

可以用@reshape@package吗？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

10楼

刺客王朝

2016-10-9 09:11:44

list，把握R基于向量化的特点与优势

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

11楼

nuomin

2016-10-9 09:36:05

用mySQL

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

12楼

jgchen1966

2016-10-9 14:19:37

1000个，10000行*10列，七秒即完成，可和dplyr::bind_rows !!!!, 计算复杂度：o(n)

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

13楼

jgchen1966

2016-10-9 14:20:55

1000个，10000行*10列的data.frame，七秒即完成，可用dplyr::bind_rows !!!!, 计算复杂度：o(n)  n 为行。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

14楼

cheetahfly

2016-10-9 17:45:08

jgchen1966 发表于 2016-10-9 14:20
1000个，10000行*10列的data.frame，七秒即完成，可用dplyr::bind_rows !!!!, 计算复杂度：o(n)  n 为行 ...
当时用过这个方法，由于我的系统还是32位的，所以给出出错信息：
“Error: cannot allocate vector of size 58.6 Mb”

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

15楼

jgchen1966

2016-10-9 20:18:08

cheetahfly 发表于 2016-10-9 17:45
当时用过这个方法，由于我的系统还是32位的，所以给出出错信息：
“Error: cannot allocate vector of s ...
内存不足，如何读入就要考虑读入如此多数据量的目标是何，再来选择虚似或分布读入方式：如bigmemory,h2o,ff等等中一些方法，否则，只能增加内存条。。。扩大至16G，也难以读入3000个10000*10的data.frame!!!!


扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

16楼

jgchen1966

2016-10-9 21:07:52

data.table 最大问题是：一是会不经意间，改变观察的行序，给后序的数据分析带来“无法观察”的错误。。二是R  中大量ML方法不支持，还得转化为data.frame，这个转为是不可改变（immutable）吗？？？data.table 本身并不保证，尤其对不想在数据转化上浪费太多时间的人！！

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

17楼

我的素质低

2016-11-20 22:09:38

jgchen1966 发表于 2016-10-9 21:07
data.table 最大问题是：一是会不经意间，改变观察的行序，给后序的数据分析带来“无法观察”的错误。。二是 ...
同意，在实践data.table过程中，觉得跟其他分析结合好费劲，我现在还是选择data.frame多一点。不过，data.table的合并功能的确很棒！

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

相关推荐

[求助]3个data.frame之间的赋值问题？

请教一个问题：如何在R中向一个data frame指定位置插入一列或一行

学渣求指导建data.frame的问题

data.frame类型数据如何将第一列值替换为行号

怎么创建一个空的data.frame，指定行数的

请教：想要得到一个data.frame，在循环开始时确定行列数，循环过程中向里面增加内容

data.frame中的NA值怎么替换成0？

怎么计算data.frame的行数？

关于data.frame()函数的中文显示

如何垂直合并两个相似但栏位不同的data.frame？

栏目导航

R语言论坛

金融学（理论版）

行业分析报告

爱问频道

学道会

外语学习

热门文章

我该如何记住你？智能体记忆系统的演化之路

202601-中国智能驾驶行业趋势白皮书

到2032年全球RJ11连接器市场规模将接近12.4 ...

油罐车加油系统，全球前10强生产商排名及市 ...

2026年亚马逊市场趋势报告

无上高明的“无为”“无住”哲学在传统中国

现代数学基础现代极限理论及其在随机结构中 ...

高教现代数学基础15 有限群表示论曹锡华,时 ...

【25更新,详细,热点指标!】2002-2025省级ZF ...

【热点变量,详细,24更新!】2003-2025地级市 ...

推荐文章

2026JG学术冬训营:从Stata初高到Python机器 ...

【必看】【本版版规，欢迎发悬赏贴求助】

26年寒假天津站｜Gemini论文写作&数据分析 ...

关于如何利用文献的若干建议

关于学术研究和论文发表的一些建议

关于科研中如何学习基础知识的一些建议 (一 ...

一个自编的经济学建模小案例 --写给授课本科 ...

AI智能体赋能教学改革: 全国AI教育教学应用 ...

2025中国AIoT产业全景图谱报告-406页

关于文献求助的一些建议

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群