全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 R语言论坛
4312 5
2015-03-19
请教,现在需要合并上千个10M左右的csv文件,用循环rbind的方式到后来就太慢了,不知道有没有更好的方式?
感谢!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2015-3-19 15:07:40
10G的表合并,合适的工具搜一下版主hubifeng?转载的文章,关于hadoop那个。
可以肯定的是,这样的工作,R不合适
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-3-19 15:20:14
可以在R外面,用cat命令把csv串到一起,再用R读入。

非要用R做,我的方式是先初始化一个大的空matrix或data.frame,然后读一个csv填几行,慢慢填满。实测过,会比rbind快很多。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-3-19 15:21:15
上千个10M左右的csv文件也就是几十GB,不算大数据
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-3-19 16:15:47
biohuang 发表于 2015-3-19 15:20
可以在R外面,用cat命令把csv串到一起,再用R读入。

非要用R做,我的方式是先初始化一个大的空matrix或d ...
恩,两个主意都不错,谢谢啦。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-3-19 16:16:37
nuomin 发表于 2015-3-19 15:07
10G的表合并,合适的工具搜一下版主hubifeng?转载的文章,关于hadoop那个。
可以肯定的是,这样的工作,R ...
谢谢,回头我去看一下。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群