全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 R语言论坛
9765 30
2014-11-09
这是在处理Kaggle上的一个数据时采用的解决方法

数据来源及描述:
http://www.kaggle.com/c/avazu-ctr-prediction/data
下载train_rev2数据集,可以看到有1.39G,解压后有8.10G.


运行环境:
windows xp, 1G内存,并且增加了4G的虚拟内存.

数据导入:
library(ff)
library(ffbase)
df <- read.csv.ffdf(file=gzfile('train_rev2.gz'), VERBOSE=TRUE)

    第一次读入1000行,之后每次读入191645行,总共47686351行
csv-read=2883.44sec  ffdf-write=2214.88sec  TOTAL=5098.32sec=84.972min=1.4162hour

总共花了1.4小时导入数据.

数据的预处理部分比较麻烦,ff package比较慢...
这里仅涉及数据的导入,预处理部分将持续更新......

希望大家分享自己处理大型数据的经验或建议,并提供相关数据集让我们一起玩转大数据!


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2014-11-9 13:57:28
哎,上次导入三百多万的txt文件,sas秒导进去了,大批量的数据操作R还是有点吃力
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2014-11-9 14:01:30
李会超 发表于 2014-11-9 13:57
哎,上次导入三百多万的txt文件,sas秒导进去了,大批量的数据操作R还是有点吃力
这个有四千七百多万,没试过SAS,R也是可以的,有人用过ff Package,但是处理数据起来比较麻烦...
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2014-11-9 14:03:22
hubifeng? 发表于 2014-11-9 14:01
这个有四千七百多万,没试过SAS,R也是可以的,有人用过ff Package,但是处理数据起来比较麻烦...
对四千七百万求过均值之类的么,速度如何?在R里面还真没试过这么大的数据计算
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2014-11-9 14:09:43
李会超 发表于 2014-11-9 14:03
对四千七百万求过均值之类的么,速度如何?在R里面还真没试过这么大的数据计算
这个会比较慢,我只是抽取了一部分进行了预处理。在SAS里处理过最大的数据集有多大?我也想试试ff Package的极限,试过MySQL吗?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2014-11-9 14:13:01
看看 了解了解哈
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群