这是在处理Kaggle上的一个数据时采用的解决方法
数据来源及描述:
http://www.kaggle.com/c/avazu-ctr-prediction/data
下载
train_rev2数据集,可以看到有1.39G,解压后有8.10G.
运行环境:
windows xp, 1G内存,并且增加了4G的虚拟内存.
数据导入:
library(ff)
library(ffbase)
df <- read.csv.ffdf(file=gzfile('train_rev2.gz'), VERBOSE=TRUE)
第一次读入1000行,之后每次读入191645行,总共47686351行
csv-read=2883.44sec ffdf-write=2214.88sec TOTAL=5098.32sec=84.972min=1.4162hour
总共花了1.4小时导入数据.
数据的预处理部分比较麻烦,ff package比较慢...
这里仅涉及数据的导入,预处理部分将持续更新......
希望大家分享自己处理大型数据的经验或建议,并提供相关数据集让我们一起玩转大数据!