如何处理大型数据集？

2014-11-9 13:57:28

哎，上次导入三百多万的txt文件，sas秒导进去了，大批量的数据操作R还是有点吃力

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2014-11-9 14:01:30

李会超发表于 2014-11-9 13:57
哎，上次导入三百多万的txt文件，sas秒导进去了，大批量的数据操作R还是有点吃力

这个有四千七百多万，没试过SAS，R也是可以的，有人用过ff Package，但是处理数据起来比较麻烦...

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2014-11-9 14:03:22

hubifeng？发表于 2014-11-9 14:01
这个有四千七百多万，没试过SAS，R也是可以的，有人用过ff Package，但是处理数据起来比较麻烦...

对四千七百万求过均值之类的么，速度如何？在R里面还真没试过这么大的数据计算

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2014-11-9 14:09:43

李会超发表于 2014-11-9 14:03
对四千七百万求过均值之类的么，速度如何？在R里面还真没试过这么大的数据计算

这个会比较慢，我只是抽取了一部分进行了预处理。在SAS里处理过最大的数据集有多大？我也想试试ff Package的极限，试过MySQL吗？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

花花人

2014-11-9 14:13:01

看看了解了解哈

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

点击查看更多内容…

2014-11-9 14:19:47

hubifeng？发表于 2014-11-9 14:09
这个会比较慢，我只是抽取了一部分进行了预处理。在SAS里处理过最大的数据集有多大？我也想试试ff Packag ...

理论上SAS是无上限，我在sas里面处理过几百万的，都是秒出结果的，IBM的DB2和微软的SQL server里面对几千万的数据求和这样的简单的统计值也是很快的。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

oliyiyi

2014-11-9 20:16:55

楼主的使用还不得其法把，我看过有人在大数据上的评测，R的各项指标都不低于sas的

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2014-11-9 20:26:16

oliyiyi 发表于 2014-11-9 20:16
楼主的使用还不得其法把，我看过有人在大数据上的评测，R的各项指标都不低于sas的

呵呵，欢迎多交流R

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2014-11-9 20:53:36

oliyiyi 发表于 2014-11-9 20:16
楼主的使用还不得其法把，我看过有人在大数据上的评测，R的各项指标都不低于sas的

恩也是刚接触，欢迎分享好的资源！

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

Itachix

2014-11-10 07:36:29

好东西啊，顶一个

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2014-11-11 09:45:00

1G内存处理8G的数据什么软件也快不了。ff可用，但是添内存才是硬道理。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2014-11-11 09:46:06

ff的极限是你硬盘的尺寸。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2014-11-11 19:29:34

soccy 发表于 2014-11-11 09:46
ff的极限是你硬盘的尺寸。

有其他的方法可以分享...

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2014-11-11 21:54:48

还有bigmemory系列。缺点是不如ff灵活。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2014-11-11 21:56:34

参考这个：http://www.cybaea.net/Blogs/Big-data-for-R.html

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

xucaifeng66

2014-11-13 16:32:58

看来还是要回几门语言才行啊

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

jack001sd

2014-11-30 14:49:00

soccy 发表于 2014-11-11 09:45
1G内存处理8G的数据什么软件也快不了。ff可用，但是添内存才是硬道理。

硬件尤其是内存还是很重要的啊！

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

nuomin

2014-11-30 21:30:33

我也注册了kaggle，这是干嘛的？还要比赛？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

jiangbeilu

2014-11-30 22:35:46

读比较大的数据，可以试一下data.table包中的fread函数，上次我用这个来读2个G的数据，速度还是挺快的。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2014-12-1 02:14:56

data.table不能处理超出内存的数据。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

neversarah

2014-12-1 09:39:25

我用data.table 读 5.259G数据用了3‘17

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

Nicolle

2014-12-1 10:05:19

提示: 作者被禁止或删除内容自动屏蔽

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

曲散人终

2014-12-1 12:50:03

换Linux下的R不知道可不可以加快？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

萧彩宁

2015-4-17 21:51:28

用read.csv.ffdf()读完数据后，存储后下次怎样不用再读就可以用了啊？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2015-4-17 22:55:28

SAS和ff处理大型数据的思路是一样的，都是在硬盘上创建高效率二进制文件，只在需要的时候将部分数据如入内从中。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝