全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 R语言论坛
3961 3
2013-10-14
我有一些带坐标的点数据,目的是计算这些点的距离矩阵,然后对计算出的距离做分组计数。用几千个点的时候dist()函数还能承受,到1万个点的时候(真不多),由于数据量为N*(N-1)/2,就到五千万级别了(就很多了),这个矩阵就超出了R的内存限制。

我在网上找了好些处理大数据的方法,像R处理大数据的 ff、bigmemory 包和R连接数据库的方法看了好多介绍,还是不知道该怎么储存。所以发帖求助~

大家平时都是怎么处理大数据量的?有什么经验或资料可以推荐下?感激不尽!


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2013-10-14 17:31:02
同求……
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2013-10-14 19:12:12
楼主提供的几种方法都是目前R软件解决较大数据量数据所常采用的方法,其中参考文献有很多,如《Managing large datasets in R》介绍了ff包实际案例
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2013-11-6 10:34:22
bigmemory包我的windows xp系统装不了
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群