全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 R语言论坛
19290 9
2013-10-19
最近打算用R做一些数据挖掘的东西,数据库也不是很大,10g,公司也有一台32g内存的机器能跑,但是还是很慢啊,读入这个数据库就用了大概十多分钟。更别说之后再跑什么程序了,而且这个10g的库只是个sample。真正的库还要大很多。想问问各位大牛,你们都怎么解决大数据和R的问题???
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2013-10-19 10:34:42
我觉得吧,跑大数据其实本质上在于你如何写你的R程序。R可以处理大数据,但是前提是你要花很多心思去使用合理的方式,同时对R的运算和你使用的模型方法有深入的理解。比如删减不必要的变量,避免使用for循环,合理运用数据结构等等。不过你的10G数据不会在每一步计算都同时使用吧,需要根据你每一步计算的形式进行一定的优化。对于数据集整体的运算和变化,可以的话尽量在数据库的层面用SQL处理,R只负责最后的运算。如果SQL本身还不够灵活,可以用python在中间连接,python从数据库承接数据,做大处理,最后运算放在R里面。总之就是具体情况具体分析。通常来说,处理这么大的数据,很多时候一些常用的package是不行的,因为它们没有针对你的数据进行特殊优化,所以可能不够高效。

有两个帖子可以提供一点小的改进,但是主要还在与lz具体的问题和数据:
https://bbs.pinggu.org/thread-2286673-1-1.html

https://bbs.pinggu.org/thread-2279782-1-1.html
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2013-10-22 22:15:33
ltx5151 发表于 2013-10-19 10:34
我觉得吧,跑大数据其实本质上在于你如何写你的R程序。R可以处理大数据,但是前提是你要花很多心思去使用合 ...
多谢回复,看来如果买不起Revolution的话,只能是几种工具并行了。。。。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-8-7 14:06:40
Revolution有多贵啊?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-8-7 15:53:57
卡在把数据从数据库读入R的步骤? 之前看过些资料, 貌似R直接通过api读数据库的效率, 不如把数据库dump成txt再read.table的效率. 可以试试先把数据库dump出来, 再用R读文本文件.
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2017-3-20 12:58:06
我的1G的txt数据都加载不出来,正在找方法
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群