R的运行效率问题

xmvivian

3859

收藏 2008-05-07

菜鸟一个

如果用R处理几万或者几十万个观测值，OLS或者2SLS或者probit，速率怎么样？是不是要很长时间？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

DM小菜鸟

2014-12-24 16:06:56

R会把所有的对象读存入虚拟内存中。对我们大多数用户来说，这种设计可以提高与R相互的速度，但是当分析大数据集时，这种设计会降低程序运行速度有时还会产生跟内存相关的错误。

内存限制主要取决于R的build版（32位还是64位），而在32位的windows下，取决于操作系统的版本。以cannot allocate vectoe of size开头的出错信息表示无法分配充足的连续内存，而以cannot allocate vector of length开头的出错信息表示超越了地址限制（address limit）。在处理大数据集时，应尽量使用64位版的R。对于各种build版，向量中的元素个数最大为2147483647。

在处理大数据集时有三方面应该考虑：（a）提高程序的效率，保证执行速度；（b）把数据储存在外部，以解决内存限制问题；（c）使用专门的统计方法来有效处理大数据量的问题。

有几种包可以实现在内存之外存储数据。解决之道是把数据保存在外部数据库或者硬盘里的二进制文件中，然后在需要的时候部分地读取。下表描述了几种有用的包：

上面的包可以帮助克服R的内存限制。除此以外，当需要在有限时间内分析大数据集时，使用专门方法也是必须的。一些有用的方法将在下面介绍。

R提供了几种分析大数据集的包：

biglm 和 speedglm 包可以针对大数据集有效地拟合线性和广义线性模型。在处理大规模数据集时，这两个包提供了类似[size=0.8em]lm()和[size=0.8em]glm()的功能。
由 bigmemory 包可产生大规模矩阵，一些包可以提供分析这些大规模矩阵的函数。bigannalytics 包提供了k-means聚类、行统计量（column statistics）和一个对[size=0.8em]biglm()的封装。bigtabulate 包提供了[size=0.8em]table()、[size=0.8em]split()和[size=0.8em]tapply()的功能，bigalgebra 包提供了高等线性代数的函数。
biglars 包提供了最小角回归（least-angle regression）、lasso以及针对大数据集的逐步回归，数据集因太大而不能读入到内存中，这时候要配合 ff 包使用。
Brobdingnag 包可以用来处理大数字（大于2^1024）

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

扫码加我 拉你入群

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群

扫码加我拉你入群