全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 R语言论坛
3859 1
2008-05-07

菜鸟一个

如果用R处理几万或者几十万个观测值,OLS或者2SLS或者probit,速率怎么样?是不是要很长时间?

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2014-12-24 16:06:56

R会把所有的对象读存入虚拟内存中。对我们大多数用户来说,这种设计可以提高与R相互的速度,但是当分析大数据集时,这种设计会降低程序运行速度有时还会产生跟内存相关的错误。

  

内存限制主要取决于R的build版(32位还是64位),而在32位的windows下,取决于操作系统的版本。以cannot allocate vectoe of size开头的出错信息表示无法分配充足的连续内存,而以cannot allocate vector of length开头的出错信息表示超越了地址限制(address limit)。在处理大数据集时,应尽量使用64位版的R。对于各种build版,向量中的元素个数最大为2147483647。

  

在处理大数据集时有三方面应该考虑:(a)提高程序的效率,保证执行速度;(b)把数据储存在外部,以解决内存限制问题;(c)使用专门的统计方法来有效处理大数据量的问题。

  

有几种包可以实现在内存之外存储数据。解决之道是把数据保存在外部数据库或者硬盘里的二进制文件中,然后在需要的时候部分地读取。下表描述了几种有用的包:

   

QQ截图20141224161238.jpg

   

上面的包可以帮助克服R的内存限制。除此以外,当需要在有限时间内分析大数据集时,使用专门方法也是必须的。一些有用的方法将在下面介绍。

  

R提供了几种分析大数据集的包:

  • biglm 和 speedglm 包可以针对大数据集有效地拟合线性和广义线性模型。在处理大规模数据集时,这两个包提供了类似[size=0.8em]lm()[size=0.8em]glm()的功能。
  • 由 bigmemory 包可产生大规模矩阵,一些包可以提供分析这些大规模矩阵的函数。bigannalytics 包提供了k-means聚类、行统计量(column statistics)和一个对[size=0.8em]biglm()的封装。bigtabulate 包提供了[size=0.8em]table()[size=0.8em]split()[size=0.8em]tapply()的功能,bigalgebra 包提供了高等线性代数的函数。
  • biglars 包提供了最小角回归(least-angle regression)、lasso以及针对大数据集的逐步回归,数据集因太大而不能读入到内存中,这时候要配合 ff 包使用。
  • Brobdingnag 包可以用来处理大数字(大于2^1024)



二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群