同意楼上。但是还有一点很重要,所谓处理大数据分两个方面,一个是在空间方面(比如内存),一个是在时间方面(如果我可以处理200G的数据,但是需要二十年,这显然不可接受)。这两个方面其实还都共同取决于具体计算实现的方式。比如,Revolution analytics将R运用到分布式系统中,此时的R已经可以在实际意义上处理很大的数据了。即使在单机上,不同的人,因其算法和编程水平不同,也会对大数据产生不同的效果。比如,如果所有的遍历都用for循环来实现的,那么这样的R程序几乎无法有效的处理任何大于1G的数据,即使你有无限大的内存。