R运行的效率怎么样？

1413

收藏 2014-08-07

比如，在不同型号的机器上的能处理的数据量，对不同复杂度问题给出运算结果的速率，
可以调用、输出不同类型数据、文件的效率，R语言本身的复杂程度于它给出结果的效率
都是怎么样的？

就我自己玩Sudoku的经验，有些特别难的，几乎需要记住所有格拥有、残缺的信息，才能
将格填出来，但是，只要记住了，填的过程会非常快，一气呵成，这里是在用大脑类比电
脑了，如果内存很足的运算的速度会很快，但就我自己的经验做进行内存的过程本身会花费
比较多的时间，估计在很复杂数据的处理里面也是一样的，存储和计算本身都各自需要蛮多
时间。那么，我会提出这样一个问题，怎么针对问题，合理的分配存储和计算以达到速度
上的最快？这应该是个有价值的问题。
----------------------------------------------------------------------------------------------------------------
在R里面就专门有个处理比较复杂数据的pbdPROF包。

这个包里面包括一些profiling MPI的文件和剖析、分析和作图的工具。
MPI的意思就是Message Passing Interface，根据维基上的解释感觉这个就是实现了Paxos的结果。

文档里面专门介绍了一下benchPlot，我知道相关的一样东西是Benchmark，是抽象的一种分析工具，是将某样东西拿出来
和该领域内最好的东西去比较分析的一种工具。benchplot也是这样的意思吗？实际上，该软件包中的benchplot就是画一
重的或者多重的benchmark的。这感觉就是你能轻易而举的获得那个最高标准的数据，是别的公司的，可是这怎么可能，
我了解到的情况是，除非专门做第三方研究的，他们可以累积到很多不同客户的数据，数据是作为资产被保护的啊，除非
大家都承认说这个数据我是可以给任何人看的，也或许这里所benchmark的也就是大家都同意分享给别人的数据，比如上
市公司的财报，任何一个投资者、潜在的投资者都是可以看的。

文档中介绍的第三部分是，Example dataset，会是因为各种数据集很不相同吗？那里的直接描述翻译过来直接是，给出
测试（和打包实证？）的分析结果例子。我估计数据太多啦？没必要给出全部的，给出例子就够啦？再深究啦。。

这里面介绍到了五种类型，感觉是R中定义的五种文件格式，Classes，Methods，Package，data，utility。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

URSIMON

2014-8-7 00:44:26

最近也开始关注学习这方面的东西，源于用笔记本（美版Y510P，8G内存）处理了一个将近70万条consumer review sentiment的text-mining job,足足26个小时！！！最后计算机都瘫了，做完就开始重装系统。。。。作为一个学习者不敢评价R如何如何，觉得肯定是有什么更好的办法自己不知道而已