全部版块 我的主页
论坛 提问 悬赏 求职 新闻 读书 功能一区 经管百科 爱问频道
1349 4
2014-08-07
比如,在不同型号的机器上的能处理的数据量,对不同复杂度问题给出运算结果的速率,
可以调用、输出不同类型数据、文件的效率,R语言本身的复杂程度于它给出结果的效率
都是怎么样的?

就我自己玩Sudoku的经验,有些特别难的,几乎需要记住所有格拥有、残缺的信息,才能
将格填出来,但是,只要记住了,填的过程会非常快,一气呵成,这里是在用大脑类比电
脑了,如果内存很足的运算的速度会很快,但就我自己的经验做进行内存的过程本身会花费
比较多的时间,估计在很复杂数据的处理里面也是一样的,存储和计算本身都各自需要蛮多
时间。那么,我会提出这样一个问题,怎么针对问题,合理分配存储和计算以达到速度
上的最快?这应该是个有价值的问题。
----------------------------------------------------------------------------------------------------------------
在R里面就专门有个处理比较复杂数据的pbdPROF包。

这个包里面包括一些profiling MPI的文件和剖析、分析和作图的工具。
MPI的意思就是Message Passing Interface,根据维基上的解释感觉这个就是实现了Paxos的结果。

文档里面专门介绍了一下benchPlot,我知道相关的一样东西是Benchmark,是抽象的一种分析工具,是将某样东西拿出来
和该领域内最好的东西去比较分析的一种工具。benchplot也是这样的意思吗?实际上,该软件包中的benchplot就是画一
重的或者多重的benchmark的。这感觉就是你能轻易而举的获得那个最高标准的数据,是别的公司的,可是这怎么可能,
我了解到的情况是,除非专门做第三方研究的,他们可以累积到很多不同客户的数据,数据是作为资产被保护的啊,除非
大家都承认说这个数据我是可以给任何人看的,也或许这里所benchmark的也就是大家都同意分享给别人的数据,比如上
市公司的财报,任何一个投资者、潜在的投资者都是可以看的。

文档中介绍的第三部分是,Example dataset,会是因为各种数据集很不相同吗?那里的直接描述翻译过来直接是,给出
测试(和打包实证?)的分析结果例子。我估计数据太多啦?没必要给出全部的,给出例子就够啦?再深究啦。。

这里面介绍到了五种类型,感觉是R中定义的五种文件格式,Classes,Methods,Package,data,utility。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2014-8-7 00:44:26
最近也开始关注学习这方面的东西,源于用笔记本(美版Y510P,8G内存)处理了一个将近70万条consumer review sentiment的text-mining job,足足26个小时!!!最后计算机都瘫了,做完就开始重装系统。。。。作为一个学习者不敢评价R如何如何,觉得肯定是有什么更好的办法自己不知道而已
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2014-8-7 00:47:29
URSIMON 发表于 2014-8-7 00:44
最近也开始关注学习这方面的东西,源于用笔记本(美版Y510P,8G内存)处理了一个将近70万条consumer review ...
可以找一些朋友把大家的电脑都用hadoop连起来,把别人的计算资源都用过来,我自己不懂啦,我估摸着很多大公司就是这么使的。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2014-8-7 09:25:09
计算效率应该只跟算法的复杂度相关吧
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2014-8-7 12:47:35
yangyuzhou 发表于 2014-8-7 09:25
计算效率应该只跟算法的复杂度相关吧
非常赞同~有一次跑分类变量的多元logistic模型,一个下午都没跑出来。第一是数据量大,第二是分类变量太多,迭代次数太多;第三就是计算量庞杂。
我计算机硬件其实还说得过去:i7的处理器,还有些固态。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群