实测R的vector和list结构比python对应的list和dict慢近千倍，怎么破？

2016-1-5 11:43:19

根据经验判断题主的循环部分肯定是有改进余地的，应该尽可能采用vectorize的写法。题主可以提取一个1000组的数据样本做一下profile，看看时间都消耗在哪些语句上了。题主如果方便的话可以把数据样本上传一下，方便大家了解问题，文字描述还是不够解释清楚变量的结构。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2016-1-5 12:08:31

用R抽样，提出思路、改进思路、完善思路，然后将思路让专业的程序员去用最可靠的方式实现，不管是C++，还是Python。
既然提出了这个问题，我也想在此发起讨论，本人学习R不是想成为程序猿，而是想成为专业量化分析师，用R可以让我紧跟最前沿的数据分析算法，也可以让我直接改进现有的算法来解决具体问题。总之，我是用R来发现思路，完善思路，而是不具体执行。
各位大神如何看待这个问题？？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2016-1-5 12:30:33

cheetahfly 发表于 2016-1-5 12:08
用R抽样，提出思路、改进思路、完善思路，然后将思路让专业的程序员去用最可靠的方式实现，不管是C++，还是 ...

我跟你的情况相反，我本人还算是半个程序员，偏预研类的岗位。我用R的初衷也是能够快速验证算法，至于后面的实现可以给更专业的程序员做。但是R处理循环的性能还是把我惊呆了，没准我应该主程序用python，然后在python里面调R？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2016-1-5 12:32:37

gulongzhou 发表于 2016-1-5 12:30
我跟你的情况相反，我本人还算是半个程序员，偏预研类的岗位。我用R的初衷也是能够快速验证算法，至于后面 ...

仔细看了下您的程序，应该有很大的优化（向量化和并行运算）的余地。不过我还没完全搞懂要实现什么，能举个例子吗？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

点击查看更多内容…

2016-1-5 12:53:37

cheetahfly 发表于 2016-1-5 12:32
仔细看了下您的程序，应该有很大的优化（向量化和并行运算）的余地。不过我还没完全搞懂要实现什么，能举 ...

您好，实际上我有形如K<-C（k1,k2,k1,k2,k3,k4,k1....)，V<-c(v1,v2,v2,v3,v3,v4,v1...)的两个vector，其中：
1. 两个vector的长度是相同的，且数据是按位置一一对应的，可以理解成有很多个(k,v)元组组成的向量;
2. K中的各个k值，和V中的各个v值，都有可能会重复出现，例如我给的例子中，k1,k2;v1,v2,v3就多次出现了；
3. 最终我要找到各个k都对应了哪些v，其中要把v中重复的去掉，然后放到一个list中；在list中用k值做命名，用v值组成的vector做内容。例如上面的例子会得到list(k1=c(v1,v2),k2=c(v2,v3),k3=c(v3),k4=c(v4)).
不知道我上面的解释清楚吗？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2016-1-5 12:56:06

gulongzhou 发表于 2016-1-5 12:30
我跟你的情况相反，我本人还算是半个程序员，偏预研类的岗位。我用R的初衷也是能够快速验证算法，至于后面 ...

R里不用vectorize的函数的话性能是很不济的。感觉你的程序逻辑并不复杂，可以先用data.frame处理最后合并为list。或者你可以换一种思路，因为相对来说R处理data frame的包最多，而且有像data.table这样性能很好的包；list的话作为万能容器在性能上就自然要打折扣了

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2016-1-5 14:30:11

我不知道理解的对不对，如果不对请见谅：

我用以下两个随机数序列模拟k和v：

复制代码

各50万个0~100之间的随机整数，中间肯定不少重复的。重要的事情说三遍：是各50万个，各50万个，各50万个；

复制代码

首先，我会先按第一列（即k），再按第二列（即v）同时排序（其实这一步似乎是多于的，不过我个人喜欢数据整整齐齐）：

复制代码

接下来这一步是最核心的，节约时间主要靠这个（应该是）用C编写的函数：

复制代码

接下来基本就是收尾工作啦：

复制代码

最后，看看时间花费多少，在我的i3CPU上的成绩：

3秒多时间，应该可以接受吧？

因为时间关系，没有仔细验证过各个步骤，如果有不对的地方请提出来，大家讨论。

最后总结一下，您原来的程序应该带有很浓的“C语言的口音”（这是我在r-blogger上看到的一句话，觉得挺酷），你一开始就把一个k元素和一个v元素看成是一个小向量，这不是真正的向量化。应该吧k，v看成一整个大向量（matrix是向量的一种）来通盘考虑。以上是我的一点点心得吧。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2016-1-5 15:36:39

cheetahfly 发表于 2016-1-5 14:30
我不知道理解的对不对，如果不对请见谅：

我用以下两个随机数序列模拟k和v：

@cheetahfly 给你点120个赞！！！

我本人确实算半个C/Python程序员（之所以说半个是因为coding不是我的主业，但少不了要做demo），对数据处理还没有建立起向量化的思想。
除了本帖里面的问题，我程序里面还有一些被我逐行处理数据的地方，有了你这段程序做启发，我大概知道该怎么改了。
我最近1,2个月才开始接触R，今后少不得向您请教。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2016-1-5 16:07:43

gulongzhou 发表于 2016-1-5 15:36
@cheetahfly 给你点120个赞！！！
我本人确实算半个C/Python程序员（之所以说半个是因为coding ...

多交流，共同进步

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2016-1-6 09:50:26

gulongzhou 发表于 2016-1-5 15:36
@cheetahfly 给你点120个赞！！！
我本人确实算半个C/Python程序员（之所以说半个是因为coding ...

昨天没有考虑周全，其实最后收尾阶段的那6行代码不是最简化的，应该可以一行代码，一个函数就搞定收尾

复制代码

最终，应该三行代码可以全部搞定：

复制代码

执行效率上未必有明显的进一步提升，但胜在代码较简化，逻辑更清晰，且较符合向量化的思想。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2016-1-6 13:38:26

cheetahfly 发表于 2016-1-6 09:50
昨天没有考虑周全，其实最后收尾阶段的那6行代码不是最简化的，应该可以一行代码，一个函数就搞定收尾
最 ...

感谢！实测效率比原来的6行代码效率还有10倍以上的提升！
但也带来了个问题：split函数返回的list对象的长度是固定的！！！
比如你这里的lstResult <- split(xu[,2],xu[,1])
我原来的程序里面，对lstResult还有修改，就是将lstResult中的元素再增加一个属性。
例如原来的lstResult[[1]]$c1，我计算后又增加了lstResult[[1]]$c2
现在问题出来了：c1和c2的长度必须相同才行，否则报错！
但按照原来的方法没有问题。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2016-1-6 14:55:59

看了你的描述，猜测问题出在c1和c2封装在一起的形式，matrix和dataframe要求c1和c2必须长度相同（会自动补齐，请检查清楚），list则不用。
一个可能的解决问题的方案是：
另外算出由另一个属性c2组成的list，我们暂时将它的名称定为lstResult2，注意，lstResult和lstResult2中的元素应该是一一对应的。然后再将两个list按c1、c2组装成一个子列表的形式组装在一起，比如：

复制代码

你可以试试看。
多问一句，目前的耗时是多少？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2016-1-6 15:04:11

cheetahfly 发表于 2016-1-6 14:55
看了你的描述，猜测问题出在c1和c2封装在一起的形式，matrix和dataframe要求c1和c2必须长度相同（会自动补齐 ...

哈哈，我也是用这种方法绕过这个坑的。
在我的服务器上处理50万条流量数据，用我最初逐条处理需要约4个小时，向量化后用for循环的方法需要240秒，用split方法不到3秒，见证奇迹的时刻啊！

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2016-1-6 15:06:58

cheetahfly 发表于 2016-1-6 14:55
看了你的描述，猜测问题出在c1和c2封装在一起的形式，matrix和dataframe要求c1和c2必须长度相同（会自动补齐 ...

再多说一句，python真是各种场景通吃，不用考虑优化，耗时稳定在2分钟以内。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2016-1-6 16:11:51

gulongzhou 发表于 2016-1-6 15:04
哈哈，我也是用这种方法绕过这个坑的。
在我的服务器上处理50万条流量数据，用我最初逐条处理需要约4个小 ...

我听着都很高兴

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2016-1-6 18:37:41

cheetahfly 发表于 2016-1-5 14:30
我不知道理解的对不对，如果不对请见谅：

我用以下两个随机数序列模拟k和v：

我刚看到题主加的问题说明，我感觉你是不是想复杂了？题主的要求应该就是split(v, k)吧？要去重复的话那就是lapply(split(v, k), unique)？还是我又理解错了。。。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

feng026

2016-1-6 21:16:25

感觉用reshape2也可以啊

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2016-1-7 00:10:39

suimong 发表于 2016-1-6 18:37
我刚看到题主加的问题说明，我感觉你是不是想复杂了？题主的要求应该就是split(v, k)吧？要去重复的话那就 ...

确实更快

确实是学无止境

我在写第九楼的时候，基本上把思索的过程都写下来了，啰哩啰嗦的，思路也不是很清晰，在第12楼补充的时候，思路基本就定型了，其核心也是unique+split，不过，我是先unique，把数据中的“水分”挤出，再进行split，以为这样会更快，并且我可能有个偏见，对apply家族并不信任，认为他们是把显性循环隐形化了！
为什么会这样呢？
我尝试找了一下原因，结果发现：

复制代码

我去！差了两个数量级！
原因应该在这里了。
多谢了！

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

ntsean

2016-1-7 03:02:54

你需要用数据的思维你看你的问题

tapply(v, k, unique)

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

ntsean

2016-1-7 03:07:12

复制代码

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

windlove

2016-1-7 09:23:56

用logical operator，和dplyr的package，可以把时间缩到1.5秒
library(dplyr)
k <- round(runif(500000, min = 0, max=1), digits = 2) * 100
v <- round(runif(500000, min = 0, max=1), digits = 2) * 100
tot <-
  data.frame(k, v) %>%
  arrange(k, v) %>%
  unique()
out <- with(tot, split(v, k))

user  system elapsed
  1.556 0.000 1.554

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2016-1-7 21:32:05

ntsean 发表于 2016-1-7 03:07

您的代码对效率的提升，主要是来自于您是用sample做整数抽样，形成的数据是integer类型，而原来的模拟方法，形成的数据是double类型，两者处理起来速度差别很大。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2016-1-7 21:52:13

好眼力。简答测试了一下，速度差在3.5倍左右

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2016-1-7 22:59:48

suimong 发表于 2016-1-7 21:52
好眼力。简答测试了一下，速度差在3.5倍左右

您这测试包好用啊！学到了。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2016-1-8 12:34:48

cheetahfly 发表于 2016-1-6 16:11
我听着都很高兴

抱歉，我过于乐观了。其实我处理的原始数据是50万条，归并后就只有10万条左右，最初处理大约15分钟，第一次向量化后约240秒，用split优化后3秒。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2016-1-8 16:20:18

这个帖子持续热闹，让我又学到不少东西！

感谢“suimong”同学，他在18楼的发言一针见血：这个问题的本质是分割和去冗两个核心环节，对应split和unique函数就能解决；也感谢“ntsean”同学，他的tapply是目前调用函数最少的解决方案。

在本帖持续讨论的同时，另外一个帖子“求教：如何分割一个很大的字符矢量？”（https://bbs.pinggu.org/thread-4166951-1-1.html）也给了我很大启发，其中，“万人往LVR”同学的代码为我打开了另外一条思路；“suimong”同学的效率测试让我明白——在某些情况下split()也有可能成为不可小觑的性能瓶颈——在本例中就是这种状况。经大致分析，其原因很可能是由于split(x,f)中的f是专门针对factor类型，而把numeric型转化成factor型耗费巨量时间。（将k向量as.factor之后，split(v,k)的耗时基本上可以忽略不计了）

于是，我想能否专门针对numeric类型进行优化呢？按照“万人往LVR”同学的思路，我瞎写了一个split.num小函数，专门针对f参数是numeric vector时的分割：

复制代码

另外，根据楼主真实数据的特征，我将模拟k和v的方式稍微改变了一下，以达到“归并后有10万条左右”的效果。
我目前桌面的电脑CPU是i3，测试结果如下：

测试结束后，特意逐项比较了一下split和split.num的计算结果是否完全一致，答案是肯定的。

如果按照最初的k和v的模拟方法（归并后大概100条左右），split.num解决方案速度在0.3秒左右。无论如何，都在我的破电脑上实现了1秒以内完成了。

好了，我可以狗带了

......

好吧，其实还是有些不甘心。在整个过程中split.num()耗时的占比仍然太大，大家还有什么好的思路进一步优化吗？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝