向量化处理数据（避免循环），purr包遍历求助

zl66983279

3879

收藏 2018-04-06

悬赏 50 个论坛币已解决

如题，近期再处理一批数据，数据量很大。循环太慢了，想用purrr包中进行处理
案例：

复制代码

其中：x为维度，y为指标。
要求分别计算每一个维度，求每个指标平均值，最大值。在计算某一个维度时，需要按照这个维度和dt进行分组，所有指标进行求和。
输出格式为维度名称、维度值、指标名称、指标平均值、指标最小值
结果样例：（样例并不是上面的案例的结果，只是示意）

复制代码

说明：维度和指标非常多，需要进行遍历，最终要按照数据框输出，维度字段和指标字段通过名字是可以识别的（维度都以x开头，指标都以y开头）
不能有循环，我自己的想法是purrr的map，但是写的不好求大师帮忙！！！
另外，有能力的大神可以帮忙想一下任意两个维度的遍历。

最佳答案

cheetahfly 查看完整内容

之前我想岔了，这样的应用不需要用到map()这样的复杂工具，用lapply()完全可以胜任。麻烦你反馈一下代码执行一次计算需要多长时间？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

cheetahfly

2018-4-6 17:30:52

之前我想岔了，这样的应用不需要用到map()这样的复杂工具，用lapply()完全可以胜任。

复制代码

麻烦你反馈一下代码执行一次计算需要多长时间？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

zl66983279

2018-4-8 07:38:09

顶.......

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

zl66983279

2018-4-8 15:48:36

没有数据处理的大神吗

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

cheetahfly

2018-4-9 14:40:59

我个人不觉得把所有维度的问题都用map统一解决是个好主意，因为这会增加内存的压力，不过技术上是可以实现的：

复制代码

注：你需要自己用data.table的语法去优化，但不可能彻底优化（我猜），因为核心的nest(),unnest(),map()等都是tibble体系的。其次，运行会出现警告信息“Expected 2 pieces. Additional pieces discarded”，这是在拆分名字的时候发生的，不影响结果。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

zl66983279

2018-4-9 14:55:36

cheetahfly 发表于 2018-4-9 14:40
我个人不觉得把所有维度的问题都用map统一解决是个好主意，因为这会增加内存的压力，不过技术上是可以实现的 ...

那有什么更好的办法吗，维度遍历的

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

点击查看更多内容…

cheetahfly

2018-4-9 15:22:06

zl66983279 发表于 2018-4-9 14:55
那有什么更好的办法吗，维度遍历的

如果是一次性的工作，循环一次也不会有太大问题，如果是重复性的工作，你自己测试一些对时间和内存的压力到底哪种方法大。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

zl66983279

2018-4-9 15:27:13

cheetahfly 发表于 2018-4-9 14:40
我个人不觉得把所有维度的问题都用map统一解决是个好主意，因为这会增加内存的压力，不过技术上是可以实现的 ...

试了一下您的方案，第一步gather就跑不动了。

我自己写了一个

复制代码

其中dt_data是日期数据，dim_loc是维度的列数，index是指标的列数。我这种等于拆到日期、一个指标和一个维度计算，计算速度还是可以的，但有个问题，返回的是list，维度名称和指标名称变成了list的名字，如何能把拆分的list不用循环的情况下合并成data.table，并增加两列，对应是维度和指标名称。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

zl66983279

2018-4-9 15:32:37

cheetahfly 发表于 2018-4-9 15:22
如果是一次性的工作，循环一次也不会有太大问题，如果是重复性的工作，你自己测试一些对时间和内存的压力 ...

需要做成常规的，我自己写的那个速度要比循环快上不少。另外大神能不能帮忙看看这个问题
https://bbs.pinggu.org/thread-6300437-1-1.html

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

cheetahfly

2018-4-9 16:46:06

zl66983279 发表于 2018-4-9 15:27
试了一下您的方案，第一步gather就跑不动了。

我自己写了一个其中dt_data是日期数据，dim_loc是维度的 ...

把list变成data.frame(data.table)难度应该相比小很多啊

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

zl66983279

2018-4-10 11:24:50

cheetahfly 发表于 2018-4-9 16:46
把list变成data.frame(data.table)难度应该相比小很多啊

我现在处于脑子迟钝的状态，关键是map_df好像无法直接把分的是哪列加到数据框里，tidy函数可以，但是不知道怎么用

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

zl66983279

2018-4-12 22:53:54

cheetahfly 发表于 2018-4-12 14:42
之前我想岔了，这样的应用不需要用到map()这样的复杂工具，用lapply()完全可以胜任。

gather这是不是有点问题
Warning message:
In if (!is.finite(x)) return(FALSE) :
the condition has length > 1 and only the first element will be used

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

zl66983279

2018-4-12 22:56:56

cheetahfly 发表于 2018-4-12 14:42
之前我想岔了，这样的应用不需要用到map()这样的复杂工具，用lapply()完全可以胜任。

我的理解一直是 lapply和map是差不多的，只是map会快一些
加我QQ吧，聊的方便些。QQ见私信

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

最佳答案

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群