全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 R语言论坛
3688 12
2018-04-06
悬赏 50 个论坛币 已解决
如题,近期再处理一批数据,数据量很大。循环太慢了,想用purrr包中进行处理
案例:
复制代码

其中:x为维度,y为指标。
要求分别计算每一个维度,求每个指标平均值,最大值。在计算某一个维度时,需要按照这个维度和dt进行分组,所有指标进行求和。
输出格式为 维度名称、维度值、指标名称、指标平均值、指标最小值
结果样例:(样例并不是上面的案例的结果,只是示意)
复制代码
说明:维度和指标非常多,需要进行遍历,最终要按照数据框输出,维度字段和指标字段通过名字是可以识别的(维度都以x开头,指标都以y开头)
不能有循环,我自己的想法是purrr的map,但是写的不好求大师帮忙!!!
另外,有能力的大神可以帮忙想一下任意两个维度的遍历。





最佳答案

cheetahfly 查看完整内容

之前我想岔了,这样的应用不需要用到map()这样的复杂工具,用lapply()完全可以胜任。 麻烦你反馈一下代码执行一次计算需要多长时间?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2018-4-6 17:30:52
之前我想岔了,这样的应用不需要用到map()这样的复杂工具,用lapply()完全可以胜任。
复制代码


麻烦你反馈一下代码执行一次计算需要多长时间?

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2018-4-8 07:38:09
顶.......
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2018-4-8 15:48:36
没有数据处理的大神吗
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2018-4-9 14:40:59
我个人不觉得把所有维度的问题都用map统一解决是个好主意,因为这会增加内存的压力,不过技术上是可以实现的:
复制代码

注:你需要自己用data.table的语法去优化,但不可能彻底优化(我猜),因为核心的nest(),unnest(),map()等都是tibble体系的。其次,运行会出现警告信息“Expected 2 pieces. Additional pieces discarded”,这是在拆分名字的时候发生的,不影响结果。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2018-4-9 14:55:36
cheetahfly 发表于 2018-4-9 14:40
我个人不觉得把所有维度的问题都用map统一解决是个好主意,因为这会增加内存的压力,不过技术上是可以实现的 ...
那有什么更好的办法吗,维度遍历的
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群