如何补齐有规律的文本(或数字)序列

4099

收藏 2016-02-09

示范数据如下，原始数据比较大。
x = c("max", "unit", "rate", "max", "unit", "rate", "max", "unit", "rate", "unit", "rate")

我的问题是：知道要循环c("max", "unit", "rate")，如何找出有缺失的组别，例如上面x数据中最后一组少了"max"，然后进行补齐呢？注意的是我没有类似group ID的数据列，所有有些常用的方法不能直接用。

我的目的是补齐这个序列，看看缺失哪些，进而知道其他相邻的列缺失的数据。这列相当于我缺失的组ID。

非常感谢！
－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－
借用@jiangbeilu的说法，我有这样一个序列：
1 2 3 /1 2 3/ 1 2 /1 2 3/ 2 3/1 2 3/ 2 /1 2 3/
我想要把每组都变成 1 2 3，注意没有group ID，但是我每组我知道有2，所以知道总共有多少组。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

ryoeng

2016-2-9 15:50:18

提示: 作者被禁止或删除内容自动屏蔽

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

jiangbeilu

2016-2-9 17:12:45

你的问题是不是可以转化成这样的：
1 2 3 /1 2 3/ 1 2 /1 2 3/ 2 3/1 2 3

/代表一组，其中，你是想，如果发现了1 2，也就是第三组，就补成 1 2 NA,的形式吧？
如果是补成3的话，我想只要确定了多少组，然后直接rep(1:3,n)就可以了。

所以，没有这么简单。
2 3这样一组，你是希望补成 1 2 3是吧？不过单独一个 2 3 也可以补成NA 2 NA/NA NA 3的形式，这个样子是两组。
所以还是不那么好操作的。
请把您的问题描述清晰一些好么？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

rosenbloog

2016-2-9 23:07:56

ryoeng 发表于 2016-2-9 15:50
不大明白楼主的问题，`dplyr::mutate()`应该行吧？

数据里暂时没有可以group_by的变量

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

rosenbloog

2016-2-9 23:08:38

jiangbeilu 发表于 2016-2-9 17:12
你的问题是不是可以转化成这样的：
1 2 3 /1 2 3/ 1 2 /1 2 3/ 2 3/1 2 3

你理解的是对的。我稍微编辑了下我的问题。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

jiangbeilu

2016-2-10 16:47:51

那这个问题就很简单了，比如你知道有10组，
只需要：

复制代码

重复10组这样的向量，就完成了要求了，也无需追究原来序列的缺失问题了。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

点击查看更多内容…

rosenbloog

2016-2-11 10:17:04

jiangbeilu 发表于 2016-2-10 16:47
那这个问题就很简单了，比如你知道有10组，
只需要：

看来我还是一开始没解释清楚，这个1／2／3对应了其他列的数据，相当于是我的ID，但是不全。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

foozhencheng

2016-2-11 13:15:13

我觉得jiangbeilu的回答是正确的。你先找出在x中有多少个2（比如有n个），然后rep(1:3, n)即可生成你这个ID序列。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

cheetahfly

2016-2-11 23:52:22

根据经验，我提供的解决方法肯定不是最优的，因此，权当我在此抛砖引玉把。

我大致猜到楼主的目的，因为楼主相当于ID的那列变量是有规则重复，但不规则缺失的，因此，无法真正发挥ID的作用。我想，如果额外加上一列group.id，标明这行数据属于哪个组，应该可以解决该问题了。比如，最终的效果如下：
a group.id
max 1
unit 1
rate 1
unit 2
rate 2
max 3
unit 3
unit 4
max 5
unit 5
rate 5
这样子，这两列数据一并作为ID使用，使ID有了唯一性，作用可以发挥出来了。
另外，从上面的数据可以轻易得到，第1、5组数据是全的，第2组数据缺了"max"行，第3组数据缺了"rate"行，第4组数据既缺"max"行，也缺"rate"行，（这样每种缺失情况都包含了，等下的测试基本是该向量重复多次。不过，每组"unit"必不可少，不然问题会复杂很多），这样要补全数据也非常容易。

对于补全group.id，我有两个思路，第一个思路要借用“jiangbeilu”同学给出的：rep(c("max","unit","rate"),5)这个向量，这个向量是理想状态下的ID列，可惜和现有的缺失的dataframe无法一一对应，就好比我们去“配钥匙”，先买一把未挫过的“无齿钥匙”，然后用工具按照现有的钥匙的特征加工过，这把钥匙就能用了。

按第一个思路，首先，我们要根据数据框中的“unit”的数据推断出有多少组，假设为“n”，然后构建一把这样的“原始钥匙”：

复制代码

然后，我再用“循环”和“递归”设计一个“配钥匙”的函数，基本思想是逐行检验现有数据和key数据，发现现有数据中没有但key数据框中有的，就丢掉key数据中的该行。函数返回新的key数据框：

复制代码

测试一下，可用。万事大吉了吗？等等，楼主说过，他的原始数据比较大，因此，我要测试一下这种方法的效率。我用千万行级别的原始数据测试，内存不够；百万级别的，内存不够；十万级别的，告知递归得太深了；万级别的，还是递归得太深了；千行级别的，通过，但在我的老电脑上耗时大概10秒以上。

这样显然不行，这个思路不实用。当然，如果不用递归，而用更加复杂一些的循环方法，应该可以使数据处理的上限提高1到2个数量级，但仍无法改变其内存和CPU利用低效的事实。

第二个思路是“向量化”的处理方法。比如，我用下面的自编函数，arguments是现有数据框，和c("max", "unit", "rate")向量，函数返回的是加了group.id列后的现有数据框：

复制代码

我测试过，可以运行1千万行以上的数据（当然，我的模拟数据中其他列数据不复杂），耗时5秒多，比第一个思路处理1千多行的数据还要快得多。

重要提醒：两个思路都假定头尾数据是完整的，因为头尾数据的判断和补全很容易，因此，未对头尾组缺失的情况进行容错设计。

通过这个案例，我自己也深刻地体会了R语言的长处和短处，如果用直观的方法，利用循环和递归，编程效率高，但执行效率太差；如果用向量化的方法去编程，思考的过程耗时比较长，但执行起来简直云泥之别，这可能就是R语言独特的魅力所在吧！

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

czrdiao

2016-2-12 08:48:28

如果真的是cheetahfly说的，我这个方法好像比较简单
x = c("max", "unit", "rate", "max", "unit", "rate", "max", "unit", "rate", "unit", "rate")
id <- c("max", "unit", "rate")
ord <- match(x, id)
di <- diff(match(x, id))##the negative value is the next group
ord2 <- which(di<=0)
rep(1:(length(ord2)+1), time = c(ord2[1], diff(ord2), length(x)-ord2[length(ord2)]))
我就不解释了，都是简单的函数，运行一下就看懂了！

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

king64

2016-2-12 11:21:53

rosenbloog 发表于 2016-2-9 23:07
数据里暂时没有可以group_by的变量

没有group ID? 你不会做一个吗？？

使用jianbeilu的方法做一个，比如：rep(1:3,10)

然后与你的数据合并在一起，缺失的地方用NA补充上！

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

蓝色

2016-2-12 11:27:13

没有分组变量，只是看到 c("max", "unit", "rate")，也是很难办的

可能都是同一组
也可能是不同组
也可能是前两个是一组，第三个是一组
也可能是前一个是一组，后两个是一组
如下所示
x          groupID1 groupID2 groupID3 groupID4
max          1             1             1             1
unit          1             1             2             2
rate          1             2             2          3

这些情况都可能发生，如果没有分组变量
假如不知道是哪种分组的情况，就麻烦了
如果真实的情况是groupid4的这样
但是分组产生的是groupid1的情况或其他情况，可想而知，后面进一步分析可能就是错的了

所以，还是想办法从原始数据里面找到分组的groupid为好
而且也应该有才对

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

cheetahfly

2016-2-13 09:41:25

蓝色发表于 2016-2-12 11:27
没有分组变量，只是看到 c("max", "unit", "rate")，也是很难办的

可能都是同一组

按照楼主的说法，就如题目所说的“有规律的文本（或数字）序列”，这个规律，我从楼主的话中理解为：第一，同一组中，一定是按照max，unit，rate的顺序排列（下表中对应1、2、3），反复循环，不规则缺失；第二，每一组中，中间的unit不会缺失。

根据这两个规律，可以推断，缺失组一般有以下三种，1）缺max，2）缺rate，3）既缺max，也缺rate，它们的组合可以归结为：

缺max

缺rate

既缺max，也缺rate

缺max

Unit 2

Rate 3

Unit 2

Rate 3

Max 1

Unit 2

Max 2

Unit 3

Unit 2

Rate 3

缺rate

Unit 2

Rate 3

Max 1

Unit 2

Max 1

Unit 2

Max 1

Unit 2

Max 1

Unit 2

既缺max，也缺rate

Unit 2

Rate 3

Unit 2

Max 1

Unit 2

各种情况都可以用一个简单判定法则来分组：就是数字没有增长。（这也是czrdiao同学用一阶差分和是否<=0来判定分组的理由）

最后说明一下，这里的group.id仅仅是为了标明每个max、unit、rate循环在数据框中的相对位置而设定的，清洗完数据后完全可以删除，不用赋予其实际意义（事实上也没有实际意义）。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

cheetahfly

2016-2-13 09:56:29

czrdiao 发表于 2016-2-12 08:48
如果真的是cheetahfly说的，我这个方法好像比较简单
x = c("max", "unit", "rate", "max", "unit", "rate" ...

czrdiao同学创造性地用一阶差分和向量化rep来解决该问题，给了我很大的启发，多谢！

我一直有种感觉，这个问题可以有一个非常简单直接的解决方法的。受czrdiao同学思路的启发，我另想了一个简化思路：既然group.id是用来标明相对位置和寻找缺失行的相对坐标，因此，没有必要一定从max开始循环。我完全可以跳开第一行，然后从第二行的unit开始循环，这样，在同样可以解决问题的条件下，语句只需要简化成一行即可：

group.id <- cumsum(data[,1] == "unit")

有了标明每组（无论是否完整）max、unit、rate循环的相对位置的group.id后，要解决楼主所提出来的补齐数据就比较容易了，一个思路是用大神Hadley Wickham提出来的Split-Apply-Combine策略，用plyr::ddply()来解决；另一个思路按向量化的方式，根据setdiff()函数，找出缺失max行和rate行的相对“坐标”，然后创建——合并——排序，具体怎么做就不啰嗦了。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

suimong

2016-2-14 19:21:33

题主的问题应该适用tidyr::complete函数

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

cheetahfly

2016-2-14 23:15:59

suimong 发表于 2016-2-14 19:21
题主的问题应该适用tidyr::complete函数

多谢提醒。不知是不是我查阅得不对，该运用函数的前提仍然需要有group.id这一列？

有了tidyr::complete之后，确实第二步工作就很简单了，只需要：
library(tidyr)
library(dplyr)
df %>% complete(group.id, nesting(a)) #假设max,unit,rate所在列的列名为“a”

注意，这里的group.id需要正确形式的，比如10楼、9楼的方法算出的，不能用14楼的简化算法。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

suimong

2016-2-15 20:08:02

cheetahfly 发表于 2016-2-14 23:15
多谢提醒。不知是不是我查阅得不对，该运用函数的前提仍然需要有group.id这一列？

有了tidyr::c ...

确实，要向量化解决这个问题group id列是少不了的。综合使用@czrdiao的差分方法和你提到的cumsum函数，group_id列的生成其实并不复杂：

library(tidyr)
library(dplyr)

# 重新构造测试数据，包括所有可能的缺失情况
x <- c("max", "unit", "rate",
   "max", "unit", "rate",
   "unit", "rate",
   "max", "unit",
   "unit",
   "max", "unit")
lvls <- c("max", "unit", "rate")
int_code <- unclass(factor(x, levels=lvls))

# 用差分标记出分组的起始位置，并在差分的头部添加第一组的标记0（或者其他<=0的值）
group_mark <- ifelse(c(0, diff(int_code)) <= 0, 1, 0)
# 由分组标记计算出group_id
group_id <- cumsum(group_mark)

# 利用tidyr::complete函数计算出每组中缺失的值
data <- data_frame(group_id, int_code, x)
data %>% complete(group_id, int_code)

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

cheetahfly

2016-2-15 23:04:40

suimong 发表于 2016-2-15 20:08
确实，要向量化解决这个问题group id列是少不了的。综合使用@czrdiao的差分方法和你提到的cumsum函数，gr ...

perfectly done

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群