【Tidyverse优雅编程】办公自动化：Excel考勤表清洗与两种汇总

zhjx19

2015

收藏 2022-12-15

给大家展示一个tidyverse优雅数据思维编程的案例。想要学习R 语言 tidyverse优雅编程，只需要下载学习我的免费课件[学习分享] 张敬信：分享我的1393页《R语言编程：基于tidyverse》完整课件
1 问题描述

问题来自好友 @楚新元实际的工作场景，稍有改编：

某单位有如下 Excel 格式记录的员工考勤表（姓名是随机编造的），只截取一部分，共有 265 名员工，按 12 个月份记录了缺勤情况：

实际数据往往存在：

描述同一件事用词却不同、格式不同
记录形式多是文本，其中文字、数值、单位混杂，不能直接用于汇总计算

在数据操作之外，这些都需要做一定的文本处理，而文本处理又几乎肯定用到正则表达式。

本问题想要得到两种汇总结果：

每个员工的出勤记录的文字描述汇总（不能直接按行合并，因为需要修正描述不一致）
针对不同的缺勤，以及缺勤惩罚方式（扣钱），计算每个员工的扣发金额

下面来逐步解决问题。

先加载包：

复制代码

2 数据清洗

2.1 数据读取与重塑

显然这是一个不整洁的宽表，先读取数据、做长变宽，同时设置两个额外参数以忽略缺失值、从原列名解析出数值（月份）：

复制代码

可以看到，事项列有的单元格记录了多件事情，其实不止、分割，还有用，；分割。需要将这种多条记录，切分成多行的单条记录，用 separate_rows() 即可：

复制代码

现在数据表面看起来是整洁数据了。

2.2 文本数据处理

这步需要业务逻辑，发现记录中的不一致问题，具体问题具体分析解决。

首先，事项中包含两个信息：事项、天数，但也有特殊的，比如有全月病假、全月产假，其后不带“数字天”，注意也不是都带“假”字，有居家办公、居家隔离办公其后带“数字天”。

从貌似没有规律的文本中，发现并表达规律，就需要用到正则表达式。

有两种处理思路，一种是用两次 str_extract() 分别提取两个信息；一种是直接用 extract() (类似分组捕获）同时提取两个信息，这里选择后者。

extract()的基本语法是，提供对哪列做提取，提取出来作为哪几列，最主要的是正则表达式设计，用的 ()分组语法，位于其中的是要提取的部分：一个或多个非数值即汉字，数字加多个任意字符或者结尾。这里的关键是，有的事项里不带“数字天”，所以必须要有 |$ （或者结尾），否则会牵连到整个正则表达式无法正确的匹配。

接着，天数列中包含“天”等，修改列解析成数值，解析失败的将变成 NA，正好对应原事项中不包含“数字天”的，也正好对应“全月...” 。那么全月，就需要计算该月的天数插补上，为此，先自定义一个小函数（来自楚新元，我本来是自己写代码计算，用他这个更简洁）根据年月计算当月天数。

复制代码