楼主最近遇到一个数据处理和整合问题,具体请看附件里的 数据表和说明。
  
简单来说呢,就是附件里的左边表格是原始样本数据。 右边的表格是要实现的结果表格。 
我们把原始数据叫做 dataset_1 那么想要的数据叫做 final_output。 
首先是把这些人的ID 选出符合条件的。条件是每个ID的第一个start date 必须是在 2020年1月1日以后发生的就是疫情开始后的才算数。如果有的ID 的第一个 start date 是2019年10月发生的,那么不论他是否有2020年以后发生的start date,他所有的数据都该被剔除。 
还有就是service count 就是服务统计。 想要实现的结果表格就是统计符合条件的人的服务的。 比如ID 009 的第一个start date 是4/9/2020 那么他就符合条件。 如果他后来又有三个服务日期分别发生在 9/2/2020, 11/5/2020, 和5/11/2021 那么就应该这样统筹到结果表格里。 
比如Month 1 意味着 Day 1-30 也就是 4/9/2020 - 5/8/2020 期内发生的任何服务都算在Month 1的里面。 
那么9/2/2020 是发生在 9/9/2020 - 10/8/2020 之间,那么这该算作 Month 6里面因为是在 Day 151-180 期内发生的。 
但是 11/5/2020 是发生在 11/9/2020 - 12/8/2020 之间, 这个算做 Month 8 里面。我想要的表格里不关心Month 8 所以这个服务虽然是符合条件的,但是不必统计到结果表格里。 
还有5/11/2021 是发生在 一年以后也就是 Month 12+ 那么这个只要是超过Day 365 的都算作一起,归纳到 Month 12+ 里即可。 
金币不够,可以再加。 请把代码发到评论里。 谢谢支持。