R语言中保存数据出现大量重复

坚持下去会死吗

1523

收藏 2021-01-17

各位老师/高手好：

我的原始数据集为a.xslx格式，有220494（行）*72（列），其中ID号为唯一的识别号。

我用library(readxl)，a_1<- read_excel("a.xlsx")导入数据后显示行列数正常为220494（行）*72（列），使用a_2<- a_1 [duplicated(a_1$ID),]语句，并未发现有重复的行：0（行）*72（列）。

问题1：我使用write.table(a_1,"a_1.csv",row.names=FALSE,col.names=TRUE,sep=",")保存为CSV格式数据，然后下次使用a_1 <- read.csv(file =" a_1.csv",header = TRUE, sep = ",")读取之后，数据集显示为186613*72，是不是在这个过程中我的个案丢失了很多，什么原因导致的？应该如何处理？

另外将a_1.csv格式的数据再保存为同名xlsx格式的数据集后再次读入，行列数量正常了，但是新的问题出现了：判断ID是否唯一的时候，出现了大量的重复，我在excel中核对，确实很多个案的ID号发生了变化，不是原来的ID了。到底是什么原因呢？整个过程有应该如何操作呢？

问题2：使用save(a_2,file = " a_2.Rdata")语句保存为R.data格式的数据集后，下次导入load("a_2.Rdata")，再次使用[duplicated(a_2$ID),]语句判断，发现有大量的重复值，是什么原因导致的呢？

R入门小白，请各位老师/高手指正！