各位老师/高手好:
我的原始数据集为a.xslx格式,有220494(行)*72(列),其中ID号为唯一的识别号。
我用library(readxl),a_1<- read_excel("a.xlsx")导入数据后显示行列数正常为220494(行)*72(列),使用a_2<- a_1 [duplicated(a_1$ID),]语句,并未发现有重复的行:0(行)*72(列)。
问题1:我使用write.table(a_1,"a_1.csv",row.names=FALSE,col.names=TRUE,sep=",")保存为CSV格式数据,然后下次使用a_1 <- read.csv(file =" a_1.csv",header = TRUE, sep = ",")读取之后,数据集显示为186613*72,是不是在这个过程中我的个案丢失了很多,什么原因导致的?应该如何处理?
另外将a_1.csv格式的数据再保存为同名xlsx格式的数据集后再次读入,行列数量正常了,但是新的问题出现了:判断ID是否唯一的时候,出现了大量的重复,我在excel中核对,确实很多个案的ID号发生了变化,不是原来的ID了。到底是什么原因呢?整个过程有应该如何操作呢?
问题2:使用save(a_2,file = " a_2.Rdata")语句保存为R.data格式的数据集后,下次导入load("a_2.Rdata"),再次使用[duplicated(a_2$ID),]语句判断,发现有大量的重复值,是什么原因导致的呢?
R入门小白,请各位老师/高手指正!