全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 R语言论坛
1370 2
2021-01-17

各位老师/高手好:

    我的原始数据集为a.xslx格式,有220494(行)*72(列),其中ID号为唯一的识别号。

我用library(readxl),a_1<- read_excel("a.xlsx")导入数据后显示行列数正常为220494(行)*72(列),使用a_2<- a_1 [duplicated(a_1$ID),]语句,并未发现有重复的行:0(行)*72(列)。

问题1:我使用write.table(a_1,"a_1.csv",row.names=FALSE,col.names=TRUE,sep=",")保存为CSV格式数据,然后下次使用a_1 <- read.csv(file =" a_1.csv",header = TRUE, sep = ",")读取之后,数据集显示为186613*72,是不是在这个过程中我的个案丢失了很多,什么原因导致的?应该如何处理?

另外将a_1.csv格式的数据再保存为同名xlsx格式的数据集后再次读入,行列数量正常了,但是新的问题出现了:判断ID是否唯一的时候,出现了大量的重复,我在excel中核对,确实很多个案的ID号发生了变化,不是原来的ID了。到底是什么原因呢?整个过程有应该如何操作呢?


问题2:使用save(a_2,file = " a_2.Rdata")语句保存为R.data格式的数据集后,下次导入load("a_2.Rdata"),再次使用[duplicated(a_2$ID),]语句判断,发现有大量的重复值,是什么原因导致的呢?


R入门小白,请各位老师/高手指正!


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2021-1-17 19:18:39
read_excel读进来的不是dataframe是个tibble, 不能按照正常操作, 你可以as.dataframe下再看
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2021-1-20 14:27:53
katymeala 发表于 2021-1-17 19:18
read_excel读进来的不是dataframe是个tibble, 不能按照正常操作, 你可以as.dataframe下再看
好的,感谢感谢,我试试
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群