offandon 发表于 2016-10-22 22:34 
论坛币给你了,
请详细给讲解下。
好不。
本来想用有序因子来处理,但发现还是太麻烦。直接用这种方法去替换省事。这里的美元符号显示得不好,以下我用中文“美元”来代替shift+4这个符号。以最后一个 df“美元”学历[df“美元”学历 %in% c("专科","本科","硕士","博士")] <- "大学" 为例。
中括号里的 %in%是判断符号,a %in% b就是判断a是否在b里,是就返回一个true,向量化后,就返回一串的true和false。中括号里的东西可以单独运行一遍,看看就懂。
df是你的dataframe,df“美元”学历,可以调用你的学历那一列(当然这个学历是你的dataframe的列名),中括号作为索引,里面接一串的true和false就返回了学历里每一个索引为true的元素(在这里就是每一个专科本科硕士博士),把这些元素都替换为“大学”。