在R中,缺失值以符号NA(Not Available,不可用)表示。不可能出现的值(例如,被0除的结果)通过符号NaN(Not a Number,非数值)来表示。与SAS等程序不同, R中字符型和数值型数据使用的缺失值符号是相同的。
1.R提供了一些函数,用于识别包含缺失值的观测。函数is.na()允许你检测缺失值是否存在。
假设你有一个向量:
然后使用函数:
将返回c(FALSE, FALSE, FALSE, TRUE)。
is.na()将返回一个相同大小的对象,如果某个元素是缺失值,相应的位置将被改写为TRUE,不是缺失值的位置则为FALSE
请注意:
缺失值被认为是不可比较的,即便是与缺失值自身的比较。这意味着无法使用比较运算符来检测缺失值是否存在。
2.重编码某些值为缺失值
假设你有一个leadership数据框,其中有age变量,现在要将age 取值99重编码为NA
3.排除缺失值
举例来说,考虑以下代码:
由于x中的第3个元素是缺失值,所以y和z也都是NA(缺失值)。
可以使用na.rm=TRUE选项,在计算之前移除缺失值并使用剩余值进行计算:
这里, y等于6。
你可以通过函数na.omit()移除所有含有缺失值的观测。
na.omit()可以删除所有含有缺失数据的行。
na.omit(object, ...)
object an R object, typically a data frame
... further arguments special methods could require.
以下是na.omit在Rhelp中的例子:
以上即为R语言缺失值常用方法,希望能帮上大家
——资料来源《R语言实战》《Rhelp》