R语言缺失值处理

2155

收藏 2020-07-12

在R中，缺失值以符号NA（Not Available，不可用）表示。不可能出现的值（例如，被0除的结果）通过符号NaN（Not a Number，非数值）来表示。与SAS等程序不同， R中字符型和数值型数据使用的缺失值符号是相同的。

1.R提供了一些函数，用于识别包含缺失值的观测。函数is.na()允许你检测缺失值是否存在。
假设你有一个向量：

复制代码

然后使用函数：

复制代码

将返回c(FALSE, FALSE, FALSE, TRUE)。
is.na()将返回一个相同大小的对象，如果某个元素是缺失值，相应的位置将被改写为TRUE，不是缺失值的位置则为FALSE
请注意：
缺失值被认为是不可比较的，即便是与缺失值自身的比较。这意味着无法使用比较运算符来检测缺失值是否存在。
2.重编码某些值为缺失值
假设你有一个leadership数据框，其中有age变量，现在要将age 取值99重编码为NA

复制代码

3.排除缺失值
举例来说，考虑以下代码：

复制代码

由于x中的第3个元素是缺失值，所以y和z也都是NA（缺失值）。
可以使用na.rm=TRUE选项，在计算之前移除缺失值并使用剩余值进行计算：

复制代码

这里， y等于6。
你可以通过函数na.omit()移除所有含有缺失值的观测。
na.omit()可以删除所有含有缺失数据的行。
  na.omit(object, ...)
  object       an R object, typically a data frame
...             further arguments special methods could require.
以下是na.omit在Rhelp中的例子：

复制代码

以上即为R语言缺失值常用方法，希望能帮上大家
——资料来源《R语言实战》《Rhelp》

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群