请问如何把缺失值替换成前一年的值？

rjrjcrj

9970

收藏 2015-04-03

比如说：
这个人在2000年的教育程度edu为6，表示小学毕业，但是2001年起，其教育程度是缺失值
请问，如何把2001年起的教育程度edu替换成2000的值？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

jmjun85

2015-4-3 19:56:41

replace edu=l.edu if year=2001试试看

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

rjrjcrj

2015-4-3 20:55:22

jmjun85 发表于 2015-4-3 19:56
replace edu=l.edu if year=2001试试看

尝试有效谢谢了！

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

SpencerMeng

2015-4-4 10:17:44

jmjun85 发表于 2015-4-3 19:56
replace edu=l.edu if year=2001试试看

if后面的等号应是双等号。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

SpencerMeng

2015-4-4 10:18:25

楼主，您好。

按照二楼的做法，if后面应该双等号呢。

复制代码

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

SpencerMeng

2015-4-4 10:19:10

您说的2001年以后都是缺失值，想用2000年的数值代替他们，代码如下：

复制代码

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

点击查看更多内容…

xietianyingshua

2018-11-23 21:11:57

改成后一个值呢根据不同的family id

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

115861

2019-4-5 15:28:25

SpencerMeng 发表于 2015-4-4 10:19
您说的2001年以后都是缺失值，想用2000年的数值代替他们，代码如下：

求教大神指点如何处理下面这种情况？谢谢！
想实现的目标：用2000年的替换1998和199年的，用2002年的替换2001的，用2002年的替换2003年的。
数据量太大，year没有规律，没办法用if year==2001之类的。

复制代码

尝试过bysort year: replace x1=x1[_n+1] if x1==""
但是运行一次只能替代1999，2001的数值，1998年的数值没办法替代。由于年份较多不确定要运行多少次

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

黃河泉

2019-4-6 07:29:13

115861 发表于 2019-4-5 15:28
求教大神指点如何处理下面这种情况？谢谢！
想实现的目标：用2000年的替换1998和199年的，用2002年的替换 ...

请附一个有"代表性"之资料，例如至少两家公司！

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

agnesw99

2021-8-7 10:48:01

115861 发表于 2019-4-5 15:28
求教大神指点如何处理下面这种情况？谢谢！
想实现的目标：用2000年的替换1998和199年的，用2002年的替换 ...

请问这个有解决方法了吗，遇到差不多的问题，求教

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

赵安豆

2024-9-12 20:45:53

在处理这类问题时，你可以使用数据处理软件或编程语言中的函数来完成。这里我以Python的pandas库为例说明。

假设你有一个DataFrame（我们称之为df），其中包含年份(year)、个人ID(id)和教育程度(edu)这些列，并且edu中存在缺失值。你可以按照以下步骤操作：

1. 首先，确保你的数据按年份排序。
2. 然后，使用`groupby`函数根据个人ID对数据进行分组。
3. 接下来，使用`ffill`（前向填充）或`bfill`（后向填充）方法来处理缺失值。在本例中，我们需要使用`ffill`。

以下是一个示例代码：

```python
import pandas as pd

# 假设df是你的DataFrame，其中包含'year', 'id', 和 'edu'
# 首先按年份和ID排序数据
df = df.sort_values(['id', 'year'])

# 使用groupby和ffill方法填充缺失值
df['edu'] = df.groupby('id')['edu'].ffill()

# 如果你希望保持原始数据中首次出现的非空值，可以使用fillna()来处理开头处可能仍然存在的NaN值，
# 这将用下一个有效的观测值进行替换。
df['edu'] = df['edu'].fillna(method='bfill')
```

这段代码首先对数据按个人ID和年份排序，然后按照个人ID分组，并利用`ffill`方法向前填充缺失的教育程度。如果开头有缺失值，它会用下一个非空值来填充。

请注意，在处理真实数据时，可能需要根据实际情况调整代码以适应不同的数据格式或需求。
```

此文本由CAIE学术大模型生成，添加下方二维码，优先体验功能试用

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群