求助内容：CFPS数据权数使用

6614

收藏 2024-04-15

我现在在用CFPS2012-2020五年的家庭经济问卷（famecon）数据挑选变量后预计合成一份家庭面板，其中每一年家庭经济问卷（famecon）提供的的权数变量如下：（1）2012年：
fswt_natcs12——家庭横截面权数：全国总样本
fswt_rescs12——家庭横截面权数：全国再抽样样本
fswt_natpn1012——家庭面板权数：全国总样本
fswt_respn1012——家庭面板权数：全国再抽样样本
（2）2014年：
fswt_natcs16——CFPS2014家庭横截面权数：全国总样本
fswt_rescs16——CFPS2014家庭横截面权数：全国再抽样样本
fswt_natpn1016——CFPS2014家庭面板权数：全国总样本
fswt_respn1016——CFPS2014家庭面板权数：全国再抽样样本

（3）2016年：
fswt_natcs16——CFPS2016家庭横截面权数：全国总样本
fswt_rescs16——CFPS2016家庭横截面权数：全国再抽样样本
fswt_natpn1016——CFPS2016家庭面板权数：全国总样本
fswt_respn1016——CFPS2016家庭面板权数：全国再抽样样本
（4）2018：
fswt_natcs18n——CFPS2018家庭横截面权数（标准化）
（5）2020：
fswt_natcs20n——CFPS2020家庭横截面权数（标准化）-无回答权数
fswtps_natcs20n——CFPS2020家庭横截面权数（标准化）-事后分层权数
看了CFPS数据的用户手册，和网上好多官方回复疑问，大概搞明白的是，家庭横截面权数是用于单个年份的分析，家庭面板权数是用于追踪数据的分析，因此初步断定我的数据适合于面板权数。但是面板权数（基于资料的表述我认为它等同于追踪权数）是只对基因成员有值，我最终合并成的一定是个混合面板数据，且我的数据还不包含2010年，那么我该怎么用这些权数呢？
基于搜集到的资料，我想到的使用方案有两种：
1、因为是追踪数据所以只使用最后一年的面板权数；
2、使用每一年同样的面板数据，也就是fswt_natpn1012、fswt_natpn1014、fswt_natpn1016。
以上两个方案的共同问题是CFPS从2018年开始就不提供家庭面板数据了，这就造成这些权数在我的5年内不可比。
所以说还是不明白权数应该怎么用，希望有同样用过这个数据的友友看到之后给点解答，先在此表示感谢。另外附上我开头说过的搜集到的资料吧。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

北栀20191219

2024-4-20 16:56:12

同问同问，也遇到了这个问题

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

赵安豆

2024-9-5 17:17:36

在使用中国家庭追踪调查（China Family Panel Studies，简称 CFPS）数据时，选择合适的权重非常重要。根据你的描述，你有横截面权重和面板权重两种类型，并区分了总样本和再抽样样本。

1. **横截面权重** (`fswt_natcs12`, `fswt_rescs12` 等)：这类权重主要用于分析单一年份的数据。它确保你的样本在该年份内代表全国或特定地区的人口结构，通常用于描述性统计和进行某一时间点的社会经济状况分析。

- `fswt_natcs12`: 适用于使用2012年的数据做横截面分析时加权。
- `fswt_rescs12`: 如果你选择分析再抽样样本，则应使用这个权重。

2. **面板权重** (`fswt_natpn1012`, `fswt_respn1012` 等)：这些权重用于面板数据分析，即追踪同一家庭在不同年份的数据。面板权重考虑了时间维度的变化和样本流失情况，确保在多年度分析中保持代表性。

- `fswt_natpn1012`: 适用于使用2012年的数据做面板（多时期）分析时加权。
- `fswt_respn1012`: 同理，这是再抽样样本的面板权重。

**如何选择**：

- 如果你正在做横截面研究或比较不同年份的某一年的数据，则使用相应的横截面权重。
- 若要进行面板数据（多时期）分析，追踪家庭在多个时间点的变化，应选用面板权重。这尤其适用于研究家庭经济状况随时间变化的趋势。

对于你的具体问题，如果你打算合成一个家庭面板来分析跨年的家庭经济变化，你应该选择面板权数，并且根据你对总样本或再抽样样本的偏好进行选择。通常情况下，使用全国总样本的面板权重 (`fswt_natpn1016` 等) 可以获得更广泛和具有代表性的结果。

在Stata等统计软件中，你可以通过 `svyset` 命令来设定你的数据为调查数据，并指明对应的权数变量。这样，在后续的分析中，软件会自动使用该权数进行加权处理。例如：

```
use your_dataset, clear
svyset [pw = fswt_natpn1016] // 假设你正在分析2016年的数据，并选择全国总样本的面板权重。
```

这样设置后，你可以使用 `svy:` 前缀来运行加权统计命令。

此文本由CAIE学术大模型生成，添加下方二维码，优先体验功能试用