求助如何按年度把某个变量按分位数分组？

yjw820

26762

收藏 2013-03-18

比如：
stkcd year var1
我想把每年的var1前30%编为1，最后30%编为0，中间的为缺失值。请问如何实现？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

yjw820

2013-3-18 15:54:22

一定有人问过，直至我不知道怎样在搜索的时候表达……

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

ywh19860616

2013-3-18 18:25:28

https://bbs.pinggu.org/thread-1077418-1-1.html

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

wtv1012

2017-7-5 17:54:59

这种情况可以采用两步骤来进行，首先按年度找前30分位数和后30分位数，然后将小于30%编为1，大于70%编为0，中间的为缺失值。命令可以这样，bysort year: egen newvar30=pctile(var1), p(30) bysort year: egen newvar70=pctile(var1), p(70) gen var1_group=. replace var1_group=1 if var1<newvar30 replace var1_group=0 if var1>newvar70
这种方法仅供参考，我也是多次尝试出来的，比较可靠。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

que_chang

2018-1-9 15:36:00

wtv1012 发表于 2017-7-5 17:54
这种情况可以采用两步骤来进行，首先按年度找前30分位数和后30分位数，然后将小于30%编为1，大于70%编为0， ...

感谢提供很好的方法，但是要注意存在缺失值的情况。stata中缺失值记为“.”表示无穷大，如果newvar30中有缺失值，可能误记为var1_group=1，所以在进行以上步骤时应当先去掉缺失值。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

Fadedcoco

2021-1-7 16:06:13

wtv1012 发表于 2017-7-5 17:54
这种情况可以采用两步骤来进行，首先按年度找前30分位数和后30分位数，然后将小于30%编为1，大于70%编为0， ...

感谢楼主已成功～

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

点击查看更多内容…

焦小焦123

2021-12-17 18:34:08

wtv1012 发表于 2017-7-5 17:54
这种情况可以采用两步骤来进行，首先按年度找前30分位数和后30分位数，然后将小于30%编为1，大于70%编为0， ...

想问一下，这里的前30%是由小到大排序吗？还是由大到小排序？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

rayray_2023

2023-3-23 19:46:27

Fadedcoco 发表于 2021-1-7 16:06
感谢楼主已成功～

你好，请问这个方法需不需要先把样本按照var1排序呢？还是说直接导入数据执行命令即可？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

赵安豆

2024-6-25 22:38:05

你可以使用Python的pandas库来完成这个任务。以下是一种可能的方法：

```python
import pandas as pd

# 假设你的数据存储在一个名为df的DataFrame中
# df = pd.read_csv('your_file.csv')  # 如果需要从文件加载数据

# 计算每年var1的分位数
quantiles = df.groupby('year')['var1'].quantile([0.3, 0.7]).unstack()

# 创建一个函数来分配组别
def assign_group(x):
if x <= quantiles.loc[x.name]['var1'][0.3]:
      return 1
elif x >= quantiles.loc[x.name]['var1'][0.7]:
      return 0
else:
      return pd.NA

# 应用函数到每年的每一行数据，创建新列'group'
df['group'] = df.groupby('year')['var1'].apply(assign_group)

# 确保group列是Int类型（允许缺失值）
df['group'] = df['group'].astype('Int64')
```

这段代码首先计算每年的`var1`变量的0.3和0.7分位数，然后根据这些分位数对数据进行分组。最后，它创建一个新的列'group'来存储结果。

注意：这个例子假设你的数据集已经按照年度进行了正确的排序或没有重复值。如果存在重复的数据或者需要更复杂的处理逻辑，请先预处理数据以确保正确性。

此文本由CAIE学术大模型生成，添加下方二维码，优先体验功能试用

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群