stata中如何实现将观测值个数生成新变量？

46460

收藏 2013-06-29

大家好，我想请问一下，面部数据中，根据样本（id）和观测期（t）生成一个新变量number，其内容是每个样本的观测期个数，在stata中如何实现啊？比如，如下图，如何用stata命令生成变量number变量的内容啊？

id	t	number
1	1991	3
1	1992	3
1	1993	3
2	1991	2
2	1992	2
3	1991	1

我通过by id: count if t <. 命令只能算出各个id的观测个数，但不知道怎么将这些观测个数形成新的变量。我也尝试写了如下命令，

foreach id {

by id: count if t <.

egen number=r(N)

}

但stata显示 invalid syntax，呵呵。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

h3327156

2013-6-29 19:48:18

inp id t
1 1991
1 1992
1 1993
2 1991
2 1992
3 1991
end

*方法一：
bys id: g number=_N

*方法二：
duplicates t id, g(number)
replace number=number+1

*方法三：
xtset id t
tsspell, f(L.t == .)
bys id: egen number=max(_seq)

*方法四:【这个比较像楼主原本的】
bys id:egen number=count(id<.)

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

qiaqiao

2013-6-30 15:28:51

方法一最简单，常用

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

～面朝大海～

2013-6-30 16:04:09

h3327156 发表于 2013-6-29 19:48
inp id t
1 1991
1 1992

h大哥威武

，帮我解决了大问题，第一个方法和第四个简单，也容易理解，中间两个貌似有点复杂。十分感谢啊

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

～面朝大海～

2013-6-30 16:49:02

qiaqiao 发表于 2013-6-30 15:28
方法一最简单，常用

喔，我比较初级，连常用的都不曾知道

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

冰冻的鸭梨

2014-4-11 16:55:06

h3327156 发表于 2013-6-29 19:48
inp id t
1 1991
1 1992

在输入命令之前必须写入“inp id t”吗？为什么stata显示“orgn_code already defined”。
我遇到的问题是：每户中有N个成员，我知道每个成员的年龄，怎样算出每个住户中大于18岁的有几个人，怎样像这个帖子一样生成新的变量。尝试了命令bys orgn_code:egen number=count( age>17 )，算出的结果并不正确啊，求大侠解答啊

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

点击查看更多内容…

angelqii

2014-4-22 11:28:37

如果样本量发生了变化，比如我删除了id=1的某个观测案例，现在id=1的案例数量只有两个，运用第一种方法产生的count/number的值还是3，而不是2。后面几种方法也都是生成一个变量，原理与方法一基本一致。如何使得count的值随观测案例的变化而变化啊？是不是在生成该变量时使用某个函数进行赋值。。。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

angelqii

2014-4-22 11:30:12

我试一下方法四。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

angelqii

2014-4-22 11:35:43

h3327156 发表于 2013-6-29 19:48
inp id t
1 1991
1 1992

如果id是字符型变量，这个count（）括号内的内容要怎么写才能数出来个数啊？小虾米一只，求指教哈。。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

angelqii

2014-4-22 11:44:40

h3327156 发表于 2013-6-29 19:48
inp id t
1 1991
1 1992

我把我正在处理的数据中id转换为数字型试了一下方法四，发现方法四也不能够使得number的值随着观测案例个数的变化而变化。我的数据中主要是有一些重复样本，在duplicates drop后观测案例个数会发生变化，我需要数出来不同id的样本个数（比如要求为7，小于7的不符合要求），如果不符合要求我也要剔除这些样本。如果我不想在生成一个新的变量来数这个数，就以原先的number为基础，要如何定义number才能使得number的值随着不同id的样本个数变化而变化？
啊，我不知道我说清楚了没有。。。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

～面朝大海～

2014-4-27 12:38:07

我用方法一、四都没问题。你再琢磨琢磨

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

smartpigeon

2015-1-28 19:30:07

冰冻的鸭梨发表于 2014-4-11 16:55
在输入命令之前必须写入“inp id t”吗？为什么stata显示“orgn_code already defined”。
我遇到的问题 ...

请问你这个问题解决了吗？怎么解决的？谢谢

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

xichun0206

2015-5-29 17:02:08

smartpigeon 发表于 2015-1-28 19:30
请问你这个问题解决了吗？怎么解决的？谢谢

将之前的变量去掉就可以了，这是因为你之前已经定义过这个变量了
drop orgn_code
即可

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

陌上小开

2017-11-30 11:30:29

冰冻的鸭梨发表于 2014-4-11 16:55
在输入命令之前必须写入“inp id t”吗？为什么stata显示“orgn_code already defined”。
我遇到的问题 ...

请问这个问题你解决了吗？就是有前提条件的情况下，如何计算？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

伊如影风

2017-11-30 16:05:09

我使用方法四得出来的结果明显不对呀

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

lky262388

2018-3-6 12:03:44

angelqii 发表于 2014-4-22 11:44
我把我正在处理的数据中id转换为数字型试了一下方法四，发现方法四也不能够使得number的值随着观测案例个 ...

可否请教一下，你的问题解决了吗？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

玄宇豪

2019-2-3 20:55:10

h3327156 发表于 2013-6-29 19:48
inp id t
1 1991
1 1992

方法三有误啊，如果id内的t不连续，那么用tsspell会在id内生成多个小组，这时候number就成了观测值最多的小组的观测数

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

15004821372

2020-10-28 09:34:29

冰冻的鸭梨发表于 2014-4-11 16:55
在输入命令之前必须写入“inp id t”吗？为什么stata显示“orgn_code already defined”。
我遇到的问题 ...

我现在也遇到同样的问题，请问您最后怎么算的呀？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

15004821372

2020-10-28 09:37:32

冰冻的鸭梨发表于 2014-4-11 16:55
在输入命令之前必须写入“inp id t”吗？为什么stata显示“orgn_code already defined”。
我遇到的问题 ...

我现在也遇到了同样的问题，请问您怎么解决的呀？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

赵安豆

2024-12-26 19:15:38

在Stata中，如果要生成一个变量来表示每个样本（id）的观测期个数，你可以使用以下步骤：

首先确保你的数据是根据`id`排序的。可以使用`sort`命令完成：
```
sort id t
```

然后使用`bysort`和`egen`命令结合`count()`函数生成新的变量`number`，表示每个样本的观测期个数：
```
bysort id: egen number = count(t)
```

但是，从你给出的提示来看（即“我通过by id: count if t”），你可能已经对数据进行了排序，并试图计算`t`的出现次数。在Stata中，直接使用`egen`命令会更简洁且有效。

所以，完整的步骤如下：
1. 确保数据按`id`和`t`排序
```
sort id t
```
2. 使用`egen`生成新变量`number`
```
bysort id: egen number = count(t)
```

这样，`number`变量就会为每个样本记录下其观测期个数。注意，这个命令中的`count()`函数是计算在当前`id`组内`t`出现的次数。

如果你的数据中`t`不是唯一标识每个时期的变量（即，可能存在多个观测值在同一时期），那么`count(t)`可能会给出不正确的结果，因为它将计算`t`这一特定值的频率。在这种情况下，你可能需要一个更复杂的方法来确定确切的时间点数。但是根据你的描述，我假设`t`是唯一的，并且这样简单的计数应该就足够了。

此文本由CAIE学术大模型生成，添加下方二维码，优先体验功能试用

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群