生成过去特定一段时间特定条件下某ID重复出现的次数

7399

收藏 2013-05-01

悬赏 10000 个论坛币已解决

有如下格式数据：
id          date                B       E       MA    Var1       Var2       Var3
AA 1980/01/02          1       .          .
B    1980/01/31          0       .          .
C    1982/02/16          .          .          1
D    1982/03/18          .          0          .
AA 1982/03/21          .          1          .
AA 1982/03/21          1       .          .
B    1982/03/22
AA 1983/06/30          .          0          .
E    1985/11/22          0       .          .
AA 1985/12/31          0       .          .
G    1987/01/01          .          .          1
D    1991/02/27          .          1          .
.
AA 1999/03/16          .          .          1
.
Z    2010/12/31          0          .          .

想在Var1列生成本行对应id过去5年在B＝1的情况下重复出现的次数（不计当次），在Var2列生成本行对应id过去5年在E＝1的情况下重复出现的次数（不计当次），在Var3列生成本行对应id过去5年在MA＝1的情况下重复出现的次数（不计当次）。举例来说，对应AA 1985/12/31行，Var1应显示1，Var2应显示1，Var3应显示0

我根据以前dxystata在类似问题中的程序，改写程序如下：
gen Var1=.
local N = _N
forvalues i = 1/`N' {
count if B＝＝1&id==id[`i'] & (date[`i']-date)/365.2<=5 & (date[`i']-date)/365.2>0
replace var1=r(N) in `i'
}
但是这个程序运算速度比较慢，遇到观察值为几十万的情况，几个小时也出不了结果。

哪位高人有比较好的解决办法啊？非常感谢！！！

根据jonathanjp引用Nick Cox的建议，我编写如下代码，优点是不需要任何循环，因此速度快，缺点是如果数据量比较大，例如我提供的样本，会占用大量内存，甚至超过32G。
bys id Date: egen total_B=total(B)
bys id Date: egen total_E=total(E)
bys id Date: egen total_MA=total(MA)
duplicates drop id Date, force
egen ID=group(id)
xtset ID Date
tsfill
bys ID (Date): gen sum_B=sum(total_B)
bys ID (Date): gen freq_B=l.sum_B-l1827.sum_B
bys ID (Date): gen sum_E=sum(total_E)
bys ID (Date): gen freq_E=l.sum_E-l1827.sum_E
bys ID (Date): gen sum_MA=sum(total_MA)
bys ID (Date): gen freq_MA=l.sum_MA-l1827.sum_MA
drop if missing(id)

根据jonathanjp引用Michael Barker的程序，我进行了试验，运行速度也不快，而且结果有问题，但是思路有帮助。我一开始写的那个程序把每一个obs和其他所有obs进行比较，比较是否id一致及是否在5年之内，这样在样本大的情况下，运行速度自然很慢。现在有没有可能在一开始按时间sort数据的情况下，循环程序截止在5年的时间范围内？

目前为止，不管使用循环还是不使用循环，如果想解决速度问题，voodoo提出的“分而治之”的思路是最佳方案。

我把voodoo的“分而治之”的方法评为最佳答案，这个方法唯一的缺点是需要写的程序较为复杂，但是这种“分而治之”的思路是很好用的，而且程序运行速度比较快，不过多耗费系统资源。我写的上面这个不需要循环的程序运行速度最快而且代码比较简洁，但是必须保证内存足够大（建议16G或以上）。

最佳答案

voodoo 查看完整内容

在楼上程序的基础上加入“分而治之”的做法，将总样本划分为若干个小样本，在我的电脑上程序运行时间缩减至楼上程序的10%！只需303秒即解决问题！！

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

voodoo

2013-5-1 02:05:07

复制代码

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

xingxf

2013-5-1 02:07:40

这是上面问题的示例文件。

附件列表

sample.rar

大小:1.66 MB

马上下载

示例文件

本附件包括：

sample.dta

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

dxystata

2013-5-1 11:57:38

用 12-Core Stata/MP

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

jonathanjp

2013-5-1 13:35:51

你的数据里有很多重复的观测，删掉后能好一些。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

voodoo

2013-5-1 16:00:32

答案和问题是相关的。请你再澄清一下关于你样本的性质：
1. 为什么存在很多完全相同的duplicate obs？
2. id很多，且每个id的样本数多少也差很多呢？
3. 你所附的sample是你所拥有的全部样本，还是它仅是你所有样本的一个样本而已？
总之，请问这是关于什么研究的样本？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

点击查看更多内容…

xingxf

2013-5-1 17:01:24

dxystata 发表于 2013-5-1 11:57
用 12-Core Stata/MP

我用的就是这个版本，跑了10多小时了，没出结果，哈哈

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

sungmoo

2013-5-1 17:01:55

jonathanjp 发表于 2013-5-1 13:35
你的数据里有很多重复的观测，删掉后能好一些。

对于完全相同的行（重复值），楼主要如何处理？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

xingxf

2013-5-1 17:02:16

jonathanjp 发表于 2013-5-1 13:35
你的数据里有很多重复的观测，删掉后能好一些。

重复的观测值是必须的，没有办法去掉

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

xingxf

2013-5-1 17:04:13

dxystata 发表于 2013-5-1 11:57
用 12-Core Stata/MP

说错了哈哈，我是4-core版本，找不到12-core版本，我也只有i7的4核8线程机器，没有12-core的机器

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

xingxf

2013-5-1 17:08:45

sungmoo 发表于 2013-5-1 17:01
对于完全相同的行（重复值），楼主要如何处理？

重复值是需要保留的。比如，1985年1月1日这行，如果之前1982年1月1日有两个重复值，那么这个要算两次。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

xingxf

2013-5-2 03:09:41

voodoo 发表于 2013-5-1 16:00
答案和问题是相关的。请你再澄清一下关于你样本的性质：
1. 为什么存在很多完全相同的duplicate obs？
2. ...

谢谢您的关注，但是我觉得您问的问题和我问题的答案没有必然的关联，也就是说要解决我的问题不需要知道您问题的答案。事实上我写的代码可以解决问题，但是运行速度太慢。
对于您的问题：
1. 如果您把一个id在一个时间点的数据作为一个obs，那么这确实是有重复制，但是，需要说明的是，我研究的是公司，一个公司可以在一天做几项交易，比如，在一天同时提出几起收购，同时举债，那么你把一起交易作为一个obs，那么我提供的数据就是严格的面板数据。
2. 公司多，id自然多，有的公司交易多，有的交易少，那么每个id的样本差距就很大。
3. 我提供的sample不是我的final sample，但是对于我要生成的一个特定变量来说，这就是全部的数据。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

voodoo

2013-5-2 10:55:55

暂时未想到优化循环的方法，但通过简单的数据预处理即可大幅降低循环时间。
示例程序见楼下：

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

voodoo

2013-5-2 11:18:16

//       以下程序尽管循环部分并未优化，但只需根据你的数据对数据进行清洁，并合并重复样本的信息，就可将程序运行时间缩短至原来的20%！
//       这事实上也说明了在数据管理过程中理解数据的重要性

set more off
use sample.dta, clear
count       // 看看共有多少样本

//       #1
//       根据你的说明，B E MA取值要么1，要么missing，不应为0啊？
//       将0替换为.，然后删除三个变量均为.的样本
//       竟然多达26万个，节约50%的时间
foreach v in B E MA {
      replace `v' = . if `v' == 0
}
drop if missing(B) & missing(E) & missing(MA)

//       #2
//       循环计算
/*
      //       #2.0
      //       10000样本先试一下
sort id date
keep in 1/10000
*/
      //       #2.1
      //       用`v't合并重复样本的信息，然后删除重复样本
foreach v in B E MA {
      bysort id date: egen `v't = total(`v')
      drop `v'
}
duplicates drop id date, force

      //       #2.2
      //       删除只有一个date的，肯定无需进入循环
by id: gen N = _N
drop if N == 1
drop N

      //       #2.3
      //       双重循环计算
count       // 看看还剩下多少样本
foreach v in B E MA {       // 变量循环
      gen Var_`v' = .
      qui forval i = 1/`=_N' {       // 样本循环
            su `v't if id==id[`i'] & inrange((date[`i']-date), 1, 1826)
            replace Var_`v' = r(sum) in `i'
      }
      drop `v't
}

      //       #2.4
      //       和原来的样本数据合并
merge 1:m id date using sample, nogen
/*
foreach v in B E MA {       // 替换缺失值为0
      replace Var_`v' = 0 if missing(Var_`v')
}
*/
save sample2, replace

//       加红部分的循环尚有待想出办法来进一步优化

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

voodoo

2013-5-2 11:38:15

复制代码

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

jonathanjp

2013-5-2 20:01:14

我将你的问题发在了Statalist，Nick Cox这样回复：

I don't know a sure-fire way to speed this up. It might just be faster if you -expand-ed the data to one observation for every day. Then the code would be simpler, but you would end up with several millions of observations. Or you could translate the code into Mata.

以上信息，仅供参考。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

xingxf

2013-5-2 21:05:37

voodoo 发表于 2013-5-2 11:18
// 以下程序尽管循环部分并未优化，但只需根据你的数据对数据进行清洁，并合并重复样本的信息，就可 ...

谢谢您的热心，但是不好意思，我明白您为什么想问我样本的详细信息了，您是想解决一开始数据管理的问题。但实际上，我发上来的样本已经进行了清理。您也没问我B，E，MA这三个dummy的含义，我也没细说，您就误认为这三个dummy要么为1，要么为missing value。实际上我的数据完全不能按您的方法进行清理的。

我可以把这个样本再详细描述一下。id就是公司代码，date是event date，我这个样本里B，E，MA三个dummy分别代表公司在bond issue，equity issu，和M&A时是否聘请top-tier investment bank作为financial advisor。如果聘请top-tier bank，则该dummy设置为1，否则为零。因此，这就是为什么B，E，MA三个dummy会有三种取值1，0，missing value。举例来说，如果一个公司在一个时间点做了一个deal为M&A，并且聘请了top-tier bank，那么B和E就应该为missing value，而MA应为1；如果没有聘请top-tier bank，那么B和E均为missing value，而MA为0。我的问题的含义，就是说在某个deal发生的五年前，该公司聘请top-tier bank做过多少起bond issue，多少起equity issue和多少起M&A。所以，在这个逻辑的基础上，我上传的数据已经是经过清理的最简化数据。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

xingxf

2013-5-2 21:20:20

jonathanjp 发表于 2013-5-2 20:01
我将你的问题发在了Statalist，Nick Cox这样回复：

I don't know a sure-fire way to speed this up. It ...

谢谢您的热心帮助，Statalist需要subscribe是吧，我自己也去subscribe一个。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

xingxf

2013-5-2 21:26:15

jonathanjp 发表于 2013-5-2 20:01
我将你的问题发在了Statalist，Nick Cox这样回复：

I don't know a sure-fire way to speed this up. It ...

Nick的办法还是有启发的

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

voodoo

2013-5-2 21:51:50

xingxf 发表于 2013-5-2 21:05
谢谢您的热心，但是不好意思，我明白您为什么想问我样本的详细信息了，您是想解决一开始数据管理的问题。 ...

那就从原程序中剔除#1步骤（仅保留save sample2, replace）。还是采用“分而治之”的方法，但将NSMPL设为60。
我相信最终程序运行时间应该可以在700秒左右（303*2）。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

xingxf

2013-5-2 22:34:35

voodoo 发表于 2013-5-2 21:51
那就从原程序中剔除#1步骤（仅保留save sample2, replace）。还是采用“分而治之”的方法，但将NSMPL设为 ...

您这个“分而治之”的方法还是挺可行的，但是就是程需要写得比较复杂。
我准备按照Dr Nick Cox的建议试一试，按那个思路可以不用循环。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

voodoo

2013-5-2 22:41:50

xingxf 发表于 2013-5-2 22:34
您这个“分而治之”的方法还是挺可行的，但是就是程需要写得比较复杂。
我准备按照Dr Nick Cox的建议试一 ...

几乎是不可行的。你现在的sample.dta大小为11M，扩展后内存都装不下你数据！Nick Cox也提醒“Then the code would be simpler, but you would end up with several millions of observations”——我觉得恐怕不是millions，而是tens of million（>>530000*20）！
此外，code会变simpler吗？我没想到简单的思路。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

xingxf

2013-5-2 23:00:11

voodoo 发表于 2013-5-2 22:41
几乎是不可行的。你现在的sample.dta大小为11M，扩展后内存都装不下你数据！Nick Cox也提醒“Then the co ...

stata12内存没问题，我32G内存应该跑的下。我经常处理几个G的数据，比如几千万行obs，没有问题的。
按照Nick的思路，在扩展之前，先要bys id date: egen E_sum=sum(E)，然后duplicates drop，后面就可以把数据扩展为每日，然后设置xtset，利用tssmooth ma求移动平均值，得到结果再乘以5年的天数。
目前我是这个思路。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

voodoo

2013-5-2 23:19:02

xingxf 发表于 2013-5-2 23:00
stata12内存没问题，我32G内存应该跑的下。我经常处理几个G的数据，比如几千万行obs，没有问题的。
按照 ...

嗯。典型的“以空间换时间”的处理思路。
记得告诉大家你的结果。:-)

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

jonathanjp

2013-5-3 00:16:08

xingxf 发表于 2013-5-2 21:26
Nick的办法还是有启发的

Another tip from Michael Barker (Statalist)

-----------------------------------------------------------------

It looks like you are comparing each observation to every other observation in your data set. If your data are sorted, you only have to look back within each 5-year window for each id. If your data are sorted descending by date, the code would look like this:

gen temp = flag
local N = _N
forvalues i = 1(1)`N' {
local j=`i'+1
while (id[`i']==id[`j'] & (date[`i'] - date[`j'])/365.25 <= 5) {
replace temp = temp[`i'] + temp[`j'] in `i'
local j = `j'+1
}
}

If your data were sorted ascending by date, you would just iterate j
downwards (j = i-1, j=j-1) and start the "forvalues" loop at 2
(forvalues 2(1)`N' {)

-----------------------------------------------------------------
上面程序中的flag相当于你源数据中的B，temp为你要生成的变量。你可以在这里查看完整的回复
http://www.stata.com/statalist/archive/2013-05/msg00087.html

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

xingxf

2013-5-3 01:45:10

voodoo 发表于 2013-5-2 23:19
嗯。典型的“以空间换时间”的处理思路。
记得告诉大家你的结果。:-)

我试了，如果样本小一些没问题，我这个样本按照我自己的那个算法obs要超过1亿了，32G内存全部吃满。不可行啊。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

xingxf

2013-5-3 02:31:56

voodoo 发表于 2013-5-2 23:19
嗯。典型的“以空间换时间”的处理思路。
记得告诉大家你的结果。:-)

如果不用循环，下面的代码可行，但是要注意样本过大会超出内存容量。
bys id Date: egen total_B=total(B)
bys id Date: egen total_E=total(E)
bys id Date: egen total_MA=total(MA)
duplicates drop id Date, force
egen ID=group(id)
xtset ID Date
tsfill, full
gen sum_B=sum(total_B)
gen freq_B=l.sum_B-l1827.sum_B
gen sum_E=sum(total_E)
gen freq_E=l.sum_E-l1827.sum_E
gen sum_MA=sum(total_MA)
gen freq_MA=l.sum_MA-l1827.sum_MA

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

xingxf

2013-5-3 04:55:03

jonathanjp 发表于 2013-5-3 00:16
Another tip from Michael Barker (Statalist)

--------------------------------------------------- ...

这个程序我试了下，速度也慢，另外，我试了下，好像结果也不太对。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

voodoo

2013-5-3 09:43:04

xingxf 发表于 2013-5-3 02:31
如果不用循环，下面的代码可行，但是要注意样本过大会超出内存容量。
bys id Date: egen total_B=total( ...

假如数据量较小的话（先“分而治之”？），这段程序可行。但tsfill也极为耗费时间，在我的电脑上保留前10000个样本，不用tsfill的full选项，程序运行总耗时11秒。那500000个样本，也要550秒。不见得比我15楼提出的程序节约多少时间。:-)

复制代码

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

voodoo

2013-5-3 10:13:02

jonathanjp 发表于 2013-5-3 00:16
Another tip from Michael Barker (Statalist)

--------------------------------------------------- ...

对于这方法，且不论其对错，第一感觉是：自己编写while ... {...}循环来完成summarize temp if (id==id[`i'] & inrange(date[`i'] - date), 1, 1826))，其执行效率应该不会比C语言（？）写的built-in command: summarize的执行效率来得高。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

最佳答案

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群