我搜集的数据中,在7年的时间期中,遇到一些企业提前死亡,以及有后成立的一些企业后加入的情况,按照书上的界定属于非平衡面板数据。关于
非平衡面板数据在处理前的数据格式问题,有几个问题想确认一下,以下面这张表为例:
company | year | spircons | beertax | fatal |
1 | 1982 | 1.37 | 1.539379 | 2.12836 |
1 | 1983 | 1.36 | 1.788991 | 2.34848 |
1 | 1984 | 1.32 | 1.714286 | 2.33643 |
1 | 1985 | | | 2.19348 |
1 | 1986 | 1.23 | 1.609907 | 2.66914 |
1 | 1987 | 1.18 | 1.56 | 2.71859 |
1 | 1988 | 1.17 | 1.501444 | 2.49391 |
2 | 1982 | 1.97 | 0.214797 | 2.49914 |
2 | 1983 | 1.9 | 0.206422 | 2.26738 |
2 | 1984 | 2.14 | 0.296703 | 2.82878 |
2 | 1985 | 1.86 | 0.381356 | 2.80201 |
2 | 1986 | 1.78 | 0.371517 | 3.07106 |
2 | 1987 | 1.72 | 0.36 | 2.76728 |
2 | 1988 | | | |
3 | 1982 | | | |
3 | 1983 | | | |
3 | 1984 | 1.22 | 0.598901 | 2.23785 |
3 | 1985 | 1.12 | 0.577331 | 2.26367 |
3 | 1986 | 0.92 | 0.562436 | 2.54323 |
3 | 1987 | 1.01 | 0.545 | 2.67588 |
3 | 1988 | 0.99 | 0.524543 | 2.54697 |
其中第2家企业,在88年就消失了,属于提前死亡的样本。以及第3家企业属于新生企业,82,83年还没成立。请问,是否要在数据集里面把这2家企业缺失的年份也标出来,后面是一片空白,以保证每家企业都是同样的7年数据期,还是不需要标示出来,这两家企业只留有数据的样本期,stata也能自动识别?
而对于企业1 1985年,是缺其中spircons beertax ,但不缺fatal 数据,因此企业1 1985年这个样本就不属于非平衡面板数据样本吧? 只能删除,不能保持在样本集吧