数据结构大致如下。其中Num的数值表示具有相同id的观测值数量。比如,有4个id是7,2个id是21。
id Num Y X1 X2 X3
- 7 4 …… …… …… ……
- 7 4…… …… …… ……
- 7 4 …… …… …… ……
- 7 4 …… …… …… ……
- 21 2…… …… …… ……
- 21 2…… …… …… ……
- 39 3…… …… …… ……
- 39 3…… …… …… ……
- 39 3 …… …… …… ……
- 45 1…… …… …… ……
- 53 2… …… …… ……
- 53 2… …… …… ……
- ………………
现在想把这个大数据按照id分割,具体两个要求。1)让每个id有自己的一个单独数据。2)实现文件名的格式按顺序排列如下:id1.dta (id全是7的), id2.dta(id全是21的),id3.dta(id全是39)……。由于原始数据非常大,观测值有几十万,因此要编程来完成这个过程。不知哪位高手能指点一下。
(我自己用循环语句只能做到id数值直接来命名,结果既生成了id7.dta id21.dta, id39.dta,又生产了中间类似id8 id9之类的空数据库。这些空数据库使得下一步我用循环语句对每个数据做xpose时候有missing值,程序无法循环下去)