求助:如何使用STATA中倒求分组变量信息?
有一组家庭收入的数据,这些家庭来自5个不同的地区,但是地区变量region信息从原始数据中被删去了。如何用已知的
region平均数倒求每个家庭所在的region变量的信息?
已知信息:
(1)每个家庭的收入(income),共2000个样本。
(2)社区信息(community),每个社区调查了5个家庭。不清楚某个社区处于哪个地区(region)。
(3)由于删除了每个家庭所在的地区变量信息(region),但是另外提供了地区的平均数。这些调查样本来自5个不同的地区,这5个地区家庭的平均收入如下:
| region 1 | avginc |
| 1 | 754 |
| 2 | 537 |
| 3 | 4324 |
| 4 | 443 |
| 5 | 343 |
| 6 | 965 |
以下是原始数据的结构:
| sn | community | income | region |
| 1 | 1 | 1233 | ? |
| 2 | 2 | 346 | ? |
| 3 | 3 | 2323 | ? |
| 4 | 4 | 4376 | ? |
| 5 | 5 | 3353 | ? |
| 6 | 1 | 2324 | ? |
| 7 | 2 | 8978 | ? |
| 8 | 3 | 786 | ? |
| 9 | 4 | 898 | ? |
| 10 | 5 | 343 | ? |
| … |
| ? |
| … | 1 | 4545 | ? |
| … | 2 | 34333 | ? |
| … | 3 | 4657 | ? |
| … | 4 | 124 | ? |
| 2000 | 5 | 4564 | ? |
我尝试着使用以下思路,但是没有成功:
1、先使用已知的每个家庭的收入,求
社区的平均数(共400个社区);
2、然后运用迭代法使用社区平均数的信息,计算任意组合的社区的平均数,如果迭代中某一组的平均数刚好等于已知的
region平均数,迭代停止,导出观察点(NO)信息进行核对。
请求达人赐教。