现有如下形式的数据
ID | householdID | mainr | income1 | income2 | income3 | income4 |
1405122402 | 14051224 | 1 | 1 | 0 | 0 | 0 |
1405122401 | 14051224 | 0 | 1 | 0 | 0 | 0 |
1405131002 | 14051310 | 1 | 1 | 0 | 0 | 0 |
1405131001 | 14051310 | 0 | 0 | 1 | 0 | 0 |
1405131102 | 14051311 | 1 | 0 | 0 | 1 | 0 |
1405131101 | 14051311 | 0 | 0 | 0 | 1 | 0 |
1405131902 | 14051319 | 1 | 0 | 1 | 0 | 0 |
1405131901 | 14051319 | 0 | 0 | 0 | 0 | 1 |
1464311101 | 14643111 | 1 | 0 | 1 | 0 | 0 |
1464311102 | 14643111 | 0 | 0 | 0 | 0 | 1 |
1403130601 | 14031306 | 1 | 0 | 1 | 0 | 0 |
1403130602 | 14031306 | 0 | 1 | 0 | 0 | 0 |
1403130901 | 14031309 | 1 | 0 | 0 | 1 | 0 |
1403130902 | 14031309 | 0 | 0 | 0 | 0 | 1 |
1403131001 | 14031310 | 1 | 0 | 0 | 0 | 1 |
1403131002 | 14031310 | 0 | 0 | 0 | 1 | 0 |
1405110301 | 14051103 | 1 | 0 | 1 | 0 | 0 |
1405110302 | 14051103 | 0 | 1 | 0 | 0 | 0 |
1405110602 | 14051106 | 1 | 0 | 0 | 1 | 0 |
1405110601 | 14051106 | 0 | 0 | 1 | 0 | 0 |
1405110702 | 14051107 | 1 | 0 | 0 | 0 | 1 |
1405110701 | 14051107 | 0 | 0 | 1 | 0 | 0 |
其中,mainr=1表示为户主,=0表示为配偶,均在同一HouseholdID下。income1-4表示是否取得四种不同类型的收入。
1表示取得,0表示未取得。
问题如下:
1写出当户主取得各项收入时配偶取得各类收入的比例,即户主取得收入1时,配偶取得取得收入1-4的比例各自为多少,需要写出具体的code,以此类推,最好能画出相应柱状图(横轴为户主的1-4中收入形式,柱图则为户主取得相应收入下配偶取得各种收入的比例),不知道能否画出。
2是关于这一类分组下数据处理的问题。比如在上表中同一家庭ID下有两个观测值的情况,我想将户主的变量信息直接赋予配偶,比如当户主income1=1时,使得配偶的income1也为1。还有,如果我想直接保存户主或者配偶中至少有1个人取得过income1的收入的那部分数据应该怎么做?如果要保存户主或配偶中个人收入较高的那个作为唯一的观测值该怎么做?(即删掉二者中个人收入较低的那个观测值,假设个人收入变量为pincome)。
问题有点多,主要是对这种结构的变量处理方式一直不懂,还望有人能耐心解答,最好还能提供相应参考资料或者相关命令供我下去研究。