我个人使用的是2019年ind数据库,使用这个命令:egen family_size=count(hhid),by(hhid)没有使用以下方法计算家庭规模的原因:
1、没有使用pline或者pline_order
例如hhid为2013000129的家庭,家庭规模是5个人,家庭成员的pline的值分别是1、2、31、32、33,pline_order的值分别是1、2、21、22、23,如果使用egen family_size=max(pline)这个命令,会得到结果33,如果使用egen family_size=max(pline_order)这个命令,会得到结果23,但是实际家庭规模是5(因为2013000129出现次数为5次),命令结果与实际结果有出入;
2、hh家庭库里面也有家庭规模
hh库中有两个问项:a2000 家庭成员数量(新访),a1111 新增家庭成员数量,但是变量中存在缺失值,如果将二者相加可以得到家庭规模,但是家庭规模也会存在缺失值。
综上,不管是从逻辑角度还是缺失值角度,用count计算hhid出现次数来计算家庭规模最好。