技术上是可行的,我查了一下CHIP 2002的codebook,以这一年为例。
可以对比看一下。
至于为什么要将其归为两类,还需要视你的研究而定。重新编码后,回归后的系数、标准差、残差都会改变。因为回归计算是以矩阵为基础的,你可以将数据集视作n*K的矩阵,当重新编码后,元素会发生改变。需要慎重,不过按照我的理解,改变了之后在解释的时候也会有所不同,所以关系不大,关键看你哪种解释起来比较方便。比如,如果你希望详细分析每种婚姻状态对因变量的影响,最好使用原来的编码,如果这只是一个简单的控制变量,那么换成二元变量方便解释也是可以的。以上是我现在的认知,欢迎继续讨论哈~
同时附上我当时的笔记方便理解,内容是Two-way error component - Fixed Effect Model的计算过程。也就是说当改变了X之后,β会发生改变,接着残差会改变。【这是一个Panel data的计算方式,所以Uit=Ui+λt+Vit。理解为误差项即可)