如题:
   我想以某截面数据中的“旅游花费”为因变量,对影响它的一些相关因素展开回归分析,尤其是想看农村居民和城市居民的旅游花费是否存在差异?步骤如下:
    1、首先对因变量旅游花费取对数(logg1018),因为其直方图不符合正态分布
    2、根据文献,先筛选出以下八个自变量与logg1018进行逐步回归(stepwise):收入(hh_income)、年龄(age)、性别(a2003)、家庭规模(a2000)、身体状况(f2021)、文化程度(a2012)、婚姻(a2024)、是否有工作(a3000)等,逐步回归后剔除掉了“年龄”、“家庭规模”和“婚姻”等三个变量。在此“是否有工作”我没有设定为虚拟变量,不知道对否?
    3、接下来,为了考察农村居民和城市居民的旅游花费是否存在差异(长期以来,由于农村居民的概念并没有统一的界定标准,多以户籍、居住地和职业等三个指标),我以剩下的几个有效自变量为基础,再分别引入“户籍”(a2022)(农业户口=1,非农户口=0)和“居住地”(rural)(农村=1,非农村=0)这两个虚拟变量,想从中筛选出哪个作为体现农村居民特征的变量更合适。结果发现,两个虚拟变量都显著,且“居住地为农村”对旅游花费的影响(系数为-.6807924)要大于 “户籍为农业户口”对旅游花费的影响(系数为-.2843231)。这能否说明采纳“居住地为农村”这个虚拟变量到回归方程更合适?此外,我也尝试了把这两个虚拟变量同时纳入进行逐步回归,回归结果是把“户籍”给剔除了,这能否解释为这两个虚拟变量之间存在共线性(二者相关系数为0.58),必须剔除一个?
    根据下面的三组命令及其回归结果,请大家帮我分析一下,哪一组更适合作为回归方程?
命令及结果如下:
(1)以户籍为虚拟变量:
xi: stepwise, pr(.05): reglogg1018 hh_income a2003 f2021 a2012 a3000 i.a2022 [pweight=swgt]
i.a2022           _Ia2022_0-1         (naturally coded; _Ia2022_0 omitted)
                      begin with full model
p < 0.0500            for all terms in model
Linear regression                                      Number ofobs =    3015
                                                      F(  6,  3008) =  71.97
                                                      Prob > F      =  0.0000
                                                       R-squared     = 0.2481
                                                      Root MSE      =  1.2421
------------------------------------------------------------------------------
             |               Robust
    logg1018 |      Coef.  Std. Err.      t    P>|t|    [95% Conf. Interval]
-------------+----------------------------------------------------------------
   hh_income |  1.11e-06   2.03e-07     5.47  0.000     7.12e-07    1.51e-06
       a2003 |  .1852779   .0823144     2.25  0.024     .0238797    .3466761
       f2021 | -.1573419   .0363782    -4.33  0.000    -.2286705   -.0860133
       a2012 |  .2292374   .0269954     8.49  0.000     .1763062    .2821686
       a3000 | -.3050053   .1244151    -2.45  0.014    -.5489526    -.061058
   _Ia2022_1 | -.2843231   .1031727   -2.76   0.006    -.4866193  -.0820268
       _cons|   6.945656   .2396978   28.98   0.000     6.475668   7.415644
(2)以“居住地”为虚拟变量:
xi: stepwise, pr(.05): reglogg1018 hh_income a2003 f2021 a2012 a3000 i.rural[pweight=swgt]
i.rural           _Irural_0-1         (naturally coded; _Irural_0 omitted)
                      begin with full model
p = 0.1034 >= 0.0500  removing a2003
Linear regression                                      Number ofobs =    3015
                                                      F(  5,  3009) = 114.18
                                                      Prob > F      =  0.0000
                                                      R-squared     =  0.2818
                                                      Root MSE      =  1.2137
------------------------------------------------------------------------------
             |               Robust
    logg1018 |      Coef.  Std. Err.      t    P>|t|    [95% Conf. Interval]
-------------+----------------------------------------------------------------
   hh_income |  1.08e-06   1.99e-07     5.45  0.000     6.94e-07    1.47e-06
  _Irural_1 |  -.6807924   .0819771   -8.30   0.000    -.8415293  -.5200556
        f2021 | -.1183801   .0347488    -3.41  0.001    -.1865139   -.0502464
        a2012 |   .207616   .0224547     9.25  0.000     .1635878    .2516442
        a3000 | -.2705602   .1216782    -2.22  0.026    -.5091411   -.0319793
        _cons |  7.256143   .1754385    41.36  0.000     6.912152    7.600135