stata中交叉项

39486

收藏 2015-07-20

根据坛内的经验来说，stata做交叉项时应该先生成新变量再带入模型中，例如：

做x,y的交差项：gen xy=x*y.  然后再做回归（例如：reg/glm/logistic z x y xy）。

但是我发现x#y可以不用生成新变量就能用，以对数线性回归（glm）为例：

1、命令：
gen iner=row*colu
glm freq i.row i.colu iner, family(poisson)

以下是生成新变量的部分结果：

Generalized linear models                         No. of obs    =       9
Optimization    : ML                               Residual df    =       3
                                                         Scale parameter =       1
Deviance       = 103.613914                   (1/df) Deviance =  34.53797
Pearson       =  129.5374276                   (1/df) Pearson  =  43.17914

Variance function: V(u) = u                      [Poisson]
Link function : g(u) = ln(u)                   [Log]

                                                               AIC  =  20.46444
Log likelihood =  -86.0899988                   BIC =  97.02224

2、命令：

glm freq i.row i.colu i.row#i.colu, family(poisson)
以下是部分结果：

Generalized linear models                         No. of obs    =       9
Optimization    : ML                               Residual df    =       0
                                                         Scale parameter =       1
Deviance       =  4.52284e-13                   (1/df) Deviance =       .
Pearson       =  1.30799e-14                   (1/df) Pearson  =       .

Variance function: V(u) = u                      [Poisson]
Link function : g(u) = ln(u)                   [Log]

                                                                  AIC =  9.618454
Log likelihood =  -34.2830418                   BIC =  4.52e-13

从结果上来看，好像第二种优于第一种（第二种貌似接近饱和模型了(╯‵□′)╯︵┻━┻），但是两种有什么差别，各自分别是什么呢？
还请大神赐教~~~

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

gouxianj

2015-7-20 03:36:38

帮楼主顶一下！
他表示，下一步，市经信委将会同市发改委修订新的禁限目录，按照“只紧不松”的原则，并完善现有条目、增补新条目、扩大条目禁限范围、调整条目适用功能区。同时，市经信委还将结合国际大都市产业发展演进规律、各产业自身发展特征及国家、北京实际发展需求，进一步调查梳理存量工业企业用地、用人、产品形态、科技含量及经营效益等情况，深入研究分析，细化产业升级转移方案。nnkp.jimdo.com,wxkp.jimdo.com,jlkp.jimdo.com,wlmqdkpa.jimdo.com,hangzhoukp.jimdo.com,chongqingkp.weebly.com,shenzhenkkp.weebly.com,tianjingkp.weebly.com

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

lwy383710761

2015-7-20 07:07:04

row*colu和i.row#i.colu不一样前者把两个变量当成连续变量处理，乘起来之后只有一个变量了，后者把row和colu都拆成每个类别的dummy，然后相乘，会出现好多个变量，所以第一个模型自由度多一些

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

宿命A

2015-7-20 10:49:08

lwy383710761 发表于 2015-7-20 07:07
row*colu和i.row#i.colu不一样前者把两个变量当成连续变量处理，乘起来之后只有一个变量了，后者把row和co ...

那请问哪一个更好呢？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

宿命A

2015-7-20 10:49:50

gouxianj 发表于 2015-7-20 03:36
帮楼主顶一下！
他表示，下一步，市经信委将会同市发改委修订新的禁限目录，按照“只紧不松”的原则，并完 ...

谢谢啊~~

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

lwy383710761

2015-7-21 03:18:15

一般就是 x对y边际影响假设为常数的话，那就不用拆成dummy，看你具体的问题吧

还有我说的是线性情况下的，不确定你的glm和poisson会不会影响

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群