在正式分类中“随机效应模型”指的是模型中只有随机效应,无固定效应;混合模型指的是模型中同时有随机效应和固定效应。这里所说的“随机效应模型”和“混合模型”统称为“随机效应模型”。
首先看这个线性模型 y=a+bx+u,a为截距,b为回归系数,x为自变量,u为随机误差。这个模型中参数有a,b,u,3个参数中只有一个随机变量u,a,b是固定值。假设y为学生成绩,x为学生家庭背景,则u衡量的是每个具体学生和均值的成绩差异。
假设学校是从一个大的总体(比如一个省或者地区)中随机选取几个抽出来的。不同学校之间有差别,也就是每个学校的学生平均成绩是不同的,重点学校的学生基础好,所以整体水平高,差的学校学生整体水平不高。这个时候模型要修改为这样:y=a+uj+bx+u,a表示所有学校的平均成绩,uj表示每个具体的学校和所有学校平均成绩的差,好的学校这个差值为正,差的学校这个差值为负值。如果我们要研究所有学校的情况,那么uj要看成是随机变量,因为每次抽样,这个uj都是变化的。如果我们只研究抽出来的这几所学校,uj就是固定值。
y=a+uj+bx+u中uj看成是随机变量就是随机效应模型(因为模型中出现了随机效应),否则就是固定效应模型(因为模型中无随机效应)。
另外,y=a+bx+u模型中,如果假设a和b都是固定值,不随机,这个模型也是固定效应模型。我们平常见到的“经典线性回归”模型就是固定效应模型。
模型 y=a+bx+u 中参数有a和b,这两个参数我们一般认为是固定值,如果这两个参数中至少一个不固定,是随机变量,则模型就从固定效应模型变成了随机效应模型。对于所有学校来说如果a和b都一样,那么a和b就是固定值,如果每个学校的a或/和b都不同,那么a或/和b就是随机变量,它们的具体值随着学校而变化,模型就成了随机效应模型。
如果你还是觉得晕,不会辨别,那可以看模型中所有未知参数除了随机误差这个随机变量外,是否还有其它的未知参数是随机变量,如果有,则模型是随机效应模型,否则就是固定效应模型。这种判别方法对于你理解和使用混合模型没有一点帮助,只是机械化无脑的帮你判别什么是混合模型而已。
在随机效应模型中要把随机参数的方差或者随机参数间的协方差估计出来。
广义线性混合模型(包含线性混合模型)和广义线性模型(包含经典线性回归模型)建模的时候如何选?如果想对总体效应进行建模,很显然必须是广义线性混合模型,比如样本数据只包含了某几个学校,而我们想知道所有学校的效应,只能通过广义线性混合模型来建模,固定效应模型是不可能得到所有学校效应的。另外,广义线性模型的建模对象是独立响应变量,而相关响应变量可以使用广义线性混合模型建模,不能使用广义线性模型建模。比如,不同学校不同班级学生的成绩,一般我们会认为同一所学校的学生成绩之间存在相关性,同时同一个班级的学生也会存在相关性,也就是学生成绩响应变量并不是独立变量,而是相关变量。这种情况建模怎么处理?有两种处理方法。1,将学校和班级看成有无限个,学校和班级效应当成随机效应对待,y就是相关的。2,将学校和班级看成是有限的,把它们当成固定效应。这个时候模型其实是学校班级不同水平组合下的一个综合模型。为了简单,假设有A,B学校,每个学校有1,2班级,模型其实就是A1,A2,B1,B2四个不同小模型的综合模型。每个小模型你可以认为是分别对四个不同班级分别建立回归模型,每个模型中的学生成绩y就是独立的(假设误差项不相关)。本来相关,限制到具体某个班级后,相关变为不相关,这点理解起来确实有些费劲,这就是条件独立。
为了帮助大家理解条件独立,举个例子。男女混合一起,你去猜女生身高会发现你猜的女生身高在一个范围内,男生身高在一个范围内,整体来看你只要知道了女生身高就能预测女生身高(相关)。如果把男女分开,当你知道了某个女生身高后还是像男女混合在一起那样去预测女生身高,你会发现这时候你是在瞎猜(女生身高不相关)。
真正理解了混合模型思想后,你就会发现计量经济学中介绍的“豪斯曼检验”就有点莫名其妙。效应是固定还是随机完全由项目的真实情况和所研究目的而确定,怎么可能由“豪斯曼检验”而决定呢?比如,要研究所有学校的效应,而数据是从所有学校随机抽样而来,数据中只有抽样到的部分学校,模型必然是随机效应模型,不可能是固定效应模型。随机效应模型建立后我们可以检验学校随机效应的方差,如果方差为零,则表示学校间无差异,则可以把原模型中的随机效应去掉,模型变为不包含学校随机效应的固定效应模型(假设原模型只有学校这个随机效应)。
为什么要精通“广义线性混合模型”?因为它包含了几乎我们能见到的所有线性模型(此处把潜变量“结构方程模型”除外)。经典线性模型、方差分析的一般线性模型、Logistic模型、有序回归模型、泊松分布模型等被“广义线性模型”统一。广义线性模型、多因变量线性模型、多因变量方差分析线性模型、广义估计方程、生存分析模型等被广义线性混合模型统一。面板数据、重复测量数据、纵向数据之类的相关数据分析方法自然就属于“广义线性混合模型”的范围。
在“广义线性混合模型”框架下,一切变得豁然开朗,简单至极。如果掌握了“广义线性混合模型”,则就不必要再去关注什么随机截距、随机系数、方差模型、面板模型之类的东西,因为根本没有必要。兵来将挡,水来土掩,一切将会变得简单而自然。
社会科学中将“广义线性混合模型”叫作“多水平(Multilevel)/分层模型”,这是有历史原因的,因为该方法雏形初期被不同学科人员使用,在社会科学中被叫做“多水平模型”,而在统计学家这边被叫做“广义线性混合模型”。其实它们就是同一个东西。个人更喜欢“广义线性混合模型”这个名称,因为“多水平”会有多种解释,容易被误解。