总结:
ARMA model: x~ARMA(p,q)+e, where e is a white noise
GARCH model: x~c+e, where c is a constant, e^2 follows a GARCH(p,q) process
ARMA-GARCH model: x~ARMA(p,q)+e, where e^2 follows a GARCH(m,n) process
arma 和arma garch的假设就不一样,所以你写出的likelihood function就不同,当然均值部分的估计结果会不一样。严格来说先做arma在对残差做garch的方法是错误的。但是因为两部分一起估计的过程中,MLE的难度比较大需要用一些复杂的非线性的优化方法,所以对于不太严谨的研究允许你这样分开来估计。