12 The MM Algorithm 189
12.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . 189
12.2 Philosophy of the MM Algorithm . . . . . . . . . . . . . . . 189
12.3 Majorization and Minorization . . . . . . . . . . . . . . . . 191
12.4 Linear Regression . . . . . . . . . . . . . . . . . . . . . . . 193
12.5 Elliptically Symmetric Densities and `p Regression . . . . . 194
12.6 Bradley-Terry Model of Ranking . . . . . . . . . . . . . . . 196
12.7 A Random Graph Model . . . . . . . . . . . . . . . . . . . . 196
12.8 Linear Logistic Regression . . . . . . . . . . . . . . . . . . . 198
12.9 Unconstrained Geometric Programming . . . . . . . . . . . 199
12.10Poisson Processes . . . . . . . . . . . . . . . . . . . . . . . 200
12.11Transmission Tomography . . . . . . . . . . . . . . . . . . 202
12.12Problems . . . . . . . . . . . . . . . . . . . . . . . . . . . . 205
12.13References . . . . . . . . . . . . . . . . . . . . . . . . . . . . 218
13 The EM Algorithm 223
13.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . 223
13.2 General Definition of the EM Algorithm . . . . . . . . . . . 224
13.3 Ascent Property of the EM Algorithm . . . . . . . . . . . . 224
13.3.1 Technical Note . . . . . . . . . . . . . . . . . . . . . 226
13.4 Missing Data in the Ordinary Sense . . . . . . . . . . . . . 227
13.5 Bayesian EM . . . . . . . . . . . . . . . . . . . . . . . . . . 228
xvi Contents
13.6 Allele Frequency Estimation . . . . . . . . . . . . . . . . . . 229
13.7 Clustering by EM . . . . . . . . . . . . . . . . . . . . . . . . 231
13.8 Transmission Tomography . . . . . . . . . . . . . . . . . . . 233
13.9 Factor Analysis . . . . . . . . . . . . . . . . . . . . . . . . 235
13.10Problems . . . . . . . . . . . . . . . . . . . . . . . . . . . . 238
13.11References . . . . . . . . . . . . . . . . . . . . . . . . . . . . 246
14 Newton’s Method and Scoring 249
14.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . 249
14.2 Newton’s Method and Root Finding . . . . . . . . . . . . . 249
14.3 Newton’s Method and Optimization . . . . . . . . . . . . . 250
14.4 Ad Hoc Approximations of Hessians . . . . . . . . . . . . . 251
14.5 Scoring and Exponential Families . . . . . . . . . . . . . . . 254
14.6 The Gauss-Newton Algorithm . . . . . . . . . . . . . . . . . 256
14.7 Generalized Linear Models . . . . . . . . . . . . . . . . . . 257
14.8 MM Gradient Algorithm . . . . . . . . . . . . . . . . . . . 258
14.9 Quasi-Newton Methods . . . . . . . . . . . . . . . . . . . . 260
14.10Accelerated MM . . . . . . . . . . . . . . . . . . . . . . . . 262
14.11Problems . . . . . . . . . . . . . . . . . . . . . . . . . . . . 265
14.12References . . . . . . . . . . . . . . . . . . . . . . . . . . . . 274
15 Local and Global Convergence 277
15.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . 277
15.2 Calculus Preliminaries . . . . . . . . . . . . . . . . . . . . . 277
15.3 Local Rates of Convergence . . . . . . . . . . . . . . . . . . 279
15.4 Global Convergence of the MM Algorithm . . . . . . . . . . 283
15.5 Global Convergence of Block Relaxation . . . . . . . . . . . 286
15.6 Global Convergence of Gradient Algorithms . . . . . . . . 286
15.7 Problems . . . . . . . . . . . . . . . . . . . . . . . . . . . . 289
15.8 References . . . . . . . . . . . . . . . . . . . . . . . . . . . . 295
16 Advanced Optimization Topics 297
16.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . 297
16.2 Barrier and Penalty Methods . . . . . . . . . . . . . . . . . 298
16.3 Adaptive Barrier Methods . . . . . . . . . . . . . . . . . . . 301
16.4 Dykstra’s Algorithm . . . . . . . . . . . . . . . . . . . . . . 305
16.5 Model Selection and the Lasso . . . . . . . . . . . . . . . . 310
16.5.1 Application to `1 Regression . . . . . . . . . . . . . 313
16.5.2 Application to `2 Regression . . . . . . . . . . . . . 314
16.5.3 Application to Generalized Linear Models . . . . . . 316
16.5.4 Application to Discriminant Analysis . . . . . . . . . 316
16.6 Standard Errors . . . . . . . . . . . . . . . . . . . . . . . . . 317
16.6.1 Standard Errors and the MM Algorithm . . . . . . 317
16.6.2 Standard Errors under Linear Constraints . . . . . . 318
16.7 Problems . . . . . . . . . . . . . . . . . . . . . . . . . . . . 319
Contents xvii
16.8 References . . . . . . . . . . . . . . . . . . . . . . . . . . . . 328
17 Concrete Hilbert Spaces 333
17.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . 333
17.2 Definitions and Basic Properties . . . . . . . . . . . . . . . 333
17.3 Fourier Series . . . . . . . . . . . . . . . . . . . . . . . . . . 337
17.4 Orthogonal Polynomials . . . . . . . . . . . . . . . . . . . . 340
17.5 Reproducing Kernel Hilbert Spaces . . . . . . . . . . . . . . 347
17.6 Application to Spline Estimation . . . . . . . . . . . . . . . 354
17.7 Problems . . . . . . . . . . . . . . . . . . . . . . . . . . . . 356
17.8 References . . . . . . . . . . . . . . . . . . . . . . . . . . . . 361
18 Quadrature Methods 363
18.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . 363
18.2 Euler-Maclaurin Sum Formula . . . . . . . . . . . . . . . . 363
18.3 Romberg’s Algorithm . . . . . . . . . . . . . . . . . . . . . 366
18.4 Adaptive Quadrature . . . . . . . . . . . . . . . . . . . . . . 369
18.5 Taming Bad Integrands . . . . . . . . . . . . . . . . . . . . 369
18.6 Gaussian Quadrature . . . . . . . . . . . . . . . . . . . . . . 370
18.7 Problems . . . . . . . . . . . . . . . . . . . . . . . . . . . . 374
18.8 References . . . . . . . . . . . . . . . . . . . . . . . . . . . . 376
19 The Fourier Transform 379
19.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . 379
19.2 Basic Properties . . . . . . . . . . . . . . . . . . . . . . . . 379
19.3 Examples . . . . . . . . . . . . . . . . . . . . . . . . . . . . 381
19.4 Further Theory . . . . . . . . . . . . . . . . . . . . . . . . . 383
19.5 Edgeworth Expansions . . . . . . . . . . . . . . . . . . . . 387
19.6 Problems . . . . . . . . . . . . . . . . . . . . . . . . . . . . 391
19.7 References . . . . . . . . . . . . . . . . . . . . . . . . . . . . 393
20 The Finite Fourier Transform 395
20.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . 395
20.2 Basic Properties . . . . . . . . . . . . . . . . . . . . . . . . 395
20.3 Derivation of the Fast Fourier Transform . . . . . . . . . . . 397
20.4 Approximation of Fourier Series Coefficients . . . . . . . . . 398
20.5 Convolution . . . . . . . . . . . . . . . . . . . . . . . . . . . 402
20.6 Time Series . . . . . . . . . . . . . . . . . . . . . . . . . . . 405
20.7 Problems . . . . . . . . . . . . . . . . . . . . . . . . . . . . 407
20.8 References . . . . . . . . . . . . . . . . . . . . . . . . . . . . 411
21 Wavelets 413
21.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . 413
21.2 Haar’s Wavelets . . . . . . . . . . . . . . . . . . . . . . . . . 413
21.3 Histogram Estimators . . . . . . . . . . . . . . . . . . . . . 415
xviii Contents
21.4 Daubechies’ Wavelets . . . . . . . . . . . . . . . . . . . . . . 416
21.5 Multiresolution Analysis . . . . . . . . . . . . . . . . . . . . 423
21.6 Image Compression and the Fast Wavelet Transform . . . . 424
21.7 Problems . . . . . . . . . . . . . . . . . . . . . . . . . . . . 426
21.8 References . . . . . . . . . . . . . . . . . . . . . . . . . . . . 429
22 Generating Random Deviates 431
22.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . 431
22.2 Portable Random Number Generators . . . . . . . . . . . . 431
22.3 The Inverse Method . . . . . . . . . . . . . . . . . . . . . . 432
22.4 Normal Random Deviates . . . . . . . . . . . . . . . . . . . 434
22.5 Acceptance-Rejection Method . . . . . . . . . . . . . . . . . 435
22.6 Adaptive Acceptance-Rejection Sampling . . . . . . . . . . 440
22.7 Ratio Method . . . . . . . . . . . . . . . . . . . . . . . . . . 442
22.8 Deviates by Definition . . . . . . . . . . . . . . . . . . . . . 443
22.9 Multivariate Deviates . . . . . . . . . . . . . . . . . . . . . 446
22.10Sequential Sampling . . . . . . . . . . . . . . . . . . . . . . 449
22.11Problems . . . . . . . . . . . . . . . . . . . . . . . . . . . . 450
22.12References . . . . . . . . . . . . . . . . . . . . . . . . . . . . 456
23 Independent Monte Carlo 459
23.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . 459
23.2 Importance Sampling . . . . . . . . . . . . . . . . . . . . . . 460
23.3 Stratified Sampling . . . . . . . . . . . . . . . . . . . . . . . 463
23.4 Antithetic Variates . . . . . . . . . . . . . . . . . . . . . . . 464
23.5 Control Variates . . . . . . . . . . . . . . . . . . . . . . . . 465
23.6 Rao-Blackwellization . . . . . . . . . . . . . . . . . . . . . . 466
23.7 Sequential Importance Sampling . . . . . . . . . . . . . . . 468
23.8 Problems . . . . . . . . . . . . . . . . . . . . . . . . . . . . 472
23.9 References . . . . . . . . . . . . . . . . . . . . . . . . . . . . 476