作者介绍:
Zoubin Ghahramani,宾大的本科,MIT的PhD,博士导师是Michael Jordan,postdoc师从Geoffery Hinton,现在在剑桥任教。
研究方向主要涉及Bayesian Statisitcs。
这是一篇关于unsupervised learning的介绍论文。
1 Introduction 3
1.1 What is unsupervised learning? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2 Machine learning, statistics, and information theory . . . . . . . . . . . . . . . . . . . . . . . 4
1.3 Bayes rule . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2 Latent variable models 6
2.1 Factor analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.2 Principal components analysis (PCA) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.3 Independent components analysis (ICA) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.4 Mixture of Gaussians . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.5 K-means . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
3 The EM algorithm 8
4 Modelling time series and other structured data 9
4.1 State-space models (SSMs) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
4.2 Hidden Markov models (HMMs) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
4.3 Modelling other structured data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
5 Nonlinear, Factorial, and Hierarchical Models 11
6 Intractability 12
7 Graphical models 13
7.1 Undirected graphs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
7.2 Factor graphs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
7.3 Directed graphs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
7.4 Expressive power . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
8 Exact inference in graphs 15
8.1 Elimination . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
8.2 Belief propagation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
8.3 Factor graph propagation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
8.4 Junction tree algorithm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
8.5 Cutest conditioning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
9 Learning in graphical models 19
9.1 Learning graph parameters . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
9.1.1 The complete data case. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
9.1.2 The incomplete data case. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
9.2 Learning graph structure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
9.2.1 Scoring metrics. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
9.2.2 Search algorithms. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
10 Bayesian model comparison and Occam’s Razor 21
11 Approximating posteriors and marginal likelihoods 22
11.1 Laplace approximation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
11.2 The Bayesian information criterion (BIC) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
11.3 Markov chain Monte Carlo (MCMC) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
11.4 Variational approximations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
11.5 Expectation propagation (EP) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
12 Conclusion 27
2