全部版块 我的主页
论坛 经济学论坛 三区 经济社会统计专版
1337 5
2018-03-08
SYLLABUS
Statistical foundations of machine learning
Gianluca Bontempi
Machine Learning Group
Computer Science Department
Universite Libre de Bruxelles, ULB
Belgique
需要的自行下载,

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2018-3-8 21:07:08
Contents
Index 2
1 Introduction 1
1.1 Notations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2 Foundations of probability 11
2.1 The random model of uncertainty . . . . . . . . . . . . . . . . . . . . 11
2.1.1 Axiomatic definition of probability . . . . . . . . . . . . . . . 13
2.1.2 Symmetrical definition of probability . . . . . . . . . . . . . . 13
2.1.3 Frequentist definition of probability . . . . . . . . . . . . . . 14
2.1.4 The Law of Large Numbers . . . . . . . . . . . . . . . . . . . 14
2.1.5 Independence and conditional probability . . . . . . . . . . . 15
2.1.6 Combined experiments . . . . . . . . . . . . . . . . . . . . . . 16
2.1.7 The law of total probability and the Bayes’ theorem . . . . . 18
2.1.8 Array of joint/marginal probabilities . . . . . . . . . . . . . . 18
2.2 Random variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.3 Discrete random variables . . . . . . . . . . . . . . . . . . . . . . . . 21
2.3.1 Parametric probability function . . . . . . . . . . . . . . . . . 22
2.3.2 Expected value, variance and standard deviation of a discrete
r.v. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.3.3 Moments of a discrete r.v. . . . . . . . . . . . . . . . . . . . . 24
2.3.4 Entropy and relative entropy . . . . . . . . . . . . . . . . . . 24
2.4 Continuous random variable . . . . . . . . . . . . . . . . . . . . . . . 25
2.4.1 Mean, variance, moments of a continuous r.v. . . . . . . . . . 26
2.5 Joint probability . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.5.1 Marginal and conditional probability . . . . . . . . . . . . . . 27
2.6 Common discrete probability functions . . . . . . . . . . . . . . . . . 28
2.6.1 The Bernoulli trial . . . . . . . . . . . . . . . . . . . . . . . . 28
2.6.2 The Binomial probability function . . . . . . . . . . . . . . . 28
2.6.3 The Geometric probability function . . . . . . . . . . . . . . 29
2.6.4 The Poisson probability function . . . . . . . . . . . . . . . . 29
2.7 Common continuous distributions . . . . . . . . . . . . . . . . . . . . 30
2.7.1 Uniform distribution . . . . . . . . . . . . . . . . . . . . . . . 30
2.7.2 Exponential distribution . . . . . . . . . . . . . . . . . . . . . 31
2.7.3 The Gamma distribution . . . . . . . . . . . . . . . . . . . . 31
2.7.4 Normal distribution: the scalar case . . . . . . . . . . . . . . 31
2.7.5 The chi-squared distribution . . . . . . . . . . . . . . . . . . 33
2.7.6 Student’s t-distribution . . . . . . . . . . . . . . . . . . . . . 33
2.7.7 F-distribution . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.7.8 Bivariate continuous distribution . . . . . . . . . . . . . . . . 35
2.7.9 Correlation . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
2.8 Normal distribution: the multivariate case . . . . . . . . . . . . . . . 37
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2018-3-8 21:07:42
2.8.1 Bivariate normal distribution . . . . . . . . . . . . . . . . . . 38
2.9 Linear combinations of r.v. . . . . . . . . . . . . . . . . . . . . . . . 39
2.9.1 The sum of i.i.d. random variables . . . . . . . . . . . . . . . 40
2.10 Transformation of random variables . . . . . . . . . . . . . . . . . . 40
2.11 The central limit theorem . . . . . . . . . . . . . . . . . . . . . . . . 41
2.12 The Chebyshev’s inequality . . . . . . . . . . . . . . . . . . . . . . . 41
3 Classical parametric estimation 43
3.1 Classical approach . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.1.1 Point estimation . . . . . . . . . . . . . . . . . . . . . . . . . 45
3.2 Empirical distributions . . . . . . . . . . . . . . . . . . . . . . . . . . 45
3.3 Plug-in principle to define an estimator . . . . . . . . . . . . . . . . 46
3.3.1 Sample average . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3.3.2 Sample variance . . . . . . . . . . . . . . . . . . . . . . . . . 47
3.4 Sampling distribution . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3.5 The assessment of an estimator . . . . . . . . . . . . . . . . . . . . . 48
3.5.1 Bias and variance . . . . . . . . . . . . . . . . . . . . . . . . . 48
3.5.2 Bias and variance of ˆμ . . . . . . . . . . . . . . . . . . . . . . 49
3.5.3 Bias of the estimator ˆ2 . . . . . . . . . . . . . . . . . . . . . 50
3.5.4 Bias/variance decomposition of MSE . . . . . . . . . . . . . . 51
3.5.5 Consistency . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
3.5.6 Efficiency . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
3.5.7 Sufficiency . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
3.6 The Hoeffding’s inequality . . . . . . . . . . . . . . . . . . . . . . . . 53
3.7 Sampling distributions for Gaussian r.v.s . . . . . . . . . . . . . . . . 54
3.8 The principle of maximum likelihood . . . . . . . . . . . . . . . . . . 54
3.8.1 Maximum likelihood computation . . . . . . . . . . . . . . . 56
3.8.2 Properties of m.l. estimators . . . . . . . . . . . . . . . . . . 57
3.8.3 Cramer-Rao lower bound . . . . . . . . . . . . . . . . . . . . 58
3.9 Interval estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
3.9.1 Confidence interval of μ . . . . . . . . . . . . . . . . . . . . . 59
3.10 Combination of two estimators . . . . . . . . . . . . . . . . . . . . . 61
3.10.1 Combination of m estimators . . . . . . . . . . . . . . . . . . 61
3.11 Testing hypothesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
3.11.1 Types of hypothesis . . . . . . . . . . . . . . . . . . . . . . . 63
3.11.2 Types of statistical test . . . . . . . . . . . . . . . . . . . . . 63
3.11.3 Pure significance test . . . . . . . . . . . . . . . . . . . . . . . 63
3.11.4 Tests of significance . . . . . . . . . . . . . . . . . . . . . . . 64
3.11.5 Hypothesis testing . . . . . . . . . . . . . . . . . . . . . . . . 65
3.11.6 Receiver Operating Characteristic curve . . . . . . . . . . . . 68
3.11.7 Choice of test . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
3.11.8 UMP level- test . . . . . . . . . . . . . . . . . . . . . . . . . 69
3.11.9 Likelihood ratio test . . . . . . . . . . . . . . . . . . . . . . . 71
3.12 Parametric tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
3.12.1 z-test (single and one-sided) . . . . . . . . . . . . . . . . . . . 72
3.12.2 t-test: single sample and two-sided . . . . . . . . . . . . . . . 73
3.12.3 2-test: single sample and two-sided . . . . . . . . . . . . . . 73
3.12.4 t-test: two samples, two sided . . . . . . . . . . . . . . . . . . 74
3.12.5 F-test: two samples, two sided . . . . . . . . . . . . . . . . . 74
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2018-3-8 21:08:05
4 Nonparametric estimation and testing 75
4.1 Nonparametric methods . . . . . . . . . . . . . . . . . . . . . . . . . 75
4.2 Estimation of arbitrary statistics . . . . . . . . . . . . . . . . . . . . 76
4.3 Jacknife . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
4.3.1 Jacknife estimation . . . . . . . . . . . . . . . . . . . . . . . . 77
4.4 Bootstrap . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
4.4.1 Bootstrap sampling . . . . . . . . . . . . . . . . . . . . . . . 79
4.4.2 Bootstrap estimate of the variance . . . . . . . . . . . . . . . 79
4.4.3 Bootstrap estimate of bias . . . . . . . . . . . . . . . . . . . . 80
4.5 Bootstrap confidence interval . . . . . . . . . . . . . . . . . . . . . . 81
4.5.1 The bootstrap principle . . . . . . . . . . . . . . . . . . . . . 81
4.6 Randomization tests . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
4.6.1 Randomization and bootstrap . . . . . . . . . . . . . . . . . . 83
4.7 Permutation test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
4.8 Considerations on nonparametric tests . . . . . . . . . . . . . . . . . 84
5 A statistical framework of supervised learning 87
5.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
5.2 Estimating dependencies . . . . . . . . . . . . . . . . . . . . . . . . . 90
5.3 The problem of classification . . . . . . . . . . . . . . . . . . . . . . 92
5.3.1 Inverse conditional distribution . . . . . . . . . . . . . . . . . 94
5.4 The problem of regression estimation . . . . . . . . . . . . . . . . . . 96
5.4.1 An illustrative example . . . . . . . . . . . . . . . . . . . . . 96
5.5 Generalization error . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
5.5.1 The decomposition of the generalization error in regression . 100
5.5.2 The decomposition of the generalization error in classification 101
5.6 The supervised learning procedure . . . . . . . . . . . . . . . . . . . 102
5.7 Validation techniques . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
5.7.1 The resampling methods . . . . . . . . . . . . . . . . . . . . . 104
5.8 Concluding remarks . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
6 The machine learning procedure 107
6.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
6.2 Problem formulation . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
6.3 Experimental design . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
6.4 Data pre-processing . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
6.5 The dataset . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
6.6 Parametric identification . . . . . . . . . . . . . . . . . . . . . . . . . 110
6.6.1 Error functions . . . . . . . . . . . . . . . . . . . . . . . . . . 110
6.6.2 Parameter estimation . . . . . . . . . . . . . . . . . . . . . . 110
6.7 Structural identification . . . . . . . . . . . . . . . . . . . . . . . . . 114
6.7.1 Model generation . . . . . . . . . . . . . . . . . . . . . . . . . 115
6.7.2 Validation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
6.7.3 Model selection criteria . . . . . . . . . . . . . . . . . . . . . 120
6.8 Concluding remarks . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
7 Linear approaches 123
7.1 Linear regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
7.1.1 The univariate linear model . . . . . . . . . . . . . . . . . . . 123
7.1.2 Least-squares estimation . . . . . . . . . . . . . . . . . . . . . 124
7.1.3 Maximum likelihood estimation . . . . . . . . . . . . . . . . . 126
7.1.4 Partitioning the variability . . . . . . . . . . . . . . . . . . . 126
7.1.5 Test of hypotheses on the regression model . . . . . . . . . . 126
7.1.6 Interval of confidence . . . . . . . . . . . . . . . . . . . . . . 127
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2018-3-8 21:08:53
7.1.7 Variance of the response . . . . . . . . . . . . . . . . . . . . . 128
7.1.8 Coefficient of determination . . . . . . . . . . . . . . . . . . . 129
7.1.9 Multiple linear dependence . . . . . . . . . . . . . . . . . . . 129
7.1.10 The multiple linear regression model . . . . . . . . . . . . . . 129
7.1.11 The least-squares solution . . . . . . . . . . . . . . . . . . . . 130
7.1.12 Variance of the prediction . . . . . . . . . . . . . . . . . . . . 131
7.1.13 The HAT matrix . . . . . . . . . . . . . . . . . . . . . . . . . 131
7.1.14 Generalization error of the linear model . . . . . . . . . . . . 131
7.1.15 The expected empirical error . . . . . . . . . . . . . . . . . . 131
7.1.16 The PSE and the FPE . . . . . . . . . . . . . . . . . . . . . 133
7.2 The PRESS statistic . . . . . . . . . . . . . . . . . . . . . . . . . . . 134
7.3 The weighted least-squares . . . . . . . . . . . . . . . . . . . . . . . 138
7.3.1 Recursive least-squares . . . . . . . . . . . . . . . . . . . . . . 139
7.4 Discriminant functions for classification . . . . . . . . . . . . . . . . 141
7.4.1 Perceptrons . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144
7.4.2 Support vector machines . . . . . . . . . . . . . . . . . . . . . 147
8 Nonlinear approaches 153
8.1 Nonlinear regression . . . . . . . . . . . . . . . . . . . . . . . . . . . 155
8.1.1 Artificial neural networks . . . . . . . . . . . . . . . . . . . . 156
8.1.2 From global modeling to divide-and-conquer . . . . . . . . . . 162
8.1.3 Classification and Regression Trees . . . . . . . . . . . . . . . 163
8.1.4 Basis Function Networks . . . . . . . . . . . . . . . . . . . . . 167
8.1.5 Radial Basis Functions . . . . . . . . . . . . . . . . . . . . . . 167
8.1.6 Local Model Networks . . . . . . . . . . . . . . . . . . . . . . 168
8.1.7 Neuro-Fuzzy Inference Systems . . . . . . . . . . . . . . . . . 170
8.1.8 Learning in Basis Function Networks . . . . . . . . . . . . . . 171
8.1.9 From modular techniques to local modeling . . . . . . . . . . 174
8.1.10 Local modeling . . . . . . . . . . . . . . . . . . . . . . . . . . 175
8.2 Nonlinear classification . . . . . . . . . . . . . . . . . . . . . . . . . . 184
8.2.1 Naive Bayes classifier . . . . . . . . . . . . . . . . . . . . . . 186
8.2.2 SVM for nonlinear classification . . . . . . . . . . . . . . . . . 187
9 Model averaging approaches 189
9.1 Stacked regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189
9.2 Bagging . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 190
9.3 Boosting . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192
9.3.1 The Ada Boost algorithm . . . . . . . . . . . . . . . . . . . . 193
9.3.2 The arcing algorithm . . . . . . . . . . . . . . . . . . . . . . . 195
9.3.3 Bagging and boosting . . . . . . . . . . . . . . . . . . . . . . 195
10 Conclusions 197
10.1 Causality and dependencies . . . . . . . . . . . . . . . . . . . . . . . 198
A Unsupervised learning 201
A.1 Probability density estimation . . . . . . . . . . . . . . . . . . . . . . 201
A.1.1 Nonparametric density estimation . . . . . . . . . . . . . . . 201
A.1.2 Semi-parametric density estimation . . . . . . . . . . . . . . . 203
A.2 K-means clustering . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206
A.3 Fuzzy clustering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 207
A.4 Fuzzy c-ellyptotypes . . . . . . . . . . . . . . . . . . . . . . . . . . . 208
总共235页
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2018-3-9 10:32:21
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群