(SpringerBriefs in Statistics )
Hans-Michael Kaltenbach (auth.)-
A Concise Guide to Statistics
-Springer Berlin Heidelberg (2012)
Dr. Hans-Michael Kaltenbach
ETH Zurich
Schwarzwaldallee 215
4002 Basel
Switzerland
e-mail:
hans-michael.kaltenbach@bsse.ethz.ch
ISSN 2191-544X e-ISSN 2191-5458
ISBN 978-3-642-23501-6 e-ISBN 978-3-642-23502-3
DOI 10.1007/978-3-642-23502-3
Springer Heidelberg Dordrecht London New York
Library of Congress Control Number: 2011937427
? Hans-Michael Kaltenbach 2012
This work is subject to copyright. All rights are reserved, whether the whole or part of the material is
concerned, specifically the rights of translation, reprinting, reuse of illustrations, recitation, broadcast-
ing, reproduction on microfilm or in any other way, and storage in data banks. Duplication of this
publication or parts thereof is permitted only under the provisions of the German Copyright Law of
September 9, 1965, in its current version, and permission for use must always be obtained from
Springer. Violations are liable to prosecution under the German Copyright Law.
The use of general descriptive names, registered names, trademarks, etc. in this publication does not
imply, even in the absence of a specific statement, that such names are exempt from the relevant
protective laws and regulations and therefore free for general use.
Cover design: eStudio Calamar, Berlin/Figueres
Printed on acid-free paper
Springer is part of Springer Science+Business Media (
www.springer.com)
1 Basics of Probability Theory . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.1 Probability and Events . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Random Variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.3 The Normal Distribution . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.4 Important Distributions and Their Relations . . . . . . . . . . . . . . . 15
1.5 Quantiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.6 Moments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.6.1 Expectation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.6.2 Variance and Standard Deviation . . . . . . . . . . . . . . . . . 18
1.6.3 Z-Scores. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
1.6.4 Covariance and Independence. . . . . . . . . . . . . . . . . . . . 21
1.6.5 General Moments; Skewness and Kurtosis . . . . . . . . . . . 22
1.7 Important Limit Theorems . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
1.8 Visualizing Distributions . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
1.8.1 Summaries . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
1.8.2 Plotting Empirical Distributions . . . . . . . . . . . . . . . . . . 24
1.8.3 Quantile–Quantile Plots . . . . . . . . . . . . . . . . . . . . . . . . 25
1.8.4 Barplots and Boxplots . . . . . . . . . . . . . . . . . . . . . . . . . 26
1.9 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2 Estimation. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.2 Constructing Estimators . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.2.1 Maximum-Likelihood . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.2.2 Least-Squares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.2.3 Properties of Estimators. . . . . . . . . . . . . . . . . . . . . . . . 34
2.3 Confidence Intervals . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
2.3.1 The Bootstrap. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
xi
2.4 Robust Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
2.4.1 Location: Median and k-Trimmed Mean . . . . . . . . . . . . 43
2.4.2 Scale: MAD and IQR . . . . . . . . . . . . . . . . . . . . . . . . . 45
2.5 Minimax Estimation and Missing Observations. . . . . . . . . . . . . 46
2.5.1 Loss and Risk. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
2.5.2 Minimax Estimators . . . . . . . . . . . . . . . . . . . . . . . . . . 47
2.6 Fisher-Information and Cramér-Rao Bound. . . . . . . . . . . . . . . . 49
2.7 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
3 Hypothesis Testing. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
3.2 The General Procedure. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
3.3 Testing the Mean of Normally Distributed Data . . . . . . . . . . . . 58
3.3.1 Known Variance. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
3.3.2 Unknown Variance: t-Tests . . . . . . . . . . . . . . . . . . . . . 61
3.4 Other Tests. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
3.4.1 Testing Equality of Distributions:
Kolmogorov-Smirnov . . . . . . . . . . . . . . . . . . . . . . . . . 64
3.4.2 Testing for Normality: Shapiro-Wilks . . . . . . . . . . . . . . 64
3.4.3 Testing Location: Wilcoxon . . . . . . . . . . . . . . . . . . . . . 65
3.4.4 Testing Multinomial Probabilities: Pearson’s v 2 . . . . . . . 67
3.4.5 Testing Goodness-of-Fit. . . . . . . . . . . . . . . . . . . . . . . . 68
3.5 Sensitivity and Specificity . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
3.6 Multiple Testing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
3.6.1 Bonferroni-Correction . . . . . . . . . . . . . . . . . . . . . . . . . 72
3.6.2 False-Discovery-Rate (FDR). . . . . . . . . . . . . . . . . . . . . 72
3.7 Combining Results of Multiple Experiments. . . . . . . . . . . . . . . 74
3.8 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
Reference . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
4 Regression. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
4.2 Classes of Regression Problems . . . . . . . . . . . . . . . . . . . . . . . 78
4.3 Linear Regression: One Covariate . . . . . . . . . . . . . . . . . . . . . 79
4.3.1 Problem Statement . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
4.3.2 Parameter Estimation. . . . . . . . . . . . . . . . . . . . . . . . . . 80
4.3.3 Checking Assumptions . . . . . . . . . . . . . . . . . . . . . . . . 82
4.3.4 Linear Regression Using R. . . . . . . . . . . . . . . . . . . . . . 83
4.3.5 On the ‘‘Linear’’ in Linear Regression. . . . . . . . . . . . . . 84
4.4 Linear Regression: Multiple Covariates . . . . . . . . . . . . . . . . . . 85
4.4.1 Problem Statement . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
4.4.2 Parameter Estimation. . . . . . . . . . . . . . . . . . . . . . . . . . 86
4.4.3 Hypothesis Testing and Model Reduction . . . . . . . . . . . 86
4.4.4 Outliers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
xii Contents
4.4.5 Robust Regression. . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
4.5 Analysis-of-Variance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
4.5.1 Problem Statement . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
4.5.2 Parameter Estimation . . . . . . . . . . . . . . . . . . . . . . . . . 99
4.5.3 Hypothesis Testing . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
4.6 Interpreting Error Bars. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
4.7 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
Reference . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
Index . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109