北美精算PA考试一共进行了3场, 而且每半年一场。 期间每年官方都会出一个 Sample Project 就是和当年考试类似形式的模拟题用来阐释考试的格式和答题期望。 今年还没有出,可能是因为还是遵照2019年的格式来,所以不需要出新的 Sample Project。
切入主题:
November 2018 Sample Project: Student Success 这是一个针对补习学生学习成果是否有效的预测分析。 目标变量是 Pass/Fail 典型的Binomial Distribution。
数据处理,探索,和变量转换遇到的一些问题如下:
Univariate Exploration
Bivariate Exploration 和 target variable 做对比的
Removing problematic observations 这也是当年强调的数据处理问题,后来模式侧重点变了。
预测分析手段:
GLM (具体说 logistic regression)
Decision Trees (both base trees and ensemble trees: random forest)
December 2018 Exam: 这是第一场正式考试, 模式和现在的完全不一样。 这是针对工人受伤的多少,用来帮助工人决定是否值得去某些地方挖矿的预测分析。目标变量是 number of injuries 但是还加了一个injury rate per 2000 employee hours 用来迷惑人。那个是用来做offset 用的。weight 可以用,但是目标变量得换一下。 这里就不细说了。
数据处理,探索,和变量转换遇到的一些问题如下:
Univariate Exploration
Bivariate Exploration 和 target variable 做对比的
Removing problematic observations, missing data, collinearity 看看Sample Project 强调的数据处理也考了。 而且还多加了一些需要思考的问题。这是留一手考试的时候再问你。这个套路 FAP 和所有高级网课模块里经常见。
预测分析手段:
GLM (具体说 Poisson regression with offset 也可以改成weight 考变成两天考试的不同版本)
Decision Trees (base trees only) 虽然模型考的不是很多但是数据处理就够忙乎很长时间了。
May 2019 Sample Project: Hospital Readmissions 这是模式改变后考前一个月官方出的模拟题。 这是一个针对病人是否会回到医院再住院的预测分析。 目标变量是 readmission status (readmitted- 1/not readmitted - 0) 典型的Binomial Distribution。
数据处理,探索,和变量转换遇到的一些问题如下:
Univariate Exploration
Bivariate Exploration 和 target variable 做对比的
Combining factor variables/levels
Identifying interaction terms 这要先建议哪些变量有可能相关,再画图看是否有相关关系,这和以前套路不同,当年6月的考试也采用了这个模式。
这个侧重点也变了,不再着重于解决上述数据问题,而是集中分析不同变量之间的关系,还有探索变量转换的一些问题。
预测分析手段:
GLM (logistic regression with probit link function) 这是在暗示不要只选distribution/family 也要看哪些link function 合适。这个在当年6月的考试里得到了验证。
Cluster Analysis 这个是unsupervised learning methods用来找替代变量的,因为原始数据可能变量太多,或者某些变量分级太多导致data dimension 过高,预测效果不好而且模型很复杂。 这种办法有两种:一个是Cluster 用来做例子,考试换成了 PCA - Principal Component Analysis。
June 2019 Exam: 这是第二场正式考试,模式和现在的考试一样。 这是考察交通事故评分的预测分析。 目标变量是交通事故评分,这是numeric 不再是Sample Project 里提到的 binary 了。
数据处理,探索,和变量转换遇到的一些问题如下:
Bivariate Exploration 和 target variable 做对比的
Combining factor variables/levels
Identifying interaction terms
预测分析手段:
GLM (OLS, Gamma/Inverse Gaussian Regression with log link function)
Regularized Regression
PCA 这个就是上边提到的 Cluster Analysis 的替代品
December 2019 Exam: 这是第三场正式考试,模式和现在的考试一样。 这是帮助市场部门了解客户是否高低价值用来提升公司利润的预测分析。 目标变量是high value - 1 或 low value - 0 典型的Binomial Distribution,这是第三次出Binomial Distribution 了,前两次是在 Sample Project 里。
但是这次考试和第二场正式考试不同的是两天的考试版本不同,有两个任务换了,别的都一样。具体是Boosted Tree vs. Random Forest 还有就是 Regularized Regression vs. GLM 这两天的考试其实一看就知道第二天的考试难一些,不知道判分标准是否一致。 因为给出的code 不需要做多少修改,所以Boosted Tree 和 Random Forest 其实差不多考法,主要集中在分析重点 parameter 的变化上,还有翻译一下那个变量重要性的图或表格。但是Regularized Regression只有去年6月的考试简单提了一下,没有12月考的深度强。 与之对比的是,GLM 几乎到处都是,所以能考的部分都已经在以前的考试和模拟题里阐释过了。
数据处理,探索,和变量转换遇到的一些问题如下:
Univariate Exploration
Bivariate Exploration 和 target variable 做对比的
Combining factor levels
Identifying interaction terms
还有一个是限制人年龄的 age >=25 条件,这个要注意第一步就要改,要是后来发现再去改肯定做不完剩下的题。
预测分析手段:
GLM (logistic regression with logit link function) 这次侧重点不是 GLM 前面都弄好了, 这个顺理成章。
Regularized Regression 这个把lasso, ridge, elastic net 考了个遍。
Decision Trees (base trees - manual selection vs. cross validation, ensemble trees: random forest/boosted tree)
这些数模型对于参数parameter 的考察比以往要强调的多。
就写这么多吧。 还有就是每次考试的题目数量是越来越多。 从模式在 2019年5月更改后,Sample 是 10题 含Executive Summary 但是2019年6月考试是 11题, 12月考试 是 12题,这次会不会 13 题呢?
而且越是分值高的题要处理完数据才能做,还有越到最后的题分值越高,这是一个趋势!