【原创文章,转载请注明】
原文连接:https://www.linkedin.com/embed/feed/update/urn:li:share:6821928918900199424
线性回归和机器学习 -- 经济和金融的应用 (2)
传统的线性模型和相关的统计方法在人工智能和大数据时代的许多应用场景中常常产生误导的结果。本文介绍相应的解决方案。
1. MDA (Mean Decreasing Accuracy)
p-value在经济和金融的应用中常被误用,尤其是在变量(或者特征值)选择或者模型选择的应用中。一个替代方案是使用MDA。简单地说,MDA计算每次剔除一个变量以后模型损失的精度。越是重要的变量,被剔除以后模型的损失就越大。MDA的结果常被表达成变量(或者特征值)重要性的图形,变量按照重要性依次排列。
相对于p-value,MDA更能反应数据和模型的真实情况,它能筛选和剔除无关紧要的变量。另外,在变量筛选的过程中,与其他模型的结合使用会进一步提高算法的性能。一个例子是将MDA和聚类算法结合,使用聚类算法将相似的变量归为一类。
2. 过度拟合的避免
过度拟合可以分为训练数据引起的过度拟合和测试数据引起的过度拟合。
对于训练数据引起的过度拟合,常用的解决办法有
-- 泛化误差 (Generalization Error):使用Monte Carlo, Resampling 等方法生成更贴近真实情况的训练数据集
-- 集成学习模型 (Ensemble Model):最常用的比如Bootstrapping,通过组合多个单独的机器学习模型,使得最终的模型效果好于每一个单独的模型,同时降低过度拟合的风险
-- 正则化(Regularization):在处理数据时,使用Lasso等模型筛选变量,剔除不重要的变量或者特征值。在模型运行阶段,使用early stopping,drop out等技术
由测试数据引起的过度拟合常常是由于回测的不恰当使用造成的。主要的解决方案有:
-- 尽可能完整地检测所有的测试情形,使用例如Deflated Sharpe Ratio来检测 False Positive的情形
-- 泛化误差 (Generalization Error):类似于训练数据的情形,使用Monte Carlo, Resampling 等方法生成更贴近真实情况的测试数据集
3. 解决方案综述
下表列出了针对经济和金融领域中不同问题的传统解决方法,和人工智能大数据时代的替代解决方案。
3.1. 目标设定
传统:样本数据方差的测定
当代:样本外预测效果
3.2. 视图
传统:时间序列,散点图,统计分布图
当代:t-SNE,网络图,树图
3.3. 离群值检测
传统:winsorization, Dixon Q test
当代:RANSAC
3.4. 特征值抽取
传统:PCA
当代:kernel-PCA, LDA, biclustering
3.5. 回归问题
传统: 代数模型
当代:神经网络,支持向量机,GA,回归树
3.6. 分类问题
传统:Logit, probit
当代:随机森林,支持向量机,神经网络
3.7. 特征值重要性检测
传统:p-value
当代:MDA, MDI
3.8. 模型选择
传统:forward selection, backward elimination
当代:正则化,bagging, boosting, early stopping, drop-out, bandwith