立即打开
[原创文章,转载请注明]
原文:https://www.ainumeric.com/article/ml_finance.php
以下介绍机器学习在量化策略中的主要应用领域。
4. 特征值筛选
在金融模型的典型应用中,人们收集数据,建立传统统计模型或者机器学习模型,然后大量运行回测系统直到找到最优的参数。我们知道回测工具不是一个研究工具,使用同样的数据重复运行回测工具很容易造成模型的过度拟合,其中被人们忽视的一个问题是特征值的重要性分析。
对特征值的研究有利于人们分析每个特征值对模型性能的贡献,在特征值工程(feature engineering)中增加重要的特征值,剔除产生噪音的特征值,并且通过对特征值的分析,使得原本被看作黑盒子的机器学习模型变得透明化。
根据对特征值之间的共线性(collinearity)的处理方式,研究特征值重要性的算法可以分为两类:
4.1. MDI(mean decrease impurity), MDA(mean decrease accuracy)。其中,MDI是对样本内数据进行研究,建立一个树形结构。在每一个结点,特征值将数据分成子树,从而对每棵子树,我们可以计算每个特征值降低子树的impurity的度量。最终,将所有特征值按照impurity的度量进行排序。MDA是对样本外数据进行分析,根据样本外数据的统计性能(比如loss function),每次对一个特征值进行排列组合,并重新计算样本外数据的性能。特征值最后的重要性和排列组合后的性能相关。
4.2. SFI(single feature importance)。以上的方法将不重要的特征值从特征值集合中删除。有时候我们需要保留冗余的但是重要的特征值做深入分析。SFI算法计算每个特征值得样本外性能。
除此以外,类似Lasso Regression的方法可以用来对所有的特征值做回归,根据返回的系数(通常是稀疏的)来对特征值做选择。所有这些方法都是在系统的回测之前完成的。
5. 处理非结构化数据
非结构化数据,例如文本,视频,音频,图像等通常没有统一的格式,包含了丰富的传统数据没有的信息。一个典型的例子是股票的舆情信息。来源于新闻,媒体,分析师等的舆情信息通过汇总和分析,可以被量化成不同频率的舆情指标(sentiment index)。通过和传统的行情数据结合,舆情指标可以作为预测股票行情的一类特征值。同时,舆情信息本身可以被分类成正向和反向的信息。
6. 交易策略筛选
在对一族策略进行回测并选择其中最优策略的时候,通常的做法是对一系列策略进行历史回测,然后使用统计方法例如策略Sharpe Ratio的null hypothesis,通过观察p-value来选择策略,目的是选择Sharpe Ratio大于零的策略。这样的做法常导致错误的选择,原因是p-value控制的是FPR(False Positive Rate),而真正应该控制的是FDR(False Discovery Rate)。
以二类分类算法为例,回顾一下结果检测的度量:TP(True Positive),FP(False Positive),TN(True Negative),FN(False Negative)。其中,FPR=FP/(FP+TN),FDR=FP/(FP+TP)。
通过控制FDR来选择最优的策略的算法,参考Benjamini-Hochberg。
除了通过控制FDR来选择最优的策略,常用的方法有FWER(Familywise Error Rate),定义为得到至少一个false positive的 概率。使用FWER的算法参考以下作者:Bonferroni,Sidak, Holm, Hochberg。
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
全部回复
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
相关推荐
栏目导航
热门文章
推荐文章
扫码加好友,拉您进群