全部版块 我的主页
论坛 金融投资论坛 六区 金融学(理论版)
1930 2
2021-07-28
[原创文章,转载请注明]原文:https://www.linkedin.com/feed/update/urn:li:activity:6825894080543821824

机器学习为投资策略带来了全新的数据处理方式,广泛应用于发掘大容量数据的非线性模式,分析非结构化数据,分析数据的分层结构,预测市场走势等等。同时,面对机器学习算法的过度拟合等缺陷,机器学习发展了众多的算法包括early-stopping, cross-validation, ensemble modeling等等来解决过度拟合的问题。

作为一个简单的机器学习的应用实例,我们以著名的泰坦尼克为例子详细讲解机器学习模型的建立过程,并附有python代码:
(https://lnkd.in/eTAMWTf)

在这个例子中,机器学习算法发掘旅客特征值(性别,年龄,仓位,等等)和生存率之间的关系,并建立特征值的层次关系。比如,性别对生存率有极大影响,女性的生存率远高于男性。其次,仓位和年龄也有影响。

以下介绍机器学习在量化策略中的主要应用领域。

1. 价格预测

传统的数学模型,包括精确描述变量之间关系的数学公式,难以描述大容量金融数据中的非线性关系,层次关系,变量间的相互依赖和影响,也难以处理非结构化数据例如语音信息,文本信息,图像信息等。

使用机器学习模型预测股市价格可能是机器学习在交易策略中最早的应用,使用的模型从Support Vector Machines, XGBoost,到近年的Long-short Term Model(LSTM)。使用的数据从传统的股市行情数据延伸到另类数据比如新闻舆情数据,宏观经济指标等等。

另一方面,价格预测始终面临巨大挑战,许多模型在样本外的性能远远不如样本内,而金融数据本身具有non-stationary的特性。提高模型性能的方法除了尝试不同的模型以外,还有通过交叉验证降低过度拟合的可能性,和改善回测方法。

2. 投资组合

传统的投资组合策略基于mean-variance 优化,其明显的缺陷是对变量敏感,样本外表现差,要求投资产品的covariance matrix是可逆的,而在实际应用中covariance matrix往往是接近不可逆的。

机器学习的一个应用是根据covariance matrix将资产聚类,即类似的资产归为一类,进而建立所有资产的分层结构,决定每一个资产的权重。这种方法不要求covariance matrix是可逆的,实测的结果,样本外收益远高于传统的优化算法。Marcos Lopez De Prado 基于这个算法提出了HRP(Hierarchical Risk Parity)算法。

机器学习的另一个应用是在线资产分配,及时使用当前的最新数据,并且以序列化的方式选择最优的投资组合。这是机器学习在投资组合中的自然的应用,通常称为在线投资组合(online portfolio selection)。
(https://lnkd.in/eaW3Pha)

3. 离群值检测

许多模型的结果对离群值是敏感的,例如众所周知的线性回归模型,数据的微小偏差会被模型结果放大。另外,在广泛使用的因子选股中,根据股票池中股票的因子排序来进行选股。此时,离群值的出现会对排序造常影响,甚至原本应该做多的股票被错误标记为做空。一般估计,因子选股中5%的误差会造常34%的归类错误(即做多或者做空的归类)。

解决离群值对模型影响的一个算法是RANSAC(random sample consensus)。RANSAC算法随机选取样本子集,对样本子集建立模型,并将所有点划分为inlier, outlier,并计算模型的分数。此时模型的分数和支持这个模型的样本点数有关,符合模型的点是inlier,否则就是outlier。重复以上步骤,最后选择分数最高的模型作为最佳模型。

-- 待续

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2021-8-3 13:25:05
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2021-8-25 12:09:48
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群