如何采用基础量价数据，构建深度学习模型Deep Alpha-DNN，实现8年40倍回测收益？

1524

收藏 2021-12-02

作者：邵守田 东北大学金融工程硕士BigQuant首席策略官傅浩晅 伊利诺伊大学香槟分校统计与经济双学位BigQuant算法团队成员
本报告模型构建工具：https://bigquant.com/
联络咨询：bigq100【微信号】
核心观点
据中信证券推算，截至2021年2季度，中国国内市场私募量化总资管规模达到1万亿，相比2017年的1000亿，短短的3年半时间增长10倍，公募量化基金同样增长迅猛，达到2600亿。
与此同时，市场逐渐进入AI算法的时代，国内一系列百亿级、千亿级私募机构同样开启了机器学习、深度学习量化。
Deep Alpha是借鉴深度学习模型应用于金融量化投资领域的系列AI模型，包括全连接深度网络(DNN)、卷积神经网络(CNN)、长短期记忆网络(LSTM)、对抗生成网络(GAN)、ResNet、TabNet等。
其中Deep Alpha-DNN是采用基础量价数据，模仿动物神经元的激发模式和连结模式，基于单个神经元以全连接的方式构建层数大于3的深度模型。
本模型构建了11个对照组，并以训练集3年测试集1年的方式进行8组滚动回测，均在有效性及稳定性方面表现卓越。
有效性体现在：DeepAlpha-DNN模型成功获得超越市场基准指数的收益表现，基准模型年化收益率27.37%，同期沪深300基准收益率为18.32%，超越市场9.05个百分点，模型最大回撤约为30.3%，夏普率为0.94，波动率为26.38%。
稳定性表现在：模型调整学习率、优化器、损失函数、Batchsize等形成11个对照组之后，仍然能获得较为稳定的收益，对照组指标方差都远远小于1。
同时，本报告采用了3训1测的滚动训练方式来更新迭代模型，以模拟真实的市场交易和模型训练，具体方法为使用前3年的数据进行训练，后1年的数据进行测试，滚动训练回测显示：在2014年1月2日到2021年7月30日整个回测周期内，DeepAlpha-DNN策略的整体收益率高达3859.52%，年化收益率为65.19%，α为0.7081，β为0.4677，收益波动率为32.81%，最大回撤为49.60%，整体夏普率达1.589，做到了8年近40倍。
本报告结论认为：
相较于一般的机器学习策略，以DeepAlpha-DNN为代表的深度学习模型相较于常规的机器学习模型有着显著的优势。能够从最基础的价量因子当中探究到市场最深度的信息。无需繁琐的因子构建，即可自主从市场当中剥离有效的信息，深挖复杂的市场含义。此外，深度学习模型还可以依靠滚动训练来让其自行探究市场风格的变化，进而做出模型调整。相较于人工识别，它更准确、更高效，更能洞悉市场的起伏变动。
1.引言
1.1三年10倍增长国内量化异军突起
据中信证券推算，截至2021年2季度，中国国内市场私募量化总资管规模达到1万亿，相比2017年的1000亿在短短的3年半时间增长10倍，公募量化基金同样增长迅猛，达到2600亿。
与此同时，高流动性、强趋势、全球市场低相关的中国资本市场也在吸引越来越多的海外基金入场，桥水基金、D.E.Shaw、ManGroup、WintonGroup和GAMSystematic等海外量化巨头纷纷布局中国，中国投资机构面临与全球机构同台竞争。（Bloomberg：QuantsAreGettingReadytoPounceonChina’sCommodityBoom2021.4.8）

1.2市场逐渐过渡至AI算法时代TOP20私募7家布局AI量化

从2018年开始，市场逐渐进入AI算法的时代，不管从因子挖掘、组合管理，还是风险优化等方面，进一步提升了整个量化投资的收益。从2017年Citadel聘请微软人工智能首席经济学家，到2021年阿布扎比投资局建立数据分析及人工智能团队，加拿大养老金计划投资委员会、新加坡GIC、挪威财富基金等主权财富基金都在建立数据分析及人工智能团队（Bloomberg，World’sThird-BiggestWealthFundGrowsQuantTeamWithNewHire2021.6.6）人工智能已经从对冲基金跨越至公募基金、主权财富基金等各类投资主体。
而在国内，幻方量化、天演投资、佳期投资、乾象投资等一系列百亿级千亿级私募机构同样开启了向深度学习的远航（详见表2国内百亿+量化私募及人工智能布局），纷纷招募Facebook、Google等硅谷科技公司工程师组建量化投资团队.
从2016年，BigQuant平台从互联网搜索引擎领域借鉴了PageRank算法进入金融市场，提出StockRanker算法，5年时间，StockRanker算法充分证明了其在金融量化选股领域的有效性。接下来，BigQuant算法组将逐步推出DeepAlpha系列深度模型，从基础量价数据中构建深度学习量化模型，分享AI量化领域实践研究，赋能宽客(QUANT)在AI量化领域基础设施建设及前沿研究，共同迎接AI量化极速发展的资管大时代。
表 2国内百亿+量化私募及人工智能布局
（放不了，在评论区去看）

数据来源：私募排排网2021.9.3策略整理：BigQuant

1.3DeepAlpha深度学习模型解析免除反复冗杂和维灾问题

2021年7月DeepMind公司宣布旗下人工智能系统AlphaFold已经实现对98.5%已知人类蛋白质以及20种模式生物蛋白质的结构预测。深度学习在计算机视觉、自然语言处理、博弈等技术领域业已证明了其有效性，如：而ImageNet在图像识别、Transformer在翻译人类语言，StyleGAN在图片制造方面都表现出了卓越的性能。
庞大的神经网络结构拥有着数以万计的参数，此等参数规模使得常规的调参思路变得难以实施。在现代GPU，梯度下降和反向传播等技术的支持下，让大规模调参成为可能，因此，深度神经网络可以获得深层次的特征，免除人工选取特征的反复冗杂和高维数据的维度灾难问题。
1.4本报告目标：验证DeepAlpha-DNN模型有效性、稳定性
本系列报告旨在从基础量价数据中，借鉴深度学习模型，应用于量化投资（见下图1深度学习量化策略机制示意），模型如全连接深度网络(DNN)、卷积神经网络(CNN)、长短期记忆网络(LSTM)、对抗生成网络(GAN)、ResNet、TabNet，（见下表3机器学习、人工智能分类；表4、器学习深度学习异同及流程）同时报告将引入自然语义识别NLP领域近年热门算法如BERT、Transformer、GPT、XLNet等，尝试构建各类DeepAlpha模型。
第一篇本报告以深度神经网络（DNN）开篇，构建DeepAlpha-DNN模型，并尝试验证其有效性及稳定性。
==其中有效性在于：==深度学习量化模型是否能够获得超越市场宽基指数的收益表现？本性能主要体现在基准模型年化收益率、超越基准收益率、收益波动率、最大回撤及夏普率。
==其中稳定性在于：==模型调整学习率、优化器、损失函数、Batchsize之后是否仍然能获得稳定的收益表现？本性能主要体现在11个对照组收益结果均值、中位数以及方差。
图 1深度学习量化策略机制示意

2.基本原理及可行性
2.1DeepAlpha-DNN原理：全连接构建3层以上深度模型
深度神经网络（DNN，DeepNeuralNetwork)模仿了动物神经元的激发模式和链接模式，它基于单个神经元(Perceptron)，以全连接的方式构建层数大于3的深度模型。
神经元构造简单且精巧，神经元构造如图7所示：

DNN构建激活运作方式模拟生物神经元：层与层之间的每个神经元之间都设置一定的权重和偏置并且相连，并且在达到一定条件时将信号传递给下一层的神经元，这一过程被称为正向传播。这样的链接结构能使得信息能最大程度地在层与层之间保留并传递。每个神经元所包含数值的计算公式如下所示：

其中f为激活函数（人工神经网络的神经元上运行的函数，负责将神经元的输入映射到输出端，详见8.名词字典激活函数），常见激活函数见3：

依靠层与层之间的全链接结构，将多层包含多个神经元的层叠加进而可以构建全连接深度神经网络，即DNN:

2.2DeepAlpha-DNN特点：高灵活、主动识别特征

理论上，如同其他深度神经网络一般，DeepAlpha-DNN拥有极多的参数，并有赖于灵活的激活函数，DeepAlpha-DNN几乎可以拟合任何函数。架构特性使得DeepAlpha-DNN：
拥有较强的灵活性，能较强地模拟市场变化。
能够节省部分因子挖掘的时间。
主动识别市场中的特征，并且在隐藏层中进行整合。
但与此同时，市场中存在大量DeepAlpha-DNN无法识别的信息，这是因为股市本身不仅是价量因子的组合，更是一个基于自身的时序函数（AutoregressiveModel)。因此，本报告同时输入时序信息作为因子，以获得整个市场的趋势变化，提高预测准确度，减轻DeepAlpha-DNN对市场没有记忆的问题，以提高模型识别趋势和预测市场的能力。

完整文章请看评论区

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

赵安豆

2024-9-3 13:13:30

构建Deep Alpha-DNN模型实现高收益的关键步骤如下：

### 1. 数据准备
- **数据源**：选择高质量的股票交易量价数据，包括开盘价、收盘价、最高价、最低价和成交量等。确保数据覆盖足够长的时间范围（如8年以上）。
- **预处理**：对数据进行清洗，去除异常值和缺失值；可能需要进行归一化或标准化，使输入数据适合神经网络。

### 2. 特征工程
- **基础特征**：直接使用开盘价、收盘价等作为模型的输入。
- **衍生特征**：计算技术指标（如移动平均线MA、相对强弱指数RSI）、量比、价格变化率等，以增加信息维度和预测能力。

### 3. 模型构建
- **网络结构**：构建深度神经网络DNN。可以包括多个隐藏层，每层有数百个或数千个神经元。使用ReLU激活函数促进非线性映射。
- **训练策略**：
- 划分数据集为训练集、验证集和测试集，比例如7:1.5:1.5。
- 使用随机梯度下降（SGD）或其他优化算法进行训练。
- 设置适当的损失函数，如均方误差MSE或交叉熵损失。

### 4. 模型评估与改进
- **回测**：在测试集上进行滚动回测。例如，以3年为训练窗口，1年为测试窗口，逐年滑动预测和评估。
- **超参数调优**：使用网格搜索、随机搜索或贝叶斯优化调整学习率、批大小等。

### 5. 策略执行
- 根据模型输出制定交易策略。可能包括买入信号、卖出信号的阈值设定，以及风险管理如止损点。
- 在实盘中持续监控和微调模型表现。

### 注意事项：
- **风险控制**：高收益往往伴随高风险，需设置合理的风险管理和资金管理规则。
- **市场适应性**：模型需要定期评估和更新以适应市场变化。
- **合规与道德**：遵守金融交易的法律法规，确保交易策略的透明性和公正性。

以上构建过程是一个迭代优化的过程，需要持续的数据监控、分析和调整。此外，实现8年40倍回测收益的结果可能在实际操作中难以完全复制，因为这受到市场条件、模型过拟合风险等多种因素的影响。

此文本由CAIE学术大模型生成，添加下方二维码，优先体验功能试用

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

扫码加我 拉你入群

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群

扫码加我拉你入群