立足于数据科学的投资建模
Elder Research已为政府,商业和投资客户解决了广泛领域中许多挑战性和以前未解决的技术问题,包括欺诈预防,内部威胁发现,图像识别,文本挖掘以及油气发现。但是我们的团队从对冲基金的突破开始(如在几本书1
从高度动荡和嘈杂的市场信号中提取持久且可行的模式非常具有挑战性。从理论上讲,确定市场时机是不可能的-实际上,这是一个很好的近似值。然而,在过去的二十年中,我们在三个重要领域取得了微小但显着的进步,在此作了简要描述,这些结合在一起就导致了突破性的实时市场定时策略,具有较高的夏普比率和较低的市场曝光率。
1.运气,技巧还是折磨?如何分辨
由于现代分析技术的强大功能,由于过度拟合(模型的复杂性使数据不堪重负,或更危险的是,由于过度搜索),通常可以在市场上找到明显(但不真实)的预测相关性—在检查了许多可能的关系后,发现一个偶然的关系起作用了。经过多年的努力,在许多应用领域中,我努力解决了这一严重问题,我改进了一种功能强大的重采样方法,称为“ 目标改组”( Target Shuffling), 以测量偶然发现实验结果的可能性。它比t精确得多 测试和其他公式化统计方法,这些方法没有考虑到现代归纳建模算法所进行的大量搜索。使用此工具,可以更准确地衡量拟议投资策略(或任何其他模型)的“优势”(或不足)。
几年前,为了更准确地衡量市场时机或样式转换策略的质量,我为“每年的天数” 定义了一个称为DAPY的标准。它以平均规模的收益天数来衡量与类似的市场基准相比,定时策略的预期超额收益。夏普比率可以被认为是衡量战略回报质量的标准。而DAPY会衡量其时机优势。总之,它们比单独的Sharpe有用得多。最重要的是,Elder Research的研究表明DAPY在预测未来表现方面比Sharpe更好。
2.全局优化(与仿真结合,有时与复杂性正则化结合)
由于最优化的便利性,即使最先进的数据科学工具在预测或分类时也经常尝试最小化平方误差。但是该度量标准并不适合获得市场决策,因为用户的绩效标准与回报,缩编,波动性,风险敞口等因素密切相关,而与严格的预测准确性息息相关。(例如,如果一个方向正确,那么在幅度上犯错也就不错了,更不用说在平方上了。)我们需要的是反映我们真正利益的优化指标,以及一种可以找到最佳值的算法在嘈杂的多模式多维空间中。
即使在航空航天和其他几个困难领域取得了巨大成功之后,我在市场上工作的早年却仍然经历着持续的失败。我深信有必要使用质量搜索算法来设计自定义评分功能(模型指标)。我回到
研究生院,并将其作为我博士研究的重点。我创建了全局优化算法 GROPE (探针昂贵时的全局Rd优化),它使用尽可能少的探针(实验)来找到策略参数的全局最优值(在范围内)。根据该标准,它已经存在了很多年(并且可能仍然是)世界冠军优化算法。(在此注意图,它如何将非线性二维表面表示为一组相互连接的三角形平面。)
在Elder Research的投资模型中,在从数千个候选输入中以定量而非定性的方式识别出少量(即数十个)有用输入之后,全局优化通常在第二阶段进行。在第一阶段,通过常规模型拟合(例如套索回归)完成风选,以过滤掉无用的变量,同时允许意外组合出现。
3.集合模型
集成方法被称为“过去十年中数据挖掘和
机器学习中最具影响力的发展。” 他们将多个模型组合成一个比其最好的组件更准确的模型。从投资时机到药物发现,从欺诈检测 到推荐系统,集成已经极大地推动了工业挑战, 其中预测的准确性比模型的可解释性更为重要。2010年,我有幸 与Giovanni Seni博士合着了 《 Ensembles》一书,距我成为这个想法的早期发现者和倡导者大约十年半之后。我们使用的投资系统以及我们在其他领域的许多模型,采用了一组单独训练的模型来提高准确性和鲁棒性。
即使有了这些突破性的技术,我们尝试的大多数投资模型也无法正常工作。总体问题是如此棘手,以至于我们发现无法在样本中找到可重复模式的尝试在实施的某个阶段就失败了–幸运的是,在涉及客户资金之前!但是,我们取得了一些巨大的成功,其中包括一个运行了十多年,价值数亿美元的系统,每个投资者都在这一系统中脱颖而出。Target Shuffling方法不仅在一开始就说服了主要投资者,这是很重要的(实际上是低效率的口袋),而且当其优势消失和何时应该关闭时,它提供了预警。这三项技术突破共同使不可能的事情成为可能。

关注 CDA人工智能学院 ,回复“录播”获取更多人工智能精选直播视频!