全部版块 我的主页
论坛 经济学人 二区 外文文献专区
1068 15
2022-04-28
英文标题:
《Predicting financial markets with Google Trends and not so random
  keywords》
---
作者:
Damien Challet, Ahmed Bel Hadj Ayed
---
最新提交年份:
2014
---
英文摘要:
  We check the claims that data from Google Trends contain enough data to predict future financial index returns. We first discuss the many subtle (and less subtle) biases that may affect the backtest of a trading strategy, particularly when based on such data. Expectedly, the choice of keywords is crucial: by using an industry-grade backtesting system, we verify that random finance-related keywords do not to contain more exploitable predictive information than random keywords related to illnesses, classic cars and arcade games. We however show that other keywords applied on suitable assets yield robustly profitable strategies, thereby confirming the intuition of Preis et al. (2013)
---
中文摘要:
我们检查了谷歌趋势数据包含足够数据预测未来金融指数回报的说法。我们首先讨论可能影响交易策略回溯测试的许多微妙(以及不那么微妙)的偏见,尤其是基于此类数据时。诚然,关键词的选择至关重要:通过使用行业级的回溯测试系统,我们验证了与金融相关的随机关键词不会比与疾病、经典汽车和街机游戏相关的随机关键词包含更多可利用的预测信息。然而,我们发现,应用在合适资产上的其他关键词产生了强劲的盈利策略,从而证实了Preis等人(2013)的直觉
---
分类信息:

一级分类:Quantitative Finance        数量金融学
二级分类:Statistical Finance        统计金融
分类描述:Statistical, econometric and econophysics analyses with applications to financial markets and economic data
统计、计量经济学和经济物理学分析及其在金融市场和经济数据中的应用
--

---
PDF下载:
-->
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2022-4-28 17:54:58
用谷歌趋势预测金融市场,而不是随机关键词Damien Challet*金融量化委员会主席、数学实验室辅助系统贴花、巴黎中央大学、维涅斯大学院、92295法国查特奈-马拉布里和冰岛首都南非、科学园C、EPFL、1015洛桑、瑞士中央大学+金融量化委员会主席、数学实验室辅助系统贴花、巴黎中央大学、,Grande Voie des Vignes,92295 Chátenay Malabry,FranceWe讨论了来自谷歌趋势的数据包含足够信息预测未来金融指数回报的说法。我们首先回顾了可能影响交易策略回溯测试的许多微妙(以及不那么微妙)的偏见,尤其是基于此类数据时。诚然,关键词的选择至关重要:通过使用行业级回溯测试系统,我们验证了与疾病、经典汽车和街机游戏相关的随机关键词相比,随机融资关键词不包含更多可利用的预测信息。然而,其他适用于适配资产的关键词产生了可靠的可支持策略,从而证实了[24]的直觉。I.介绍由于来自各种网站的数据,以前所未有的频率和准确性记录社会脉搏成为可能。特别是,来自谷歌趋势(GT)的数据报告了给定关键字的历史搜索量兴趣(SVI),并被用于预测当前[7](在[5]中称为即时广播),也就是说,改进了对正在创建的数量的估计,但其数据将在给定时期结束时被显示。其中包括失业率、旅行和消费者信心指数[7]、公司季度收入(来自对其主要产品的搜索)[8]、GDP估算[5]和流感疫情[15]。资产价格由交易员决定。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-4-28 17:55:02
一些交易者在各种各样的网站上寻找、分享并最终创造信息。因此,资产价格应该与网站用户的行为有关。这种三段论已在[9]中进行了详细研究:罗素3000指数各组成部分的价格回报在许多因素(包括GT数据)上进行了回归,这些因素在所有3000项资产上进行了平均。有趣的是,作者发现SVI变化与个人投资者交易活动之间存在显著相关性。此外,平均而言,SVI的变化与研究期间(即样本中)几周内的价格回报呈负相关。需要对许多股票进行平均化是因为价格回报和GT数据中存在大量噪音,而且在搜索给定关键字的人中,只有一小部分人会在以后进行交易。[24]的说法更为有力:它指出,道琼斯工业平均指数的未来回报率与一些关键字相关的SVI惊喜负相关,因此GT数据包含足够的数据来预测财务状况。一些微妙(但不是那么微妙)的偏见使他们的结论无法尽可能有力。使用稳健的回溯测试系统,我们能够确认GT数据可用于预测未来资产价格回报,从而将其结论置于更加稳健的基础上。二、数据和战略原始资产价格由适当的随机游动很好地描述,不包含任何可预测性。然而,如果能够仅使用资产回报(参见[21]了解基于资产互相关的条件)或外部信息源来确定一组条件,则这些条件可能是可预测的。Google Trends为给定关键字的搜索次数提供了标准化的时间序列,每周的时间分辨率为[28],用vt表示。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-4-28 17:55:06
[24]提出以下交易策略:将之前的基线搜索兴趣定义为“vt=TPtt=t”-Tvt,SVI惊喜是δt=vt- “vt-1,且在t+1周内承担相关资产的头寸为st+1=-符号δt.没有什么可以阻止*电子地址:达米恩。challet@ecp.fr; 网址:http://fiquant.mas.ecp.fr/challet+电子地址:艾哈迈德。belhadjayed@ecp.frto考虑反向策略,但其他作者已经注意到,在接下来的一到两周内,SVI变化的平均价格逆转[9,11]。我们没有试图预测道琼斯工业平均指数,而是使用SPY的时间序列,它反映了标准普尔500指数。这提供了一种弱形式的交叉验证,两个时间序列高度相关但不完全相同。出于同样的原因,我们计算周一至周五收盘价的回报,而不是周一至周一的回报,这使得指数回报与GT数据保持同步(从周日到周六)。三、 方法论上的偏见很难预测,尤其是对未来的预测。但在过去预测未来就更难了。这尤其适用于交易策略的回溯测试,即计算其过去的虚拟收益。它容易产生多种偏见,这些偏见可能会显著改变其可靠性,通常是积极的[14,20]。其中大多数是由于令人遗憾的,而且可能是不可避免的趋势,未来会悄悄地进入过去。工具偏见这是最容易被忽视的偏见。这在一定程度上解释了为什么回溯测试在80年代和90年代往往表现得非常好,但自2003年以来就没那么令人印象深刻了,即使考虑到对总交易成本的现实估计。用现代工具在旧数据中寻找可预测性确实比它应该的容易。想想在计算机时代之前的数据上应用cpu或内存密集型计算方法。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-4-28 17:55:09
计算能力增加的最著名定律是以戈登·摩尔命名的,他注意到集成电路中晶体管的最佳数量随时间呈指数增长(时间是τ\'2年的两倍)[23]。但到目前为止,计算的其他重要方面已经随着时间呈指数增长,例如单位能量的计算量(库米定律,τ\'1.5年[18])或存储价格(克莱德定律,τ\'2年[19])。值得注意的是,这些技术进步反映在金融数据中最小反应时间尺度的演变上[16]。此外,最近在大数据集上召集和释放海量云计算能力的能力改变了金融数据分析的方式。很难解释这种偏见。出于教育目的,人们可以通过qemu[2]等虚拟机来熟悉过去的计算机能力,这些虚拟机可以模拟在给定时间、给定金额的计算机的速度和内存。同样的偏见也延伸到统计学和机器学习文献的进步,甚至延伸到人们理解市场动态的方式上:使用特定的方法可能会在其出版前产生比一两年后更好的结果。人们可以将这一论点延伸到在任何给定时间对金融数据进行测试的方法的历史性,因为它们遵循时尚。无论如何,这是回溯测试的一个方面,值得进行更系统的研究。B.数据偏差数据有两种偏差。首先,当对依赖于外部信号的策略进行回溯测试时,必须首先询问自己该信号是否在其包含的日期可用。GT数据在2008年8月6日之前不可靠,每几个月随机更新一次[27]。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-4-28 17:55:13
之前的回溯测试包含了科学研究中不可避免的一部分,但仍然有助于校准策略。第二个问题是,由于几个原因,数据被修改了。原始财务数据通常包含严重错误(错误或缺失的价格、数量等),但这是过去必须使用的数据。之后下载的历史数据通常会被部分清除。[10] 提供关于高频数据清理的好建议。对宏观经济数据的修正也很常见。例如,国内生产总值(GDP)估计值在达到定义值之前要进行多次修订(关于修订的可预测性,见例[13])。更反常的是,数据修订包括格式更改:GT返回的数据类型在2012年底进行了调整。它过去是由实数组成的,其标准化并不完全透明;这也给这些数字带来了不确定性。相当一致的是,数字本身会在给定的错误时间内发生变化,人们会下载相同关键字的数据。如今,GT返回0到100之间的整数,100是时间序列的最大值,0是其最小值;因此,四舍五入过程隐藏了GT数据的微小变化;误差条不再可用,但可以公平地假设±1的波动应被视为无关。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群