全部版块 我的主页
论坛 经济学人 二区 外文文献专区
406 16
2022-05-13
英文标题:
《Do Google Trend data contain more predictability than price returns?》
---
作者:
Damien Challet and Ahmed Bel Hadj Ayed
---
最新提交年份:
2014
---
英文摘要:
  Using non-linear machine learning methods and a proper backtest procedure, we critically examine the claim that Google Trends can predict future price returns. We first review the many potential biases that may influence backtests with this kind of data positively, the choice of keywords being by far the greatest culprit. We then argue that the real question is whether such data contain more predictability than price returns themselves: our backtest yields a performance of about 17bps per week which only weakly depends on the kind of data on which predictors are based, i.e. either past price returns or Google Trends data, or both.
---
中文摘要:
使用非线性机器学习方法和适当的回溯测试程序,我们批判性地检验了谷歌趋势可以预测未来价格回报的说法。我们首先回顾了许多可能会对此类数据的回溯测试产生积极影响的潜在偏差,到目前为止,关键词的选择是最大的罪魁祸首。然后,我们认为真正的问题是,这些数据是否比价格回报本身更具可预测性:我们的回溯测试每周产生约17个基点的表现,这仅弱地取决于预测因素所基于的数据类型,即过去的价格回报或谷歌趋势数据,或两者兼而有之。
---
分类信息:

一级分类:Quantitative Finance        数量金融学
二级分类:Trading and Market Microstructure        交易与市场微观结构
分类描述:Market microstructure, liquidity, exchange and auction design, automated trading, agent-based modeling and market-making
市场微观结构,流动性,交易和拍卖设计,自动化交易,基于代理的建模和做市
--
一级分类:Physics        物理学
二级分类:Physics and Society        物理学与社会
分类描述:Structure, dynamics and collective behavior of societies and groups (human or otherwise). Quantitative analysis of social networks and other complex networks. Physics and engineering of infrastructure and systems of broad societal impact (e.g., energy grids, transportation networks).
社会和团体(人类或其他)的结构、动态和集体行为。社会网络和其他复杂网络的定量分析。具有广泛社会影响的基础设施和系统(如能源网、运输网络)的物理和工程。
--

---
PDF下载:
-->
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2022-5-13 08:41:12
谷歌趋势数据是否比价格回报更具可预测性?Damien Challet1,2和Ahmed Bel Hadj AyedChaire金融量化研究中心为巴黎中央大学和维涅学院的数学系统贴花,92295 Ch^atenay Malabry,Francencellade Capital SAEPFL创新园,建造C1015洛桑,瑞士,采用非线性机器学习方法和适当的回溯测试程序,我们严格审查了谷歌趋势可以预测未来价格回报的说法。我们回顾了可能会对此类数据的回溯测试产生积极影响的许多潜在偏见,到目前为止,关键词的选择是最大的罪魁祸首。然后,我们认为真正的问题是,这些数据是否比价格回报本身更具可预测性:我们的回溯测试每周产生约17个基点的表现,这只在很大程度上取决于预测因素所基于的数据类型,即过去的价格回报或谷歌趋势数据,或两者兼而有之。1简介由于来自在线服务的大量数据,以前所未有的频率和焦点把握社会脉搏已成为可能。因此,这些数据已被用于预测当前[Choi and Varian,2012](Castle et al[2009]称为“实时预测”),也就是说,用于改进对正在创建但其数据将在给定时期结束时显示的数量的估计。后者包括失业、旅行和消费者信心数据[Choi and Varian,2012]、公司季度收入(来自对其主要产品的搜索)[Da等人,2011]、GDP估计[Castleet等人,2009]和流感疫情[Ginsberg等人,2008]。出于显而易见的原因,资产价格的情况尤其令人感兴趣。看起来很自然,实际交易过的人的在线活动在某种程度上与同期的价格变化有关。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-13 08:41:15
然而,用这些数据预测资产价格的变化是一项困难得多的任务。这一想法绝不是最近基于谷歌趋势数据2(见Antweiler和Frank[2004])对一种投机策略进行的回溯测试。这些文献调查了专门讨论金融[Antweiler and Frank,2004年,Rechenthinet等人,2013年]、报纸[Gerow and Keane,2011年]、推文[Bollen等人,2011年]、博客[Gilbert and Karahalios,2010年]、或其中一部分[Mao等人,2011年]的交易者情绪。然而,确定交易者的情绪需要分析帖子的内容,并将其分为正面或负面。一种更简单的方法是使用Google Trends(GT),其中报告所选关键字的历史搜索量兴趣(SVI),并将SVI与兴趣交易量的财务数量联系起来,例如价格波动或价格回报[Da等人,2011年,Gerow and Keane,2011年,Wang,2012年,Bordino等人,2012年,武田和Wakao,2013年,Preis等人,2013年,Kristoufek,2013年]。研究结果可以总结如下:使用此类数据预测成交量或波动性相对容易,但与未来价格回报的相关性要弱得多。顺便说一句,这符合金融从业者的日常经验,他们使用价格回报而不是花哨的大数据。在这里,我们讨论了基于GT数据对交易策略进行回溯测试所需的每一步中可能出现的错误。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-13 08:41:17
然后,我们使用基于非线性机器学习方法的行业级回溯测试系统来展示SVI和历史价格回报之间可利用信息内容的近似等价性。因此,我们得出结论,价格回报和GT包含大致相同数量的预测信息,至少在我们使用的方法和挑战社区做得更好的情况下是如此。2.对基于谷歌趋势的投机策略进行回溯测试相当一部分学者认为,定价回报是不可预测的。无条件的原始资产价格当然可以通过不包含任何可预测性的适当随机游走来很好地描述。作为实践者,我们的经验表明,可预测性最好是有条件地找到的,而线性回归并不是在这种情况下发现非随机性的最有效工具。基本上没有线性的价格-收益自相关;然而,在样本中发现,SVI的变化与未来价格回报之间存在一些显著的互相关。人们可能会得出这样的结论:GT数据确实包含比价格回报更多的可利用信息。我们认为,使用这些方法会妨碍人们提出正确的问题,并正确评估任何一种数据的可预测性内容。我们建议首先建立一个非线性预测算法,然后将其与过去的收益、GT数据或两者一起提供,并最终比较每种情况的各自表现。在报告此类比较之前,我们回顾了与使用GT数据进行预测相关的一些危险。俗话说,预测很难,尤其是对未来的预测。但是,对过去的未来进行预测就更难了,因为它往往看起来比应该的容易。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-13 08:41:20
它容易受到多种偏见的影响,这些偏见可能会显著改变其可靠性,通常是积极的[Freeman,2基于谷歌趋势数据31992,Leinweber,2007年,对一种推测性策略进行回溯测试]。其中大多数都是由于令人遗憾的和可能不可避免的趋势,即未来会慢慢变成过去。未来的任何小漏洞都可能使一个无偏见的随机策略成为一个有前途的候选或投机性交易。现在,让我们仔细看看在试图找到GT数据的可预测性时,这是如何发生的。程序如下:1。选择一套交易策略2。选择backtest3的时间段。选择一组资产4。选择一组关键字5。下载GT数据6。选择返回的时间刻度7。选择参数8。使用仅包含GT数据、仅包含价格回报以及两者的预测值计算性能。本文的其余部分将专门讨论上述每个步骤。2.1交易策略必须先做这件事,否则你会对各种策略进行回溯测试,直到你无意中发现好看的策略。学术论文通常测试并报告SVI增加与未来价格回报之间的固定关系。例如,Preis等人[2013]假设SVI相对于其移动平均线的增加应伴随负回报。Kristoufek[2013]也提出了同样的策略,他建议建立一个资产权重随着其各自SVI的函数而降低的投资组合。这一切都不令人满意。事实上,没有任何理由说明给定的关系在整个时期内(它们没有,见下文)以及所有股票应该保持什么样的状态。例如,很容易找到对SVI变化有一致相反反应的两项资产。出于上述原因,线性策略已经过时。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-13 08:41:23
然后一个问题就是选择一系列不会超过输入的策略:可能有许多关键字SVI及其功能作为输入。因此,我们选择使用集成学习作为一种工具,来关联不同类型的信息,并尽可能避免样本中的过度匹配。然而,请注意,这只是我们其中一人实施的回溯测试系统中股票选择和投资决策的一个层面。2回溯测试基于谷歌趋势数据的投机策略42.2回溯测试周期学术论文在2008年停止或开始调查的倾向,即使是2011年撰写的论文[Gerow and Keane,2011],也很有趣。Kristoufek[2013]使用了整个可用长度,清楚地表明SVI和未来回报之间的关系在2008年发生了巨大变化。这意味着必须通过滑入和滑出样本窗口来正确地回溯测试策略[Leinweber,2007]。计算机能力曾经是一个问题,但非常廉价的云计算能力的出现解决了这个问题。2.3资产选择大多数论文对预测一组资产的未来价格回报感兴趣,例如某些指数的组成部分(例如罗素3000[Da等人,2011],道琼斯工业平均指数[Kristoufek,2013]的子集),而一些论文则关注预测指数本身[Preis等人,2013]。我们在这里关注标准普尔100指数的组成部分。一个人应该处理多个资产的原因在于中心极限定理的力量:假设一个人在每个资产价格上平均有一个很小的优势,这个优势将比一个人在相同的优势下投资一个资产(如指数)明显得多。2.4关键词的选择这是一个关键因素,也是最有可能导致过度匹配的原因,因为一个人可能会在不经意间将未来的信息引入过去。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群