全部版块 我的主页
论坛 经济学人 二区 外文文献专区
313 16
2022-06-07
英文标题:
《Do Google Trend data contain more predictability than price returns?》
---
作者:
Damien Challet and Ahmed Bel Hadj Ayed
---
最新提交年份:
2014
---
英文摘要:
  Using non-linear machine learning methods and a proper backtest procedure, we critically examine the claim that Google Trends can predict future price returns. We first review the many potential biases that may influence backtests with this kind of data positively, the choice of keywords being by far the greatest culprit. We then argue that the real question is whether such data contain more predictability than price returns themselves: our backtest yields a performance of about 17bps per week which only weakly depends on the kind of data on which predictors are based, i.e. either past price returns or Google Trends data, or both.
---
中文摘要:
通过使用非线性机器学习方法和适当的回溯测试程序,我们对Google Trends可以预测未来价格回报的说法进行了严格的检验。我们首先回顾了可能对此类数据的回溯测试产生积极影响的许多潜在偏差,到目前为止,关键字的选择是最大的罪魁祸首。然后,我们认为,真正的问题是,这些数据是否比价格回报本身更具可预测性:我们的回溯测试每周产生约17个基点的表现,这仅弱地取决于预测因素所基于的数据类型,即过去的价格回报或谷歌趋势数据,或两者兼而有之。
---
分类信息:

一级分类:Quantitative Finance        数量金融学
二级分类:Trading and Market Microstructure        交易与市场微观结构
分类描述:Market microstructure, liquidity, exchange and auction design, automated trading, agent-based modeling and market-making
市场微观结构,流动性,交易和拍卖设计,自动化交易,基于代理的建模和做市
--
一级分类:Physics        物理学
二级分类:Physics and Society        物理学与社会
分类描述:Structure, dynamics and collective behavior of societies and groups (human or otherwise). Quantitative analysis of social networks and other complex networks. Physics and engineering of infrastructure and systems of broad societal impact (e.g., energy grids, transportation networks).
社会和团体(人类或其他)的结构、动态和集体行为。社会网络和其他复杂网络的定量分析。具有广泛社会影响的基础设施和系统(如能源网、运输网络)的物理和工程。
--

---
PDF下载:
-->
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2022-6-7 18:15:35
谷歌趋势数据是否比价格回报更具可预测性?Damien Challet1,2和Ahmed Belhadj AyedChaire金融量化实验室(quantitativeLaboratoire de math“ematiques Appliques”ees aux System“emes”Ecole Centrale ParisGrande Voie des Vignes,92295 Ch atenay Malabry,Francencelade Capital SAEPFL Innovation Park,Building C1015 Lausane,Switzerlandabstracting非线性机器学习方法和适当的回溯测试程序,我们严格审查了谷歌趋势可以预测未来价格回报的说法。我们回顾了可能对此类数据的回溯测试产生积极影响的许多潜在偏差,到目前为止,关键词的选择是最大的罪魁祸首。然后,我们认为,真正的问题是,这些数据是否比价格回报本身更具可预测性:我们的回溯测试每周产生约17个基点的表现,这仅在很大程度上取决于预测因素所基于的数据类型,即过去的价格回报或谷歌趋势数据,或两者兼而有之。1简介由于来自在线服务的大量数据,以前所未有的频率和焦点把握社会脉搏已成为可能。因此,这些数据被用于预测当前【Choi和Varian,2012年】(Castle et al【2009年】称为“即时预测”),也就是说,改进对正在创建但其图形将在给定时期结束时显示的数量的估计。后者包括失业、旅行和消费者信心指数【Choi和Varian,2012年】、公司季度收入(从对其主要产品的搜索中获得的收益)】Da等人,2011年、GDP估计值【Castleet等人,2009年】和流感疫情【Ginsberg等人,2008年】。出于显而易见的原因,资产价格的情况尤其令人感兴趣。看起来很自然,实际交易过的人的在线活动在某种程度上与同期的价格变化有关。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-7 18:15:38
然而,利用这些数据预测资产价格变化是一项困难得多的任务。这一想法绝不是最近对基于谷歌趋势数据2的投机策略进行的回溯测试(参见Antweiler和Frank[2004])。这些文献调查了专门讨论金融问题的论坛(Antweiler和Frank,2004,Rechenthinet al.,2013)、报纸(Gerow和Keane,2011)、推特(Bollen et al.,2011)、博客(Gilbert和Karahalios,2010)或其中一些论坛(Mao et al.,2011)中的交易员的情绪。然而,决定交易者的情绪需要分析帖子的内容,并将其分为正面或负面。一种更简单的方法是使用Google Trends(GT),其中报告所选关键字的历史搜索量兴趣(SVI),并将SVI与兴趣交易量的财务数量联系起来,例如价格波动或价格回报[Da等人,2011年,Gerow and Keane,2011年,Wang,2012年,Bordino等人,2012年,武田和Wakao,2013年,Preis等人,2013年,Kristoufek,2013年]。研究结果可以总结如下:使用此类数据预测成交量或波动性相对容易,但与未来价格回报的相关性要弱得多。顺便说一句,这符合金融从业者的日常经验,他们使用价格回报而不是花哨的大数据。在这里,我们讨论了基于GT数据对交易策略进行回溯测试所需的每一步中可能出现的错误。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-7 18:15:42
然后,我们使用基于非线性机器学习方法的行业级回溯测试系统来显示SVI和历史价格回报之间可利用信息内容的近似等价性。因此,我们得出结论,价格回报和GT包含的预测信息量大致相同,至少在我们使用的方法上是如此,并向社区提出挑战,要求他们做得更好。2对基于谷歌趋势的投机策略进行回溯测试。相当一部分学者认为,Taprice回报率是不可预测的。无条件的原始资产价格当然可以通过适当的随机游走来很好地描述,但不包含任何可预测性。我们作为实践者的经验表明,可预测性最好是在有条件的情况下找到的,而线性回归并不是在这种情况下发现非随机性的最有效工具。本质上不存在线性价格-收益自相关;然而,在SVI变化和未来价格回报之间(样本中)发现了一些显著的互相关。人们可能会得出这样的结论:GT数据确实包含比价格回报更多的可利用信息。我们认为,使用这些方法会妨碍人们提出正确的问题,并正确评估任何类型数据的可预测性内容。我们建议首先构建一个非线性预测算法,然后将其与过去的收益率、GT数据或两者一起输入,最后比较每种情况的各自表现。在报告此类比较之前,我们回顾了与使用GT数据进行预测相关的一些危险。俗话说,预测很难,尤其是对未来的预测。但是,对过去的未来进行预测更加困难,因为它往往看起来比应该的容易。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-7 18:15:45
它容易产生多种偏见,这些偏见可能会显著改变其可靠性,通常是积极的【Freeman,2基于谷歌趋势数据31992,Leinweber,2007年】对投机策略进行回溯测试】。其中大多数是由于令人遗憾的和可能不可避免的趋势,即未来会悄悄进入过去。未来的任何小漏洞都可能使一种不偏不倚的随机策略成为投机性交易的有希望的候选人。现在,让我们仔细看看在试图发现GT数据的可预测性时,这是如何发生的。程序如下:1。选择一套交易策略2。选择backtest3的周期。选择一组资产4。选择一组关键字5。下载GT数据6。选择returns7的时间刻度。选择参数8。使用仅包含GT数据、仅包含价格回报以及两者的预测值计算性能。本文的其余部分将专门讨论上述每个步骤。2.1交易策略必须首先完成这项工作,否则人们会对各种策略进行回溯测试,直到发现好看的策略为止。学术论文通常测试并报告SVI增长与未来价格回报之间的固定关系。例如,Preis等人(2013年)假设SVI相对于其移动平均值的增加应伴随负回报。Kristoufek(2013)也提出了同样的策略,他建议建立一个资产权重随着各自SVI的函数而减少的投资组合。所有这些都不能令人满意。事实上,没有理由说明为什么给定的关系应该在整个时期内保持不变(它们没有,见下文)以及对所有股票保持不变。例如,很容易找到对SVI变化有一致相反反应的两项资产。出于上述原因,线性策略被淘汰了。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-7 18:15:50
然后,人们面临着选择一系列不会超过输入的策略的问题:可能有许多关键字SVI及其作为输入的功能。因此,我们选择使用集成学习作为一种工具来关联不同类型的信息,并尽可能避免样本内的过度匹配。然而,请注意,这只是我们其中一个人实施的回溯测试系统中股票选择和投资决策的一个层面。2回溯测试基于Google Trends数据的推测策略42.2回溯测试周期2008年,即使是2011年撰写的学术论文,也有停止或开始调查的倾向【Gerow和Keane,2011年】,这很有趣。Kristoufek(2013)使用了整个可用长度,并清楚地表明,2008年SVI与未来回报之间的关系发生了巨大变化。这意味着必须通过滑入和滑出示例窗口来正确地对策略进行回溯测试【Leinweber,2007年】。计算机能力曾经是anissue,但非常廉价的云计算能力的出现解决了这个问题。2.3资产选择大多数论文都对预测一组资产的未来价格回报感兴趣,例如某些指数的组成部分(例如罗素3000指数的子集【Da等人,2011年】、道琼斯工业平均指数【Kristoufek,2013年】),而一些论文则侧重于预测指数本身【Preis等人,2013年】。我们在此重点关注标准普尔100指数的组成部分。一个人应该处理多个资产的原因在于中心极限定理的威力:假设一个人在每个资产价格上平均有一个小的优势,这个优势将比在相同优势下投资单个资产(如指数)明显快得多。2.4关键词的选择这是一个至关重要的因素,也是最有可能导致过度匹配的原因,因为人们可能会将未来的信息引入过去,甚至没有注意到它。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群