全部版块 我的主页
论坛 经济学人 二区 外文文献专区
1191 24
2022-05-06
英文标题:
《Stock Market Prediction from WSJ: Text Mining via Sparse Matrix
  Factorization》
---
作者:
Felix Ming Fai Wong, Zhenming Liu, Mung Chiang
---
最新提交年份:
2014
---
英文摘要:
  We revisit the problem of predicting directional movements of stock prices based on news articles: here our algorithm uses daily articles from The Wall Street Journal to predict the closing stock prices on the same day. We propose a unified latent space model to characterize the \"co-movements\" between stock prices and news articles. Unlike many existing approaches, our new model is able to simultaneously leverage the correlations: (a) among stock prices, (b) among news articles, and (c) between stock prices and news articles. Thus, our model is able to make daily predictions on more than 500 stocks (most of which are not even mentioned in any news article) while having low complexity. We carry out extensive backtesting on trading strategies based on our algorithm. The result shows that our model has substantially better accuracy rate (55.7%) compared to many widely used algorithms. The return (56%) and Sharpe ratio due to a trading strategy based on our model are also much higher than baseline indices.
---
中文摘要:
我们再次讨论了基于新闻文章预测股票价格方向变动的问题:在这里,我们的算法使用《华尔街日报》的每日文章来预测当天的收盘价格。我们提出了一个统一的潜在空间模型来描述股票价格和新闻文章之间的“共同运动”。与许多现有方法不同,我们的新模型能够同时利用相关性:(a)股票价格之间的相关性,(b)新闻文章之间的相关性,以及(c)股票价格与新闻文章之间的相关性。因此,我们的模型能够对500多只股票进行每日预测(其中大多数股票甚至没有在任何新闻文章中提及),同时具有较低的复杂性。基于我们的算法,我们对交易策略进行了广泛的回溯测试。结果表明,与许多广泛使用的算法相比,我们的模型具有更好的准确率(55.7%)。基于我们模型的交易策略产生的回报率(56%)和夏普比率也远高于基准指数。
---
分类信息:

一级分类:Computer Science        计算机科学
二级分类:Machine Learning        机器学习
分类描述:Papers on all aspects of machine learning research (supervised, unsupervised, reinforcement learning, bandit problems, and so on) including also robustness, explanation, fairness, and methodology. cs.LG is also an appropriate primary category for applications of machine learning methods.
关于机器学习研究的所有方面的论文(有监督的,无监督的,强化学习,强盗问题,等等),包括健壮性,解释性,公平性和方法论。对于机器学习方法的应用,CS.LG也是一个合适的主要类别。
--
一级分类:Quantitative Finance        数量金融学
二级分类:Statistical Finance        统计金融
分类描述:Statistical, econometric and econophysics analyses with applications to financial markets and economic data
统计、计量经济学和经济物理学分析及其在金融市场和经济数据中的应用
--

---
PDF下载:
-->
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2022-5-6 09:31:01
《华尔街日报》的股市预测:基于稀疏矩阵分解的文本挖掘Felix Ming Fai Wong,Liu Zhenming,Mung Chiang PrincetonUniversitymwthree@princeton.edu, zhenming@cs.princeton.edu, chiangm@princeton.eduAbstract-我们再次讨论了基于新闻文章预测股价方向性波动的问题:我们的算法使用《华尔街日报》的每日文章预测当天的收盘价。我们提出了auni fied潜在空间模型来描述股票价格和新闻文章之间的“共同运动”。与许多现有方法不同,我们的新模型能够同时利用相关性:(a)股票价格之间的相关性,(b)新闻文章之间的相关性,以及(c)股票价格和新闻文章之间的相关性。因此,我们的模型能够对500多只股票进行每日预测(其中大多数股票甚至没有在任何新闻文章中提及),同时具有较低的复杂性。基于我们的算法,我们对交易策略进行了广泛的回溯测试。结果表明,与许多广泛使用的算法相比,我们的模型具有更高的准确率(55.7%)。基于我们模型的交易策略产生的回报率(56%)和利差也远高于基准指数。I.简介金融市场算法交易的一个主要目标是预测在当前交易日结束时,随着算法不断接收到新的市场信息,股票价格是上涨还是下跌。问题的一个变体是基于新闻文章构建有效的预测算法。理解这个问题很重要,有两个原因:(1)更好的解决方案有助于我们更深入地了解金融市场对新闻的反应,这是金融领域一个长期存在的问题[1-3]。(2) 它在机器学习中提出了一个独特的挑战,时间序列分析与文本信息检索相结合。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-6 09:31:06
虽然人们对基于新闻的股价预测进行了相当广泛的研究,但在同时利用(1)股价之间的相关性,(2)新闻文章之间的相关性,以及(3)股价与新闻文章之间的相关性[4]方面的工作却少得多。在本文中,我们重新审视了基于新闻文章的股价预测问题。在每个交易日,我们向预测算法提供当天《华尔街日报》(WSJ)上出现的所有文章(在开盘前可用),然后我们要求算法预测标准普尔500指数、道琼斯工业平均指数(DJIA)和纳斯达克(Nasdaq)的每只股票是上涨还是下跌。我们的算法的准确率约为55%(基于≥ 10万个测试用例)。这应与预测精度低于51.5%的时间序列的“教科书模型”进行对比(见第五节)。我们还指出,我们需要算法来预测所有感兴趣的股票,而大多数股票在一篇典型的WSJNews论文中根本没有提及。另一方面,大多数现有的基于新闻的预测算法只能预测新闻中明确提到的股票。最后,当我们使用该算法构建投资组合时,我们发现我们的投资组合收益率与许多标准指数相比有实质性的提高(见图4(b))。表现出人意料。我们对算法的性能感到非常惊讶,原因如下。(1) 我们的算法以最少的数据运行。这里,我们只使用每日开盘价和收盘价以及《华尔街日报》的新闻文章。很明显,华尔街上所有认真的交易员都可以访问这两部分信息,以及更多信息。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-6 09:31:10
根据有效市场假说,基于我们的数据集很难找到套利(事实上,有效市场假说解释了为什么“教科书模型”的准确率低于51.5%)。因此,我们对算法的性能很感兴趣。市场似乎也不像人们想象的那么有效。(2) 我们的模型很自然,但似乎以前从未研究过。正如我们将在第四节中看到的,我们的模型很自然地捕捉到了股票价格变动和新闻报道之间的相关性。虽然基于新闻的股价预测问题已经得到了深入研究[4],但我们在现有文献中还没有看到类似的模型。第七节还将我们的模型与一些重要的现有方法进行了比较。(3) 我们的算法是健壮的。《华尔街日报》的许多文章都是前一天发生的事件(而不是报道一夜之间形成的新闻故事)。直觉上,市场应该能够立即吸收信息,因此“旧新闻”应该被排除在预测算法之外。我们的算法不尝试过滤任何新闻,因为判断新闻文章的新鲜度似乎非常困难,但即使大部分输入不是新闻,我们的算法仍然可以做出有价值的预测。我们的方法。我们现在概述我们的解决方案。我们建立了一个新的潜在因素模型来解释股票价格和新闻。我们的模型源于时间序列分析和信息检索中的直截了当的想法:当我们研究多个股票价格的CO运动时,我们注意到价格运动可以嵌入一个低维空间。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-6 09:31:15
可以使用标准技术(如奇异值分解)来“提取”低维空间。另一方面,当我们分析新闻文章中的文本时,将每篇文章嵌入潜在空间也是标准的,使用的技术包括概率潜在语义分析或潜在Dirichlet分配[5]。我们在这里的关键观察是,股价和金融新闻应该“共享”相同的潜在空间。例如,空间坐标可以表示股票和新闻文章在不同行业(如技术、能源)和/或主题(如社会、政治)上的权重。那么,如果一篇新鲜新闻文章是关于“原油”的,我们应该会看到在“能源部门”方向权重更高的股票价格的更大波动。因此,我们的方法产生了一个更简单、更易于解释的模型。但即使在这个简化的模型中,我们也面临着严重的过度配置问题:我们使用了六年的每日交易数据。因此,总共只有大约1500个交易日。另一方面,我们需要预测500只左右的股票。当我们的潜在空间只有10维时,我们已经有了5000个参数。在这种情况下,需要适当的正则化。最后,我们的推理问题涉及非凸优化。我们使用交替方向乘子法(ADMM)[6]来解决这个问题。在这里,ADMM解决方案中的变量是矩阵,因此我们需要更通用的ADMM版本。虽然广义分析是相当超前的,但它似乎没有出现在文献中。这种对广义ADMM的分析可能具有独立的意义。综上所述,1)我们提出了一个统一的、自然的模型来利用股价波动和新闻报道之间的相关性。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-6 09:31:25
这个模型允许我们预测所有感兴趣的股票的价格,即使大多数股票在新闻中没有提及。2) 我们开发了适当的规则化推理机制来解决数据匹配问题。3) 我们进行了大量的回溯测试实验,以验证我们算法的有效性。我们还将我们的算法与许多广泛使用的模型进行了比较,并观察到性能显著提高。二、表示法和初步假设有n个股票,m个单词和s+1天(索引ast=0,1,…,s)。然后我们定义了以下变量:oxit:股票i在t天的收盘价,oyjt:单词j在t天的强度,orit=log西溪,t-1.: 在t天记录股票i的返还≥ 1.使用报纸文本的股市预测问题公式如下:对于给定的t天,使用历史数据[rit],[yjt](对于t)≤ t) 今天早上的报纸[yjt]预测[rit],对于所有i和j。在本文中,我们计算yjt作为包含单词j的报纸文章数量的z分数,相对于前几天的文章计数。为了减少噪声,可以从给定[xi,t]的[rit]中恢复额外的阈值[xit]-1] 这是众所周知的。包括删除负值或低于3个标准差的值的步骤。数据集。我们使用了近六年的股票数据和《华尔街日报》的报纸文本。我们确定了553只股票,这些股票在2008年1月1日至2013年9月30日期间交易,并在该期间至少在标准普尔500指数、道琼斯工业平均指数或纳斯达克股票指数中上市。然后我们从CRSP下载了这些股票的开盘价和收盘价。其他股票信息从CompuStat下载。对于文本数据,我们下载了《华尔街日报》印刷版在同一时期发表的所有文章的全文。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群