《华尔街日报》的股市预测：基于稀疏矩阵的文本挖掘

2022-5-6 09:31:06

虽然人们对基于新闻的股价预测进行了相当广泛的研究，但在同时利用（1）股价之间的相关性，（2）新闻文章之间的相关性，以及（3）股价与新闻文章之间的相关性[4]方面的工作却少得多。在本文中，我们重新审视了基于新闻文章的股价预测问题。在每个交易日，我们向预测算法提供当天《华尔街日报》（WSJ）上出现的所有文章（在开盘前可用），然后我们要求算法预测标准普尔500指数、道琼斯工业平均指数（DJIA）和纳斯达克（Nasdaq）的每只股票是上涨还是下跌。我们的算法的准确率约为55%（基于≥ 10万个测试用例）。这应与预测精度低于51.5%的时间序列的“教科书模型”进行对比（见第五节）。我们还指出，我们需要算法来预测所有感兴趣的股票，而大多数股票在一篇典型的WSJNews论文中根本没有提及。另一方面，大多数现有的基于新闻的预测算法只能预测新闻中明确提到的股票。最后，当我们使用该算法构建投资组合时，我们发现我们的投资组合收益率与许多标准指数相比有实质性的提高（见图4（b））。表现出人意料。我们对算法的性能感到非常惊讶，原因如下。（1）我们的算法以最少的数据运行。这里，我们只使用每日开盘价和收盘价以及《华尔街日报》的新闻文章。很明显，华尔街上所有认真的交易员都可以访问这两部分信息，以及更多信息。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-5-6 09:31:10

根据有效市场假说，基于我们的数据集很难找到套利（事实上，有效市场假说解释了为什么“教科书模型”的准确率低于51.5%）。因此，我们对算法的性能很感兴趣。市场似乎也不像人们想象的那么有效。（2）我们的模型很自然，但似乎以前从未研究过。正如我们将在第四节中看到的，我们的模型很自然地捕捉到了股票价格变动和新闻报道之间的相关性。虽然基于新闻的股价预测问题已经得到了深入研究[4]，但我们在现有文献中还没有看到类似的模型。第七节还将我们的模型与一些重要的现有方法进行了比较。（3）我们的算法是健壮的。《华尔街日报》的许多文章都是前一天发生的事件（而不是报道一夜之间形成的新闻故事）。直觉上，市场应该能够立即吸收信息，因此“旧新闻”应该被排除在预测算法之外。我们的算法不尝试过滤任何新闻，因为判断新闻文章的新鲜度似乎非常困难，但即使大部分输入不是新闻，我们的算法仍然可以做出有价值的预测。我们的方法。我们现在概述我们的解决方案。我们建立了一个新的潜在因素模型来解释股票价格和新闻。我们的模型源于时间序列分析和信息检索中的直截了当的想法：当我们研究多个股票价格的CO运动时，我们注意到价格运动可以嵌入一个低维空间。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-5-6 09:31:15

可以使用标准技术（如奇异值分解）来“提取”低维空间。另一方面，当我们分析新闻文章中的文本时，将每篇文章嵌入潜在空间也是标准的，使用的技术包括概率潜在语义分析或潜在Dirichlet分配[5]。我们在这里的关键观察是，股价和金融新闻应该“共享”相同的潜在空间。例如，空间坐标可以表示股票和新闻文章在不同行业（如技术、能源）和/或主题（如社会、政治）上的权重。那么，如果一篇新鲜新闻文章是关于“原油”的，我们应该会看到在“能源部门”方向权重更高的股票价格的更大波动。因此，我们的方法产生了一个更简单、更易于解释的模型。但即使在这个简化的模型中，我们也面临着严重的过度配置问题：我们使用了六年的每日交易数据。因此，总共只有大约1500个交易日。另一方面，我们需要预测500只左右的股票。当我们的潜在空间只有10维时，我们已经有了5000个参数。在这种情况下，需要适当的正则化。最后，我们的推理问题涉及非凸优化。我们使用交替方向乘子法（ADMM）[6]来解决这个问题。在这里，ADMM解决方案中的变量是矩阵，因此我们需要更通用的ADMM版本。虽然广义分析是相当超前的，但它似乎没有出现在文献中。这种对广义ADMM的分析可能具有独立的意义。综上所述，1）我们提出了一个统一的、自然的模型来利用股价波动和新闻报道之间的相关性。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-5-6 09:31:25

这个模型允许我们预测所有感兴趣的股票的价格，即使大多数股票在新闻中没有提及。2）我们开发了适当的规则化推理机制来解决数据匹配问题。3）我们进行了大量的回溯测试实验，以验证我们算法的有效性。我们还将我们的算法与许多广泛使用的模型进行了比较，并观察到性能显著提高。二、表示法和初步假设有n个股票，m个单词和s+1天（索引ast=0，1，…，s）。然后我们定义了以下变量：oxit：股票i在t天的收盘价，oyjt：单词j在t天的强度，orit=log西溪，t-1.: 在t天记录股票i的返还≥ 1.使用报纸文本的股市预测问题公式如下：对于给定的t天，使用历史数据[rit]，[yjt]（对于t）≤ t）今天早上的报纸[yjt]预测[rit]，对于所有i和j。在本文中，我们计算yjt作为包含单词j的报纸文章数量的z分数，相对于前几天的文章计数。为了减少噪声，可以从给定[xi，t]的[rit]中恢复额外的阈值[xit]-1] 这是众所周知的。包括删除负值或低于3个标准差的值的步骤。数据集。我们使用了近六年的股票数据和《华尔街日报》的报纸文本。我们确定了553只股票，这些股票在2008年1月1日至2013年9月30日期间交易，并在该期间至少在标准普尔500指数、道琼斯工业平均指数或纳斯达克股票指数中上市。然后我们从CRSP下载了这些股票的开盘价和收盘价。其他股票信息从CompuStat下载。对于文本数据，我们下载了《华尔街日报》印刷版在同一时期发表的所有文章的全文。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

点击查看更多内容…

2022-5-6 09:31:29

我们计算了每天提到频率最高的1000个单词和553只股票的公司名称的文档数量。在申请了一份禁止入内名单并删除了提及次数太少的公司名称后，我们得到了一份1354个单词的名单。三、稀疏矩阵分解模型利用矩阵分解技术的最新进展进行协作过滤[7]，我们提出了一个统一的框架，其中包括（1）历史股价，（2）不同股票之间的相关性，（3）预测股价变动的报纸内容。我们的技术基础是一个潜在因素模型，该模型描述了一只股票（例如，它是一只能源股）和一天的平均投资者情绪（例如，美国的经济增长变得更加强劲，因此能源需求预计将增加），并且一只股票在某一天的价格是该股票的潜在特征和当天投资者情绪的函数。而非维向量i是一个负的股票交易空间∈ Rd+和交易日由另一个特征向量vt描述∈ Rd.现在，如果已知weassume ui和vt，我们将t天的日志返回^rit建模为特征向量^rit=uTivt+的内积,哪里是一个噪音术语。在当前设置中，我们只能通过yt=[yjt]描述的当天早上的报纸文章来传递VT∈ Rm+，所以我们可以自然地假设线性变换W∈ Rd×mto将yt映射到vt，即vt=W yt。然后，对数回归预测可以表示为^rit=uTiW yt。（1）我们的目标是利用s天的历史数据学习特征向量UIW和mappingW。用矩阵形式书写：让R=[rit]∈ Rn×s，U=[U··un]T∈ Rn×d，Y=[Y··ys]∈ Rm×s，我们的目标是≥0，WkR- UW Y kF。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-5-6 09:31:32

（2）注：此处，U行是股票的潜在变量，W Y列是股票分割的潜在变量。我们调整股票分割的价格，但在我们的评估中不考虑股息。CRSP，证券价格研究中心。芝加哥大学商学院，2014年。经允许使用。好的。www.crsp。内西卡哥。教育新闻。我们允许U和W Y中的一个是负面的，以反映新闻可能带来负面情绪的事实，而我们强制另一个是非负面的，以控制模型的复杂性。此外，当U和W Y都为负值时，模型的可解释性变差。注：我们的公式与标准矩阵分解问题类似，只是我们添加了矩阵Y。一旦我们解出了U和W，我们就可以通过^xit=xi，t来预测第t天的价格^xit-1exp（^rit）=xi，t-1expuTiW yt考虑到前一天的价格，xi，t-1和相应的晨报文字矢量yt。过度装修。我们现在要解决过度装修的问题。在这里，我们为我们的模型引入了以下两个额外的要求：1）我们要求模型能够生成一个预测的log-returns矩阵^R=[^rit]，该矩阵接近R，同时具有低秩；2）稀疏，因为我们预期许多词与股市预测无关（一个特征选择问题），并且每个选择的词与很少的因素相关。如果我们设置了 s、第二个要求促使我们在优化公式中引入稀疏群套索[8]正则化项。更具体地说，特征选择意味着我们只希望W的所有列数（每列对应一个单词）为非零，这可以通过引入正则化项λPmj=1kWjk来实现，其中Wjdenotes是W的第j列，λ是正则化参数。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-5-6 09:31:37

另一方面，每个单词都与很少的因素相关联，这意味着对于每个相关的单词，我们希望它的列本身是稀疏的。这可以通过引入正则化项uPnj=1kWjk=ukW k来诱导，其中u是另一个正则化参数，而kW kis则以元素为单位。因此，我们的优化问题就变成了SMINIMIZEU，WkR- UW Y kF+λmXj=1kWjk+ukW k受U影响≥ 0.（3）我们注意到，我们还研究了其他正则化方法，例如正则化和普通群套索，但它们的性能并不优于基线算法。由于篇幅的限制，本文着重于理解当前方法的性能。四、优化算法我们的问题是双凸的，即在U或WB中都是凸的，但不是联合的。据观察，ADMM可以有效地解决此类问题[9]。在这里，我们研究如何在我们的环境中应用这些技术。我们重写了优化问题，用指示函数代替非负约束，并引入辅助变量a和B:minimizeA，B，U，WkR- ABY kF+λmXj=1kWjk+ukW k+I+（U）受制于A=U，B=W，（4）其中I+（U）=0，如果U≥ 0和I+（U）=∞ 否则我们引入了拉格朗日乘子C和D，并公式化了问题的增广拉格朗日：Lρ（A，B，U，W，C，D）=kR- （mx+wjk+kfi）+1kCT（A）- U）+ trDT（B）- W）+ρkA- UkF+ρkB- W kF。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-5-6 09:31:42

（5）使用ADMM，我们迭代地更新变量A，B，U，W，C，D，这样在每次迭代中（将G+表示为某个变量G的更新值）：A+=argminALρ（A，B，U，W，C，D）B+=argminBLρ（A+，B，U，W，C，D）U+=argminULρ（A+，B+，U，W，C，D）W+=argminWLρ（A+，B+，B+，U，C，D）C+=C+ρ（A+）+- U+D+=D+ρ（B）+- W+。算法1列出了ADMM优化中涉及的步骤，本节剩余部分将详细说明更新步骤。算法1（3）的ADMM优化。输入：R，Y，λ，u，ρ输出：U，WinInitialize A，B，C，DrepeatA← （RYTBT）- C+ρU）（由YTBT+ρI编写）-1B← 解决方案ρATAB（Y-YT）+B=ρ（ATRYT）- D） +吴←A+ρC+对于j=1到m的情况←kwk- λρkwk+w、式中w=ρsgn（v）（|v|- u/ρ）+，v=Bj+Dj/ρ结束← C+Aρ- U） D← D+ρ（B）- W）在利用kGkF=tr（GTG）这一事实达到收敛或最大迭代之前，我们用矩阵迹表示改进的拉格朗日函数：Lρ=tr（R）- ABY）T（R）- ABY）+ λmXj=1kWjk+ukW k+I+（U）+trCT（A）- U）+ trDT（B）- W）+ρtr（A）- U） T（A）- U）+ρtr（B）- W）T（B）- W）,然后我们展开并取导数，如下所示。A.我们有LρA=tr（YTBataby）A.-· 2.tr（RTABY）A+tr（CTA）A+ρtr（ATA）A.-ρ· 2tr（UTA）A=ABY YTBT- RYTBT+C+ρA- ρU。通过将导数设置为0，最佳A*满足感*= （RYTBT）- C+ρU）（由YTBT+ρI编写）-1.更新B.同样，LρB=tr（YTBataby）B-· 2.tr（RTABY）B+tr（DTB）B+ρtr（BTB）B-ρ· 2tr（WTB）B、然后设置0并重新排列，我们有ρATAB*（Y-YT）+B*=ρ（ATRYT）- D） +W.因此B*可通过求解上述形式的Sylvestermatrix方程AXB+X=C来计算。求解矩阵方程AXB+X=C。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-5-6 09:31:47

为了求解X，我们应用Hessenberg-Schur方法[10]如下：1）计算H=UTAU，其中UTU=I和H为上Hessenberg，即所有I>j+1.2的Hij=0）计算S=VTBV，其中VTV=I和S为准三角形，即S为三角形，除了沿对角线可能有2×2个块。3）计算F=UTCV。4）通过反代换求解HY ST+Y=F中的Y。5）通过计算X=UY VT求解X。为了避免重复计算昂贵的合成步骤（步骤2），我们预先计算并存储结果，以便在ADMM的多次迭代中使用。这使我们无法使用对数值包（例如，Matlab中的dlyap（））的单行调用来求解方程。这里我们详细介绍了反向替换步骤（步骤4），在[10]中省略了该步骤。在[10]之后，我们使用mk和mijtode分别记录矩阵mr的第k列和（i，j）-th元素。由于S是准上三角的，我们可以从最后一列解出Y，然后再返回到最后一列，以此类推。唯一复杂的情况是存在2×2非零块；在这种情况下，我们同时求解两列。更具体地说：（a）如果sk，k-1=0，我们有nXj=kskjyj+ yk=fk（skkH+I）yk=fk- HnXj=k+1skjyj，然后我们可以通过高斯消去法来求解。（b）如果sk，k-16=0，我们有yk-1yksk-1，k-1sk，k-1sk-1，kskk+yk-1yk=fk-1fk-nXj=k+1Hsk-1，jyjskjyj.左手边可以重写sk-1，k-1yk-1+sk-1，kyksk，k-1yk-1+skkyk+yk-1yk= [（sk）-1，k-1H+I）yk-1+sk-1，kHyk·sk，k-1Hyk-1+（skkH+I）yk]=sk-1，k-1H+I sk-1，kHsk，k-1H skkH+Iyk-1yk通过写作yk-1yk像yk-1yk. 右手边也可以改写为fk-1fk-nXj=k+1sk-1、jHyjskjHyj.因此，我们可以求解列yk和yk-1同时通过高斯消去法sk-1，k-1H+I sk-1，kHsk，k-1H skkH+Iyk-1yk=fk-1fk-nXj=k+1sk-1、jHyjskjHyj.更新你。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-5-6 09:31:51

注意U+=argminUI+（U）- tr（CTU）+ρkA- UkF=argminUI+（U）+ρA+ρC- UF=A+ρC+,步骤2中的最小化等价于将欧几里德投影到非负矩阵的凸集上[6]。更新W。选择W以最小化λmXj=1kWjk+ukW k- tr（DTW）+ρkB- W kF。请注意，这个优化问题可以分别针对W的m列中的每一列来解决：W*j=argminuλkuk+ukuk- DTju+ρkBj- uk=argminuλkuk+ukuk+ρU-Bj+Djρ,（6）通过研究上述表达式的次微分，我们可以得到一个闭式解。引理1。设F（u）=λkuk+ukuk+ρ/2ku- vk。然后是最小u*关于F（u）isu*=kwk- λρkwk+w、式中，w=[wi]定义为wi=ρsgn（vi）（|vi |- u/ρ)+.这个结果在[11]中以稍微不同的形式给出。我们在这里提供了更详细的完整性证明。证据：u*是一个极小iff 0∈ F（u）*), 哪里F（u）=λkuk+u库克+ρku- vk，和库克=努库库6=0{s| ksk≤ 1} u=0库克=[|ui |]|ui |=（{sgn（ui）}ui6=0[-1,1]ui=0。在下文中，k·k表示k·k，而sgn（·），|··，（·）+如果在向量上操作，则理解为按元素进行。有两个案例需要考虑：案例1:kwk≤ λ这意味着u*= 0, 库*k={s|ksk≤ 1}, 库*k={t|t∈ [-1,1]n}，和库*- vk=-ρv.Then0∈ F（u）*) <==> 0∈ {λs+ut- ρv | ksk≤ 1，t∈ [-1,1]n}<==> s:ksk≤ 1，t∈ [-1,1]ns。Tλs+ut=ρv<==> 五、-uρt=λρs.现在我们证明满足上述条件的（s，t）对确实存在。定义t=[ti]如此=ρuvi|vi|≤μρ，sgn（vi）|vi |>μρ。如果| vi |≤ u/ρ，然后ρ/u(-u/ρ) ≤ 钛≤ ρ/u(u/ρ) => 钛∈[-1, 1]. 如果| vi |>u/ρ，那么显然是ti∈ [-1, 1]. 因此我们没有∈ [-1,1]n.现在定义s=（ρv- ut）/λ。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-5-6 09:32:01

我们首先写出ρsgn（vi）|vi |- uti=ρvi- uρuvi|vi|≤uρsgn（vi）|vi |- usgn（vi）|vi |>uρ=0 | vi |≤μρρsgn（vi）|vi|-uρ|vi |>uρ=ρsgn（vi）|vi|-uρ+.然后我们展示ksk≤ 1:ksk=λkρv- utk=λkρsgn（v）|v|- utk=λρsgn（v）|v|-uρ+=λkwk≤ 1.因此我们显示了0∈ F（u）*) 为了kwk≤ λ.案例2:kwk>λ这里是kwk-λ>0，我们有u*= （kwk）-λ） /（ρkwk）·w.因为kwk6=0意味着w6=0，所以我们也有u*6= 0.然后库*k={u/kuk}和F（u）*) =nλku*库*+ ρ（u）*- v） o+u库*k=ρλkwk- λ+ ρU*- ρv+ u库*k、最后一步利用ku*k=（kwk）- λ） /（ρkwk）·kwk=（kwk）- λ)/ρ.我们的目标是展示0∈ F（u）*), 如果它是有效的，也就是说，0∈ Fi（u）*) =ρλkwk- λ+ ρU*我- ρvi+ u|U*我|。我们考虑每个元素u的两个子类*i、（a）案例u*i=0是wi=0的结果，wi=0又是| vi |≤ u/ρ. 然后Fi（u）*) =ρλkwk- λ+ ρ· 0- ρvi+ u|0 |={us- ρvi|s∈ [-1, 1]}= [-u - ρvi，u- ρvi]。请注意，对于所有viwith | vi |≤ u/ρ上述区间包括0，因为-u - ρvi≤ -u - ρ-uρ= 0u - ρvi≥ u - ρuρ= 0.因此0∈ Fi（u）*).（b）案例u*i6=0对应于| vi |>u/ρ。然后Fi（u）*)=ρλkwk- λ+ ρU*我- ρvi+ {usgn（u）*i） }=ρKWKWK- λu*我- ρvi+usgn（vi）=ρKWKWK- λkwk- λρkwkρsgn（vi）|vi|-uρ- ρvi+usgn（vi）= {ρvi- usgn（vi）- ρvi+usgn（vi）}={0}，其中第二步来自sgn（u）*i） =sgn（vi）由u定义*i、因此0∈ Fi（u）*) 对于kwk>λ。应用引理1到（6），我们得到了*j=kwk- λρkwk+w、式中，w=ρsgn（v）|v|-uρ+v=Bj+Djρ。V.评估我们将数据集分为2008年至2011年（1008个交易日）的培训集、2012年（250个交易日）的验证集和2013年前三季度（188个交易日）的测试集。在下文中，我们报告了2012年（验证集）和2013年（测试集）的结果，因为两年之间的比较揭示了有趣的见解。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

大多数88

2022-5-6 09:32:05

在我们的评估中，我们假设d=10，即10个潜在因素。A.价格方向预测首先，我们专注于使用一个上午的新闻文本来预测一只股票当天的收盘价。因为我们的最终目标是设计一个可操作的股票交易策略，所以我们的绩效指标是预测价格波动的上/下方向的准确性，在评估期内所有股票和所有天数的平均值。我们将我们的方法与下面概述的基线模型进行比较。前两个基线是微不足道的模型，但在实践中观察到，它们会产生较小的最小二乘预测误差上一个X：我们假设股票价格是浮动的，即我们总是预测今天的收盘价与昨天的收盘价相同上一个R：我们假设回报率R为F，即今天的回报率与前一天的回报率相同。注：我们可以很容易地在预测价格^X和预测收益^R之间进行转换。历史价格的自回归（AR）模型（“ARon X”）和收益（“AR on R”）：我们改变了AR模型的顺序，发现它们给出了最佳性能顺序10，即预测取决于之前tenday的价格/收益X/R回归：我们也对前一天所有股票的价格/回报进行回归，以预测股票的稳定价格预测结果。模型精度\'12（%）精度\'13（%）我们的53.9 55.7先前的X 49.9 46.9先前的R 49.9 49.1AR（10）在X 50.4 49.5AR（10）在R 50.6 50.9上的回归X 50.2 51.4在R 48.9 50.80 100 200 3000.450.550.60.65上的回归。1.每种股票的定向精度散点图。价格/回报，以捕捉不同股票之间的相关性。表一总结了本节的评估结果。我们的方法在方向准确性方面比所有基线都好。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

大多数88

2022-5-6 09:32:08

虽然这些改进看起来只有几个百分点，但我们将在下一节中看到，它们带来了显著的财务收益。请注意，我们的准确度结果不应直接与现有工作中的其他结果进行比较，因为评估环境不同。影响评估结果的因素包括评估时间跨度（年vs周）、数据规模（华尔街日报vs多源）、预测频率（日vs日内）和预测目标（固定集合中的所有股票vs新闻报道的股票或股票指数）。《华尔街日报》没有提到的股票。对于《华尔街日报》中很少提及的股票，我们的算法的性能不会降低：图1给出了股票方向精度与《华尔街日报》中提及次数的散点图。人们可以看到，准确度和提及频率之间并不存在正相关关系。据我们所知，现有的预测算法都不具备这种特性。B.交易策略的回溯测试我们接下来将根据我们的预测算法评估交易策略。我们考虑以下简单化的交易策略：每天早上，我们预测所有股票的收盘价，并使用我们的流动资金以“上涨”预测购买所有股票，这样所有购买的股票都有相同的投资金额。股票按当日开盘价买入。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

可人4

2022-5-6 09:32:11

一天结束时，我们卖掉了第二天早上所需的全部资金。我们将我们的方法与三组基线进行比较：合并做空和交易成本是未来的工作。o三大主要股票指数（标准普尔500指数、道琼斯工业平均指数和纳斯达克指数）o统一投资组合，即在每只股票上花费等量的资本金，以及o最小方差投资组合（MVP）[12]，预期回报率为历史股票回报率的95%。对于后两种策略，我们考虑买入并持有（BAH）策略，即在评估期的第一天买入股票，并仅在最后一天卖出，以及恒量平衡（CBAL），即对于给定的股票组合（权重），我们通过每天卖出并重新购买来维持股票权重。在[13]之后（参见关于指标选择的讨论），我们使用五个绩效指标：累积回报率、最差日回报率=最低（Xit）-Xi，t-1） /Xi，t-1、最大提款、5%水平的条件值风险（CVaR）和以标准普尔500指数回报为参考的每日夏普比率。表二和表三总结了我们的评估。在这两年中，SOUR策略产生的回报都显著高于所有基准。至于其他绩效指标，我们的战略在2013年主导所有基线，2012年，我们的战略指标要么是最好的，要么接近最佳结果。六、模型和结果的解释。U的块状结构。鉴于我们已经了解了U，每一行都是股票的特征向量，我们通过应用t-SNE[14]将高维（10D）股票特征向量映射到低维（2D）空间来研究这些向量是否给出了有意义的解释。直观地说，相似的股票应该在2D空间中紧密相连，根据北美行业分类系统（NAICS），我们所说的“相似”是指股票处于相同（或相似）的行业。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-5-6 09:32:14

图2（a）通过拥有相同颜色的股票，即同一行业的股票，彼此接近，证实了我们的假设。测试U的另一种方法是计算股票邻接矩阵。图2（b）显示了一个明显的块对角结构的结果，这独立地证实了我们的说法，即所学的U是有意义的。此外，我们还发现，学习到的U还捕捉到NAICS未捕捉到的股票之间的联系。表IV显示了美国银行（BAC）、家得宝（HD）和谷歌（GOOG）最接近的10只股票。对于美国银行（BAC），所有接近的股票都是金融或保险类股票，例如花旗集团（C）和富国银行（WFC），可以从NAICS中轻易推断出来。然而，与HD最接近的股票包括两个零售商，例如Lowe\'s（低）和Target（TGT），以及相关的非零售商，包括Bemis Company（BMS，专门从事柔性包装）和Vulcan Materials（VMC，专门从事建筑材料）。同样，GOOG的案例也揭示了它与生物科技股票的联系，包括CelgeneCorporation（CELG）和Alexion Pharmaceuticals（ALXN）。[15]也报告了类似的结果。W的稀疏性。图3显示了我们学习的W的热图。这表明我们确实能够学习所需的稀疏结构：（a）从几个明亮的列中选择几个单词（特征选择），以及（b）每个选择的单词对应的因素很少。表IV最接近的库存。股票用股票符号表示。目标10个最接近的股票BAC XL STT密钥C WFC FII CME BK STI CMAHDBBY LOW TX BMS VMC ROST TGT ANNKE JCPGOOG CELG QCOM ORCL ALXN CHKP DTV CAFLIR ATVI ECL-20-10 0 10 20-50-40-30-20-10010203040（a）t-SNE位于U排上。每个股票都是一个数据点，每个颜色代表一个NAICS行业。10020030040050050100150200250300350400450500550（b）按相关距离计算的U行邻接矩阵。股票ID按行业分类。图2。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-5-6 09:32:18

可视化股票。研究W揭示了关于股票的进一步见解。我们考虑了表V中列出的两个最新因素的十个最积极和最消极的词。我们注意到，一个因素的积极词列表与另一个因素的消极词列表有显著重叠。这导致我们假设这两个因素是反相关的。为了验证这一假设，我们发现两组股票在一个因素中占主导地位：{IRM、YHOO、RYAAY}在因素1中占主导地位，{HAL、FFIV、MOS}在因素2中占主导地位。然后我们从股票交易所交易的每套股票中配对一只股票：纳斯达克的YHOO和FFIV，以及纽约证券交易所的IRM和HAL。我们通过两支股票相对于最能概括交易所股票的股票指数（例如，纽约证券交易所的标准普尔500指数）的表现（累计回报率）来比较这两支股票，因此低于参考指数的回报率可以被视为与市场无关，高于参考指数的回报率意味着吃了市场。图5显示了两种不同的股票，即股票在该因子中的优势位于所有股票的前40%，而在其他因子中的优势位于后40%。Word IDFactor ID200 400 600 800 1000 120012345678910图。3.W的热图。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-5-6 09:32:21

它是列间和列内稀疏的。表二2012年模拟交易结果。英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语最坏的，最坏的，最坏的，最坏的，最坏的，最坏的，最坏的，最坏的，最坏的，最坏的，最坏的，最坏的，最坏的，最坏的，最坏的，最坏的，最坏的，最坏的，最坏的，最坏的，最坏的，最坏的，最坏的，最坏的，最坏的，最坏的，最坏的，最坏的，最坏的，最坏的，最坏的，最坏的，最坏的，最坏的，最坏的，最坏的，最坏的，最坏的，最坏的，最坏的，最坏的，最坏的，最坏的，最坏的，最坏的，最0.115-0.0172-0.0182表三2013年模拟交易。英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语词汇词汇词汇词汇词汇词汇词汇词汇词汇最差的，最坏的，最坏的，最坏的，最坏的，最坏的，最坏的，最坏的，最坏的，最坏的，最坏的，最坏的，最坏的，最坏的，最坏的，最坏的，最坏的，最坏的，最坏的，最坏的，最坏的，最坏的，最坏的，最坏的，最坏的，最坏的，最坏的，最坏的，最坏的，最坏93 0.0683-0.0154-0.05310 200 400 8001000 1200 14001000100天累计收益率Yhoonasdaqfiv0 200 400 600 800 1000 1200 140010-0.4100.1每日累积回报率IRMS和P 500HALFig。5.具有不同主导因素的股票收益率。绿线是参考指数。在大多数情况下，ent主导因素处于相反的打压/损失位置（相对于参考指数），而对于（IRM，HAL）配对，两支股票多次交换打压/损失位置。可视化学习的投资组合和回报。我们试图通过可视化所学的股票投资组合来更好地理解我们的交易策略。图4（a）显示（明亮意味着对相应股票的权重更高）我们的交易策略每天在三种选择之间交替：（a）在预期市场乐观时买入所有股票，（b）在检测到市场悲观时不买入股票，以及（c）买入一组精选股票。选择（a）或（b）的天数大致相同，而选择（c）的天数较少，但仍然显著。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

可人4

2022-5-6 09:32:25

这表明我们的策略能够根据市场情况智能选择要购买/避免的股票。对重要市场事件的反应。为了理解你的策略为什么会比基准带来更好的回报，我们还计算了不同交易策略的累积回报。图4（b）显示，我们的策略在2012年的增长更稳定，因为它避免了其他策略所经历的几次价值急剧下降（这也可以从我们的策略具有最低的最大下降和CVaR这一事实中看出）。尽管它最初的表现不如其他基准（尤其是纳斯达克），但它能够在2012年下半年迎头赶上并最终击败所有其他策略。似乎预测市场下跌的能力是使用报纸文本制定良好交易策略的关键（另见[3]）。深入观察，我们发现《华尔街日报》在2012年和2013年的五天中，有两天的市场下跌迹象表明标准普尔500指数跌幅超过2%。2012年1月6日，尽管美国就业报告不佳被认为是资金缩减的主要原因，但迫在眉睫的欧洲债务危机可能也导致了投资者情绪的负面影响，《华尔街日报》当天的许多文章都使用了“欧元”。2012年11月7日，美国总统选举结果让人们对金融和能源行业的规模和更严格的控制感到担忧。许多与政治相关的词，例如民主党人、选举人、获胜人、选民，在当天的《华尔街日报》中都很突出。2013年，我们的策略还能够识别并投资于几天内快速上涨的股票，从而获得优异的业绩。我们注意到，我们的算法在这两年的表现并不相同，2013年是一个明显更好的年份。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-5-6 09:32:28

为了理解原因，我们研究了市场，注意到2013年是“更容易”的一年，因为（a）其他基本算法在2013年也有更好的表现，（b）2012年的股价波动性更高，这表明价格“更难”预测。从标准普尔500指数的回报率来看，2012年在1997年以来的16年中排名第10，而2013年是其中最好的一年。DayStock ID50 100 150 200 250 300 350 40050100150200250300350400450500550（a）由于我们的策略，投资组合中的股票权重。0 50 100 150 200 250 300 350 4000.911.11.21.31.41.51.6天累计回报我们的策略-巴胡-CBALMVP-BAHMVP-CBAL（b）累积回报。图4。想象我们的战略和回报。虚线的左（右）区域对应于2012年（2013年）。表VTOP十个正面和负面词汇表中的两个因素。列表词因素1，积极的华尔街十亿目标设计的公司ceo协议职位买家机构因素1，消极的华尔街世界分钟无比赛短跑项目大学主席反对因素2，积极的华尔街开始反对线资产大学建立的短跑风险因素2，消极的协议设计的十亿强硬债券设定了华尔街目标。相关工作我们在这里讨论的重点是研究新闻文本（包括社交媒体产生的文本）与股价之间关系的工作。投资组合优化（例如[12,13,16-18]及其参考文献）是金融计量经济学的一个重要领域，但它与我们的工作没有直接关系，因为它不包含新闻数据。新闻文章对金融市场的预测能力已被广泛研究。Tetlock[3]对《华尔街日报》的一个专栏进行了情绪分析，结果表明，消极情绪信号先于道琼斯工业平均指数的下降。Chan[2]研究了报纸的头条新闻，发现投资者往往对负面新闻反应不足。Dougal等人。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝