统计行业分类 - 外文文献专区

nandehutu2022

1636

收藏 2022-05-25

英文标题：
《Statistical Industry Classification》
---
作者：
Zura Kakushadze and Willie Yu
---
最新提交年份：
2018
---
英文摘要：
We give complete algorithms and source code for constructing (multilevel) statistical industry classifications, including methods for fixing the number of clusters at each level (and the number of levels). Under the hood there are clustering algorithms (e.g., k-means). However, what should we cluster? Correlations? Returns? The answer turns out to be neither and our backtests suggest that these details make a sizable difference. We also give an algorithm and source code for building \"hybrid\" industry classifications by improving off-the-shelf \"fundamental\" industry classifications by applying our statistical industry classification methods to them. The presentation is intended to be pedagogical and geared toward practical applications in quantitative trading.
---
中文摘要：
我们给出了构建（多级）统计行业分类的完整算法和源代码，包括确定每个级别的集群数量（以及级别数量）的方法。在引擎盖下有聚类算法（例如，k-means）。然而，我们应该将什么进行集群？相关性？退货？答案是两者都不是，我们的回溯测试表明，这些细节产生了很大的不同。通过将我们的统计行业分类方法应用于现成的“基本”行业分类，我们还提供了构建“混合”行业分类的算法和源代码。本演示文稿旨在进行教学，并面向定量交易的实际应用。
---
分类信息：

一级分类：Quantitative Finance 数量金融学
二级分类：Portfolio Management 项目组合管理
分类描述：Security selection and optimization, capital allocation, investment strategies and performance measurement
证券选择与优化、资本配置、投资策略与绩效评价
--
一级分类：Quantitative Finance 数量金融学
二级分类：Statistical Finance 统计金融
分类描述：Statistical, econometric and econophysics analyses with applications to financial markets and economic data
统计、计量经济学和经济物理学分析及其在金融市场和经济数据中的应用
--

---
PDF下载：
-->

Statistical_Industry_Classification.pdf
大小:(412.39 KB)

马上下载

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

何人来此

2022-5-25 10:36:38

统计行业分类Zura Kakushadze§+1 and Willie Yu]2§QuantigicrSolutions LLC1127 High Ridge Road#135，Stamford，CT 06905+第比利斯自由大学商学院和物理学院240，David Agmashenebeli Alley，第比利斯，0159，佐治亚州]计算生物学中心，杜克国立医学院8 College Road，新加坡169857（2016年6月29日）摘要我们提供了构建（多级）统计行业分类的完整算法和源代码，包括在每个级别上划分集群数量（以及级别数量）的方法。在引擎盖下有聚类算法（例如，k-means）。然而，我们应该将什么进行集群？相关性？退货？答案是两者都不是，我们的背景测试表明，这些细节造成了很大的差异。我们还提供了一种算法和源代码，用于通过将我们的统计行业分类方法应用于现有的“基本”行业分类，从而改进“混合”行业分类。本演示文稿旨在进行教学，面向定量交易的实际应用。Zura Kakushadze博士是QuantigicrSolutions LLC的总裁，也是第比利斯自由大学的全职教授。电子邮件：zura@quantigic.comWillie余博士是杜克国立大学医学院的研究员。电子邮件：willie。yu@dukenus.edu.sgDISCLAIMER：通讯作者使用此地址的目的仅是按照出版物惯例表明其专业职责。特别是，本文件的内容并非投资、法律、税务或任何其他此类建议，也不代表QuantigicSolutions LLC（网站www.quantigic）的观点。com或其任何附属公司。1简介和总结行业分类，如GIC、BIC、ICB、NAICS、SIC等广泛用于定量交易。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

大多数88

2022-5-25 10:36:41

他们根据某种相似性标准将股票分为篮子，例如行业。一般而言，人们预计（或希望）这些篮子中的股票平均应具有较高的相关性。这是有价值的信息，可以以各种方式使用。E、例如，我们可以建立一个简单的均值回归统计套利策略，其中我们假设给定行业中的股票一起移动，在所述行业中横向降低股票回报，做空具有正剩余回报的股票，做多具有负剩余回报的股票，一些权重通常不均匀。行业也可用作多因素风险模型中的风险因素。上述“基本”行业分类基于基于基本/经济数据将公司分组在一起（见第2节），预计这将在更长的持有期限内增加价值。与量化交易策略相关的较短持有区间如何？除了大量市场参与者使用此类行业分类来套利错误定价之外，我们如何知道他们在短期内与纯粹的统计方法具有竞争力？现代定量交易在很大程度上依赖于数据挖掘、机器学习、聚类算法等统计方法，这已不是什么秘密。然而，毕竟，定量交易是一个秘密领域，关于如何在实践中进行的资源充其量也很匮乏。这些说明的目的是讨论一个系统的量化框架，旨在以“教学”的方式，仅基于股票收益率，无其他无关数据，构建我们所称的统计行业分类。在引擎盖下，我们有聚类算法。然而，选择一种聚类算法是不够的，我们会发现有些算法比其他算法更有效。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

大多数88

2022-5-25 10:36:46

E、 g.我们应该把什么聚在一起？相关性？退货？答案是两者都不是，而是源于定量交易学费，这在机器学习书籍中是不可能找到的。我们讨论了构建统计行业分类的各种细微差别，正是这些细微差别造成了巨大的差异。定量交易是关于细节的。考虑统计行业分类的一个动机是，除了证明它们不同于“基本”行业分类，并且在定量交易中广泛使用之外，还有一个原因是“基本”行业分类不可用（或质量不高）。这可能发生在新兴或较小的市场，甚至在美国。如果基础交易组合相对较小，且“基本”行业分类产生的碎片太多，以下我们将这些称为“基本”行业分类（见下文）。更一般地说，一种方法是采用加权回归，而不是贬低，并且有多种方法来确定上述权重。关于教学讨论，请参见，例如（Kakushadze，2015a）。有关多因素风险模型的讨论和文献，请参见，例如（Grinold和Kahn，2000）。这一非常相关的原因不应低估，尽管它具有“行为”性质。因此，我们不知道有另一篇文章在短期内讨论了本文的内容。分组。然而，也许一个同样重要（如果不是更重要的话）的动机是将这些方法应用于股票以外的“工具”的回报，例如量化交易alphas，对于这些工具，没有“基本”行业分类的模拟（Kakushadze和Yu，2017）。下面我们将记住这一点。在第2节中，我们简要回顾了（二元）“基本”行业分类的一些一般性，以建立进一步讨论的框架。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

可人4

2022-5-25 10:36:49

接下来，在第3节中，我们将讨论集群问题。我们讨论了为什么聚类相关性是次优的，以及为什么直接聚类返回是次优的。我们认为，在聚类之前，应该对返回进行规范化，并为这种规范化给出明确的规定。然后，我们讨论了如何构建单层次和多层次（层次-例如，BICS有三个层次：部门、行业和子行业）统计行业分类以及一些调整（例如，在粒度较低的层次上，横截面降低回报）。许多聚类算法（如k-means）都是不确定的。这可能会令人讨厌。我们给出了一个从多个样本中聚合分类的明确规定，这实际上提高了稳定性和性能。我们讨论了“自下而上”（最细粒度到最小粒度级别）、“自上而下”（最细粒度到最大粒度级别）和“松弛”（层次聚集）聚类算法，以及它们的“优”和“缺点”。在第4节中，我们利用（Kakushadze，2015b）中所述的日内Alpha和回溯测试程序，通过使用构建异质风险模型的多层统计行业分类，讨论了第3节和后续章节中各种算法的详细回溯测试。回溯测试明确地表明，回归时间序列中存在着超越简单主成分分析所捕获的结构，聚类增加了价值。然而，由于任何纯统计算法固有的样本外不稳定性，集群在性能方面仍无法与“基本”行业分类相竞争。在第5节中，我们更进一步，给出了使用（Kakushadze和Yu，2016b）中讨论的方法，包括（Roy和Vetterli，2007）中定义的eRank（有效等级）在每个级别上确定集群数量的处方。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

nandehutu2022

2022-5-25 10:36:53

我们还将讨论一种确定等级数量的启发式方法，尽管我们在经验上观察到等级数量不如集群数量具有影响力，至少在我们的回溯测试中是如此。在第6节中，我们进一步阐述了这一点。在第6节中，我们给出了一种算法，通过在此讨论的统计行业分类算法，在最粒度级别上进一步聚类大型子行业（使用BICS命名法），从而改进“基本”行业分类，从而提高粒度和性能。我们在第7节简要总结并概述一些想法。我们在附录A（多级“自下而上”聚类、动态聚类数）、附录B（多级“自上而下”聚类）和附录C（“松弛”聚类）中给出了我们算法的R源代码。附录D包含法律术语。优化alpha投资组合中的权重有其自身的细微差别（Kakushadze和Yu，2017）；然而，我们在这里讨论的方法很容易移植到alpha返回，因为它们是纯统计的。在这里，我们根据股票回报率对其进行了回溯测试（见下文），因为历史数据已经可用。Alpha返回时间序列是高度专有的，因此发布回测是不可行的。2行业分类行业分类基于相似性标准：股票在“集团”或“集群”中的成员资格，如部门、行业、子行业等——不同的行业分类方案的名称不同。通常使用的行业分类，如GIC、BIC、ICB、NAICS、SIC等，基于基本/经济数据（如公司的产品和服务，以及更广泛的收入来源、供应商、竞争对手、合作伙伴等）。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

点击查看更多内容…

nandehutu2022

2022-5-25 10:36:57

此类行业分类基本上独立于定价数据，如果构建良好，往往在样本之外相当稳定，因为公司很少跳转行业。行业分类可以由单个级别组成：N个标记为I=1，N分为K个“组”——我们一般称之为“簇”——标记为A=1，K、我们有一个映射G：{1，…，N}7→ {1，…，K}在簇和“簇”之间。更一般地说，我们可以有一个多层次的层次结构。我们可以通过股票示意性地表示这一点→ 一级“集群”→二级“集群”→ ··· → P级“集群”。让我们用u=1，…，标记这些P水平，P1级是粒度最大的一级，N个股票被分组为K个“集群”。1级“簇”依次分组为KLevel-2“簇”，其中K<K，依此类推，P级颗粒最小。因此，将BICSA作为一个示例，它有一个三级层次结构：股票→ 子行业→ 行业→ 部门。（此处，“子行业”是粒度最大的级别，而“部门”是粒度最小的级别。）因此，我们有：N个股票，标记为i=1，NK标记为A=1，KF标记为a=1的行业，F和用α=1标记的L扇区，五十、设G为股票和子行业之间的地图，S为子行业和行业之间的地图，W为行业和部门之间的地图：G：{1，…，N}7→ {1，…，K}（1）S：{1，…，K}7→ {1，…，F}（2）W：{1，…，F}7→ {1。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

可人4

2022-5-25 10:37:00

（3）这种“二元”行业分类（通常为P级）的美妙之处在于，“集群”（在BIC、子行业、行业和部门的情况下）可用于识别股票收益率样本相关矩阵ψij中的块（子矩阵）。E、对于子行业，二元矩阵δg（i）定义了此类块。然而，不同行业分类的绩效存在差异。在这里，我们假设每个股票都属于一个且仅属于一个“集群”。一般来说，这一假设可以放宽，从而允许属于多个子行业、行业、部门等的“企业集团”。然而，我们在这里不需要这样做。假定此层次结构树中的分支具有相等的长度。一般来说，我们可以有长度不均匀的分支。然而，通过允许单个元素（包括单个股票）“集群”，较短的分支始终可以延伸到最长分支的长度。彭博社行业分类系统。这在构建投资组合优化的风险模型时很有用（Kakushadze，2015b）。3统计聚类如果我们无法获得基于基本数据的行业分类，或者我们希望交易的股票领域无法获得该分类，那该怎么办？我们能否根据定价数据（即直接从股票收益率）建立行业分类？毕竟，从直觉上看，回报的时间序列包含了有关股票相关性的信息。我们能否将其提取出来并转化为行业分类？答案是肯定的，但这很棘手。关键问题是，在样本外，股票之间的相关性通常非常不稳定。基于股票回报率构建行业分类的天真尝试可能会产生绩效不佳的行业分类。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

能者818

2022-5-25 10:37:04

我们在这里的目标是讨论如何通过建立基于聚类数量（而非收益）的统计行业分类来缓解样本外的不稳定性。但首先让我们讨论集群本身。3.1 K-meansA流行的聚类算法是K-means（Steinhaus，1957），（Lloyd，1957），（Forgy，1965），（MacQueen，1967），（Hartigan，1975），（Hartigan and Wong，1979），（Lloyd，1982）。k-均值背后的基本思想是将N个观测值划分为k个聚类，每个观测值都属于具有最近均值的聚类。每个观测值实际上是一个d向量，所以我们有一个N×d矩阵Xis，i=1，N、 s=1，d、设K簇，Ca={i | i∈ Ca}，a=1，K、则K表示尝试最小化eg=KXa=1Xi∈CadXs=1（Xis- Yas）（4）其中Yas=纳西族∈CaXis（5）是簇中心（即横截面平均数），na=| Ca |是簇Ca中的元素数。在（4）中，“贴近度”的度量被选择为Rd中点之间的欧氏距离，尽管其他度量是可能的。k-means的一个“缺点”是它不是一个确定性算法。一般来说，g在（4）中存在大量的局部极小值，该算法只保证收敛到局部极小值，而不是全局极小值。作为一种迭代算法，k-means从初始迭代的一组随机或用户定义的中心开始。然而，正如我们将看到的，这个“缺点”实际上增加了价值。商用行业分类，如GIC和ICB，成本不菲。美国证券交易委员会（SEC）免费提供基本的SIC数据，但只能通过公司名称，不能通过股票代码。下载这些数据并将其转换为现实行业分类需要付出相当大的努力。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

何人来此

2022-5-25 10:37:07

或者，可以从商业供应商处购买。在本文中，“横截面”指的是“超过指数i”。3.2什么是聚类？那么，我们应该聚集什么来构建统计行业分类？一、例如，我们应该选择什么作为我们的矩阵Xisin（4）？以某种方式使用配对股票相关性是很诱人的。然而，基于股票收益率时间序列计算的样本相关矩阵ψij在样本外非常不稳定。那个么，若WeiIdentity XIS和基础股票收益的时间序列相一致呢？设Risbe为股票收益率，其中s=1，d现在被解释为标记时间序列中的观察值（例如，交易日）。此外，对于不确定性，让s=1对应于最近的观察结果。现在，我们可以通过对Xis=Ris应用k均值来建立统计行业分类。从直觉上看，这是有道理的：我们是根据收益率与所属集群的中心（即在集群横截面平均值内）的接近程度来对股票进行聚类的。然而，这是一个次优的选择。事实上，这可以通过观察到，在股票回报的情况下，先验地，没有理由用等权重计算中心Yasin（5）。我们可以把集群看作是股票投资组合，而Yasas则是这些投资组合的回报。因此，基于财务直觉，我们可能希望用非均匀权重构建这些投资组合。此外，进一步反思后，很明显，聚类回报的意义不如一开始可能出现的意义。事实上，股票波动率是高度可变的，其横截面分布甚至不是准正态分布，而是高度偏斜的，在高端有一个长尾巴——这大致是对数正态分布。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

mingdashike22

2022-5-25 10:37:10

聚类收益没有考虑到这种偏斜，无意中，我们可能会将完全由于偏斜波动率因素而没有高度相关性的收益聚类在一起。一个简单的解决方案是对归一化的returnseRis=Ris/σi进行聚类，其中σi=Var（Ris）是序列方差。这样我们就可以算出偏差波动率因子。实际上，Cov（eRi，eRj）=Cor（Ri，Rj）=ψij（我们抑制了序列协方差Cov和相关Cor中的指数s）是具有ψij的样本相关矩阵≤ 然而，正如我们将在下文中看到的，聚类风险指数虽然产生了比聚类风险指数更好的结果，但也不太理想。下面是两个简单的论点，为什么会这样。聚类Cadefine K投资组合，其权重由我们的聚类决定。当我们将Xis=Ris聚类时，中心是Yas=平均值（Ris | i∈ Ca），即我们有相等的权重ωi≡ 1对于上述K个投资组合，我们（在K-means算法的每个操作步骤）根据这些回报与这些同等权重的投资组合的接近程度对Ris进行分组。然而，同等权重的投资组合本身是次优的。投资组合也按ωi加权≡ 1/σi，如果我们聚集Xis=eRis，我们得到的结果，其中中心是Yas=平均值（Ris/σi | i∈ 加利福尼亚州）。因此，最大化Sharpe比率的投资组合（Sharpe，1994）通过反向方差进行加权：样本相关矩阵包含的信息少于潜在的回报时间序列。因此，它对收益的序列平均数一无所知，只知道与这些平均数的偏差。更准确地说，在近似情况下，样本协方差矩阵是对角的。在聚类的背景下，对于ωi=1/σi的聚类，将样本协方差矩阵的对角线部分作为全样本协方差矩阵是奇异的是有意义的。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

mingdashike22

2022-5-25 10:37:14

如果我们将Xis=bRis，其中bRis=Ris/σi，那么我们得到这样的投资组合，所以中心是Yas=平均值（Ris/σi | i∈ 加利福尼亚州）。正如我们将看到的那样，集群bris的indeedoutheclusteringeris。我们能以简单直观的方式理解这一点吗？通过clusteringeRis=Ris/σi，我们已经考虑了波动率依赖性。那么，为什么clusteringbRis=Ris/σi工作得更好呢？Clusteringer本质上是将样本中高度相关的股票（在不同程度上）组合在一起。然而，并不能保证它们在样本外会保持高度相关性。直觉上，很明显，波动率较高的股票更有可能与其各自的集群不相关。这就是为什么通过另一个因素或σiinbRis（与威瑟利斯相比）进行抑制会导致更好的表现：在内部，它抑制了那些波动性股票对集群中心Yis的贡献。3.2.1一个小的调整。因此，我们希望clusterbRis=Ris/σi。在实践中，这有一个潜在的问题。如果一些股票的波动率很低，我们可能会对这些股票有很大的兴趣。为了避免计算中的任何潜在问题，我们可以通过（MAD=平均绝对偏差）：bRis=Risσiui（6）ui=σiv（7）v=exp（中位数（ln（σi））来“平滑”这一点- 3 MAD（ln（σi）））（8）对于所有小于1的ui，我们设置ui≡ 1、这是我们在下面使用的定义（除非另有说明）。此外，上述中值（·）和MAD（·）是横截面的。3.3多层次聚类如果我们希望构建一个单一层次的统计行业分类，我们可以通过K均值将（6）中定义的聚类划分为K个聚类。如果我们希望构建一个多层次的统计行业分类（见第2节），该怎么办？我们在此讨论了两种方法，我们可以称之为“自下而上”和“自上而下”。3.3.1自下而上聚类表示我们希望构建一个P级分类。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

大多数88

2022-5-25 10:37:17

我们可以把它构造成一个序列：K→ K→ ··· → KP（K>K>··>KP），其中我们首先构建了- 1、即使是na≤ D- 1样本协方差矩阵虽然是可逆的，但具有高度样本外不稳定的对角元素。相比之下，对角线元素，即样本方差σi，即使是短期回溯，也更加稳定。因此，在定义ωi时使用它们是有意义的。这是一种可能的调整。其他的产生类似的结果。W、 r.t.分类级别；“自下而上”不应与凝聚聚类混淆。使用Kclusters的粒度级别，然后我们将这些Kclusters聚类为更少的Kclusters，以此类推，直到使用Kclusters达到最后一个也是最小粒度级别。给定整数K，KP，问题是在每个步骤中使用什么作为回报。让这些返回值为[R（u）]i（u），s（即我们聚类[R（u）]i（u），sinto Kuclustersvia K-means），其中u=1，P，i（u）=1，Ku-1，我们方便地定义了K=N，因此i（1）是与i相同的指数。如上所述，我们可以取[R（1）]is=bRis。那么[R（u）]i（u），sat更高的水平u>1呢？我们有一些选择。LetCa（u）={i（u）| i（u）∈ Ca（u）}，a（u）=1，Ku是每个级别u的簇。一、 e.对于0<u<P，指数a（u）与指数I（u+1）相同。然后我们可以（在2<u以下的第二行中≤ P）[R（2）]i（2），s=平均值（Ris | i∈ {1，…，N}）（9）[R（u）]i（u），s=平均值（[R（u- 1） ]i（u-1），s | i（u- （1）∈ Ca（u-1））（10）其中，我们可以取（i）Ris=Risand[R（u）]i（u），s=[R（u）]i（u），s，或（ii）Ris=bRisand[R（u）]i（u），s=[bR（u）]i（u），其中（Var（·）以下是序列方差）[bR（u）]i（u），s=[R（u）]i（u），sσi（u）（11）σi（u）=Var（[R（u）]）i（u），s）（12）这两个定义在我们的回溯测试中产生了非常相似的结果（见下文）。3.3.2在我们刚才讨论的自底向上聚类方法中的另一个小调整，高级别的聚类往往彼此高度相关。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

kedemingshi

2022-5-25 10:37:21

一、例如，相应的集群回报中有一个突出的“市场”（或“整体”）模式成分。也就是说，在更高水平u>1时，成对（i（u）6=j（u））序列相关性[ψ（u）]i（u），j（u）=Cor（[R（u）]i（u），s，[R（u）]j（u），s的平均值是实质性的。为了避免这种情况，我们可以简单地在更高水平上横向降低回报，即，对于u>1，我们用[R（u）]i（u），sby[R（u）]i（u），s- 平均值（[R（u）]i（u），s | i（u）∈ Ca（u））。然而，1级（u=1）的横截面贬低会导致较差的性能。凭直觉，我们可以理解如下。在最细微的层面上贬低会消除“市场”模式。与更高级别的回报率[R（u）]i（u）、s、u>1不同，1级回报率之间的相关性并不那么高，因此保持“市场”模式不变是值得的，例如，从统计上看，高贝塔股票预计会聚集在一起，而低贝塔股票预计会不同地聚集在一起。因此，结果是我们降低了更高级别的回报，但没有降低一级回报。我们将在下面讨论这些集群编号“应该”是什么。例如，见（Bouchaud和Potters，2011），（Kakushadze和Yu，2017）。因此，第一个[λ（u）]（1）和更高的[λ（u）]（p）之间存在很大差距，p>1，[ψ（u）]i（u），j（u）的特征值；特征值按递减顺序排列：[λ（u）]（1）>[λ（u）]（2）>。这实质上从ψij的谱分解中去掉了第一个主成分。3.3.3聚合多个样本如上所述，k-means不是确定性算法。除非预设了初始中心，否则该算法从随机初始中心开始，并在每次运行中收敛到不同的局部最小值。这里没有灵丹妙药：尝试“猜测”初始中心并不比“猜测”哪里更容易，例如，全局最小值在哪里。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

kedemingshi

2022-5-25 10:37:24

那么，一个人该怎么办呢？一种可能是简单地接受这样一个事实，即每次跑步都会产生不同的答案。在给定的上下文中，我们必须解决的问题是，实际应用程序中的性能是从一个这样的随机运行稳定到另一个这样的随机运行，还是到处都是。正如下面我们将看到的，在我们的回溯测试中，令人高兴的是，尽管每次k-means都会产生不同的行业分类，但性能非常稳定。所以，这可能是故事的结尾。然而，我们可以做得更好。这个想法很简单。如果我们将多次运行（或抽样）的不同行业分类汇总为一个，会怎么样？问题是怎么做。假设我们有M次跑步（M 1）。每次运行都会产生具有K个集群的行业分类。允许Ohmria=δGr（i），a，i=1，N、 a=1，K（此处Gr：{1，…，N}7→ {1，…，K}是股票和集群之间的映射），是每次运行的二进制加载矩阵，由r=1，M、在这里，我们假设我们知道如何从每次运行中正确排序（即对齐）K个集群。这是一个非常重要的假设，我们稍后会回到这里。然而，假设我们知道如何做到这一点，我们可以聚合载荷矩阵Ohmriainto单个矩阵Ohmia=PMr=1Ohmria。现在，这个矩阵看起来不像二进制加载矩阵。相反，它是一个发生计数矩阵，即，它计算在M个采样过程中，给定股票被分配给给定集群的次数。我们需要构建一个映射G，这样一个且只有一个种群属于K簇中的每一个。最简单的标准是将给定股票映射到其中的集群OhmIa为最大值，即所述股票最频繁出现的位置。需要注意的是，这样的集群可能不止一个。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

可人4

2022-5-25 10:37:28

解决这种歧义的一个简单标准是将所述股票分配给累积次数最多的集群（即，我们取qa=PNi=1eOhm如果出现上述歧义，则将该股票分配给qa最大的集群）。在不太可能出现的情况下，仍然存在歧义，我们可以尝试做更复杂的事情，或者我们可以简单地将此类股票分配给指数a值最低的集群——通常，系统中存在大量噪音，停留在此类细节上根本不会产生效果。然而，我们仍然需要解决一个松散的问题，也就是说，我们的假设是，来自不同运行的聚类在某种程度上是一致的。实际上，每次运行都会产生sk集群，但i）它们不是相同的集群，没有简单的方法来映射它们，尤其是当我们有大量的运行时；和ii）即使集群相同或相似，它们也不会被排序，即一次运行的集群的顺序通常与另一次运行的集群的顺序不同。对于术语的不确定性，我们关注1级集群；它直接适用于所有级别。此外，上标r在OhmRIA和Gr（i）是指数，而不是幂。因此，我们需要一种从不同样本中“匹配”聚类的方法。同样，这里也没有什么灵丹妙药。我们可以做很多复杂而做作的事情，但最后却没有太多东西可以展示出来。一个简单实用的解决方案是使用方法将不同运行的集群对齐。每次运行标记为r=1，M、除其他外，还产生了一组集群中心Yras。我们可以将它们逐行“引导”到一个（KM）×d矩阵中，其中ea=a+（r- 1） K取值sea=1，（KM）。我们现在可以通过K-means将眼睛聚类为K个聚类。这将把ea的每个值映射到{1，…，K}，从而将K个集群从每个运行映射到{1，…，K}。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

可人4

2022-5-25 10:37:33

这样，我们就可以对齐所有簇。“陷阱”是，无法保证每个M次运行的K个集群中的每个集群都将唯一映射到{1，…，K}中的一个值，即，我们可能在一天结束时有一些空集群。然而，这是确定的，我们可以简单地丢弃此类空簇并聚合（通过上述程序）数量较少的K<K簇。一、最后，我们将使用Kclusters对行业进行分类，这可能会少于集群K的目标数量。这不一定是坏事。丢弃的集群可能首先是多余的。另一个明显的“陷阱”是，即使产生的集群数量也不确定。如果我们多次运行该算法，我们将得到不同的K值。然而，正如我们将在下面看到的，聚合过程提高了我们的backtests中的性能，尽管Kis在运行到运行期间也非常稳定。在附录Awe中，给出了自下而上集群的R源代码，其中包含了我们上面讨论的各种功能，包括多级行业分类、调整和聚合。3.3.4自上而下的聚类在上面我们讨论了自下而上的聚类。我们可以反过来做自顶向下的聚类。一、例如，我们可以将P级分类构建为sequenceKP→ KP公司-1.→ ··· → K→ K（如前所述，K>K>···>KP）。更方便的是，我们从股票和集群的整个宇宙开始，i=1，N、进入LP=KPclusters。在级别-（P- 1），我们将每个P级聚类Ca（P）={i | i∈ Ca（P）}，a（P）=1，KP，进入LP-1集群。我们通过聚集thereturnsbRis来实现这一点∈ Ca（P）通过k-均值进入LP-1集群。在级别-（P-2），我们将每一级分类-（P- 1）簇Ca（P-1） ={i | i∈ Ca（P-1） }，a（P- 1） =1，KP公司-1，intoLP-2集群。我们通过对returnsbRis进行聚类来实现这一点∈ Ca（P-1）通过k-Meansto LP-2集群。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

可人4

2022-5-25 10:37:36

等等在第0个近似值中，KP-1=LP-1KP，KP-2=LP-2KP-1，依此类推，所以K=K*=QPu=1Lu。然而，如果在某种程度上，我们有一些簇Ca（u）和na（u）≤ Lu，那么我们将该集群保持不变，并且本文附录A、附录B和附录C中的源代码不是为了“花哨”而编写的，也不是为了速度或任何其他方式而优化的。其唯一目的是以简单易懂的方式说明正文中描述的算法。一些法律术语见附录D。更一般地说，我们可以用自己的[L（a（P））]P对每个P级集群进行非均匀聚类-1、请注意，与自下而上的聚类相比，因为这里我们是在“倒退”，所以可以方便地使用标记股票的指数i来标记每个级别上每个聚类的元素。不对其进行集群，即我们将其向前“滚动”，保持不变。因此，我们可以得到K<K*在最细粒度级别-1。此外，我们可以聚合多个采样，而不是简单地通过单个采样方法进行聚类。然后在任何级别-u，我们可以将给定的簇Ca（u）聚类为Lu或更少的簇。注意，与自下而上的方法相比，由于我们在这里直接与returnsbRis合作，因此在任何层面上都不存在横截面贬低。在附录B中，我们给出了自顶向下集群的R源代码，包括通过多个采样进行聚合。3.3.5松弛聚类代替不确定的k-均值，我们可以使用其他类型的聚类，例如层次聚集聚类。让我们在此关注一个一级分类，因为我们总是可以将其概括为如上所述的多级情况。因此，我们有NStock，我们希望将它们聚类到K个集群中。如果K不是预设值，我们可以使用链接（Sibson，1973）等（参见，例如，（Murtagh和Contreras，2011））。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

nandehutu2022

2022-5-25 10:37:39

如果我们希望重置K，那么我们可以使用类似的方法，只是必须对其进行调整，使所有观测值以某种方式压缩到K个簇中。我们在附录C中给出了一个这样的算法的R代码。基本上，它是一个松弛算法，如上所述，是clustersbRis（不是Ris）。两个D向量B和B之间的距离D（i，j）就是R中的欧几里德距离。初始聚类包含距离最小的i和j。如果某些iand j（i6=i，i6=j，j6=iandj6=j）的D（i，j）小于所有（`6=iand`6=j）的D（i，`）和D（j，`）中的较小者，则iand j形成第二个簇。否则，将“最小化D（i，`）或D（j，`）”添加到第一个簇中。这一直持续到有K簇为止。一旦我们有了K个集群，我们只能添加到这些集群中。4回溯测试利用与中相同的回溯测试程序，对上述构建统计行业分类的算法进行回溯测试（Kakushadze，2015b）。本小节的其余部分紧随第6节的大部分内容。4.1注释：股票价格的时间序列，其中i=1，N标记库存，s=1，2。标记交易日期，s=1对应于时间序列中最接近的日期。上标O和C（未调整的开盘价和收盘价）以及AO和AC（完全调整分割和股息的开盘价和收盘价）将区分相应的价格，因此，例如，PCisis是未调整的蛮力算法，在每一步从矩阵中删除行和列XD（i，j）太慢。我们在附录C中给出的R源代码实际上比这更有效。然而，它仍然比我们上面讨论的基于k-means的算法慢很多。我们在这里“重述”它不是为了重复，而是为了使我们在这里的陈述是独立的。收盘价。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

mingdashike22

2022-5-25 10:37:42

Visis是未调整的日交易量（以股份计）。此外，对于每个日期，我们将隔夜收益定义为前一个收盘至未平仓收益：Eis=lnPAOis/帕西，s+1（13）该回报将用于定义平均反向PHA中的预期回报。我们还需要close to close returnRis=ln帕西/帕西，s+1（14）这些收益的样本外（见下文）时间序列将用于构建风险模型。EIS和RIS定义中的所有价格均已完全调整。我们假设：i）投资组合以开放价格POI在开放式融资中建立；ii）在当天收盘时进行清算，因此这是一个纯粹的日内alpha，以收盘价PCis进行融资；iii）没有交易成本或延误–我们的目标不是建立一个现实的交易策略，而是测试各种统计行业分类的相对绩效。每个股票的损益∏=HisPCisPOis公司- 1.（15）他持有的美元在哪里。通过Qis=2 | His |/POI计算每天每只股票的买入加卖出股份（建立多笔清算交易）。4.2宇宙选择为了简单起见，我们根据通过定义的平均每日美元交易量（ADDV）来选择我们的宇宙（请注意，每个日期的Ais都不在样本范围内）：Ais=mmXr=1Vi，s+rPCi，s+r（16）我们取m=21（即一个月），然后将我们的宇宙按ADDV排名前2000位。为了确保我们不会无意中引入universe selectionbias，我们每月（准确地说，每21个交易日）重新平衡一次。一、例如，我们将我们的5年回溯测试周期（见下文）划分为21天的间隔，我们使用ADDV计算宇宙（反过来，ADDV是基于立即后退该间隔的21天周期计算的），并在整个该间隔期间使用该宇宙。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

何人来此

2022-5-25 10:37:45

我们没有生存偏差，因为我们采用了截至2014年9月6日在http://fifinance上有历史定价数据的股票市场数据。雅虎。2008年8月1日至2014年9月5日期间的com（于2014年9月6日访问）。我们将此范围限制为所谓的“延迟-0”α：相同的价格，即POI（或调整后的PAOI），用于计算预期回报（通过Eis）和确定融资价格。在实际应用中，通常根据市值、流动性（ADDV）、价格和其他（专有）标准选择流动性股票的交易范围。仅包括自2014年9月6日起在美国上市的普通股和类别股（无OTC、优先股等），以及BIC（彭博行业分类系统）部门分配。然而，正如（Kakushadze，2015a）第7节中详细讨论的那样，生存偏差并不是此类回溯测试的主要影响因素。4.3回溯测试我们在5年的时间内进行模拟（更准确地说，从2014年9月5日开始，共1260个交易日）。年化资本回报率（ROC）计算为日均损益除以日内投资水平I（无杠杆），再乘以252。年化夏普比率（SR）计算为每日夏普比率乘以√每股252美分（CPS）的计算方法是以美分（非美元）为单位的总损益除以总交易股份。4.4优化的Alpha优化的Alpha基于我们正在测试的统计行业分类，通过使用异质风险模型（Kakushadze，2015b）通过Sharperatio最大化优化的预期回报。我们每21个交易日计算一次异质风险模型协方差矩阵Γij（与宇宙相同）。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

何人来此

2022-5-25 10:37:50

对于每个日期（我们省略指数s），我们根据美元中性约束条件，最大化夏普比率：s=PNi=1HiEiqPNi，j=1ΓijHiHj→ max（17）NXi=1Hi=0（18）在没有边界的情况下，解由hi=-η“NXj=1Γ-1ijEj公司-NXj=1Γ-1链接，l=1Γ-1klepnk，l=1Γ-1kl#（19）为了简化各种比较（包括结果），有意将回溯测试窗口的选择与（Kakushadze，2015b）中的选择完全相同。在这里，我们关注的是相对表现优异的情况，可以合理地假设，按照领先顺序，个人表现受到生存偏差的影响大致相等，因为所有Alpha和风险模型的构建都是“统计”的，对整个宇宙都不感兴趣。在（Kakushadze，2015b）中，BICS用于行业分类。在这里，我们只是插入统计行业分类，而不是BIC。在单级行业分类的情况下，我们可以添加由“市场”组成的第二级，以N×1单位矩阵作为负荷矩阵；或者，等效地，我们可以使用选项mkt。fac=R功能qrm中的T。（Kakushadze，2015b）附录B中的het（），其内部实现了这一点。其中Γ-1是Γ的倒数，η>0（平均回归α）通过（我们在回溯测试中将投资水平I设置为2000万美元）NXi=1 | Hi |=I（20）确定。请注意，（19）满足美元中性约束（18）。在我们的回溯测试中，我们在夏普比率最大化中施加头寸界限（在这种情况下，与策略完全在日内相同的误入界限）：| His |≤ 0.01 Ais（21），其中Ais添加在（16）中定义。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

nandehutu2022

2022-5-25 10:37:54

在边界计算Hirequiresan迭代程序存在的情况下，我们使用（Kakushadze，2015b）附录C中的R代码。4.5模拟结果表1总结了K=100、K=30和K=10的“自下而上”三级统计行业分类的11次独立运行的模拟结果（见第3.3.1小节）。令人高兴的是，尽管基本的k-meansalgorithm具有不确定性，但回溯测试结果非常稳定。表2总结了“自下而上”单级统计行业分类的11次独立运行的模拟结果，基于100个样本的聚合，目标聚类数K=100（因此，最终聚类的实际数量kc可能小于K–见第3.3.3小节）。同样，回溯测试结果非常稳定。表3总结了“自下而上”3级统计行业分类的23次独立运行的模拟结果，基于100个样本的聚合，目标聚类数K=100、K=30和K=10（因此结果聚类的实际数目Ku可以小于Ku，u=1、2、3–见第3.3.3小节）。前15次（共23次）符合标准。cl.ret=F（这对应于第3.3.1小节方程式（10）后的选项（i）），而其他8次运行对应于音调。cl.ret=T（这对应于所述等式后的选项（ii））；参见功能qrm。统计索引类。所有（）见附录A。上述稳定性也适用于这些情况。表4总结了通过汇总100个样本获得的统计行业分类中的实际集群数量。如表3所示，三级层次结构中的目标聚类数为K=100、K=30和K=10。表5总结了“自上而下”三级统计行业分类的模拟结果，这些分类是通过每次运行中的一次采样获得的，每运行三次。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

mingdashike22

2022-5-25 10:37:58

3矢量Lu，u=1，2，3，在第3.3.4小节中定义。回想一下，在第0个近似值中，最粒度级别1的簇数isK=LLL；然而，由于第3.3.4小节中解释的原因，实际值可能较低。我们在这里也看到了实质性的稳定。表6总结了“自上而下”三级统计行业分类的模拟结果，通过在每次运行中聚合100个样本获得，每个Lu运行3次。稳定性依然存在。从以上结果可以明显看出，平均聚合多个采样可以提高性能和稳定性。此外，毫不奇怪，降低粒度会恶化夏普比率。三级分类优于单级分类。如上所述，clusteringbRis=Ris/σi优于clusteringeRis=Ris/σi，这反过来又优于聚类Ris。因此，基于单次抽样的聚类风险，对K=100、K=30和K=10的“自下而上”三级分类进行随机运行，产生了ROC=41.885%、SR=15.265和CPS=1.889的典型表现（参见表1）。基于聚类分析（Clusteringeris）的“自下而上”三级分类（K=100、K=30和K=10）的随机运行产生了典型的表现，ROC=42.072%、SR=15.840和CPS=1.973（参见表1）。与基于不确定性k均值的算法相比，松弛算法（第3.3.5小节）是完全确定性的。我们使用附录C中的代码运行它，以获得一个三级分类，目标数为clustersK=100、K=30和K=10（与“自下而上”的情况一样，我们横截面表示二级和三级回报，但不是一级回报）。模拟结果比基于k均值的算法差得多：ROC=41.266%，SR=15.974，CPS=1.990。怎么会这样？凭直觉，这并不奇怪。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

nandehutu2022

2022-5-25 10:38:01

所有这样的松弛机制（层次聚集算法）都是从一个“种子”开始的，即根据某种标准选择的初始簇。在第3.3.5小节中，这是第一个包含使欧几里德距离最小化的对（i，j）的聚类。然而，通常这种选择在样本外非常不稳定，因此表现不佳。相比之下，k-means更具“统计性”，尤其是在聚合方面。5如何修复群集编号？到目前为止，我们已经选择了簇的数量Ku以及级别P“ad hoc”。我们可以“动态”固定它们吗？如果我们这样选择，在这里我们可以做很多复杂的事情。相反，我们的方法将基于实用主义（基于财务考虑）和简单性。从表2和表3可以推测，在我们的上下文中，级别的数量并不能决定它的成败。更重要的是集群的数量。所以，假设我们有一个给定数量的P＞1的层。让我们先问一下，K（最细粒度级别）应该是什么，并且，通过构造“自下而上”应该比“自上而下”使用更多的信息，并且优于“自上而下”。表1基于通过（6）定义的聚类。然而，集群br*is=Ris/σi产生大致相同的结果。因此，基于聚类的随机运行“自下而上”三级分类，K=100、K=30和K=10 br*isvia收集了100个样本，产生了典型的性能，ROC=41.707%，SR=16.220，CPS=2.091（参见表3）。这里我们重点讨论基于k-means的“自下而上”和“自上而下”算法。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

可人4

2022-5-25 10:38:05

如上所述，松弛算法的性能低于基于k均值的算法。在其他情况下，已经讨论了用于确定集群数量的各种方法。例如，见（Rousseeuw，1987），（Goutte et al，2001），（Sugar and James，2003），（Lleit'iet al，2004），（DeAmorim and Hennig，2015）。KP（最小粒度级）be？实际上，股票数量N>d- 因此样本相关矩阵ψij是奇异的。（事实上，在大多数实际应用中 D- 1）我们可以通过统计风险模型对其进行建模（Kakushadze和Yu，2016b）。这些是通过截断ψijψij=d的谱分解得到的因子模型-1Xa=1λ（a）V（a）iV（a）j（22）通过第一个d-1主成分V（a）i（仅d-1特征值λ（a）为正，λ（1）>λ（2）>，λ（d-1） >0，而其余特征值λ（a）≡ 0，a≥ d）至第一个F主成分（F<d- 1）并补偿对角线上的偏差（如ψii≡ 1）通过添加对角线特定（特质）方差ξi：Γij=ξiδij+FXa=1λ（a）V（a）iV（a）j（23），即，我们通过Γij近似ψij（单数）（这是所有ξi>0的正定义，并根据Γii的要求确定≡ 1）。那么问题是，F应该是什么？（Kakushadze，2015b）中给出了一种简单的（“基于最小化”的）F筛选算法。最近提出的另一个更简单的算法（Kakushadze和Yu，2016b）基于下面定义的eRank（有效等级）。5.1有效RankThus，我们只需设置（此处圆（·）可替换为floor（·）=b·c）F=圆（eRank（ψ））（24）此处eRank（Z）是对称半正定义矩阵Z的有效秩（Roy和Vetterli，2007）。它定义为秩（Z）=exp（H）（25）H=-LXa=1paln（pa）（26）pa=λ（a）PLb=1λ（b）（27），其中λ（a）是Z的L个正特征值，H具有（香农a.k.a）的含义。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

能者818

2022-5-25 10:38:08

光谱）熵（Campbell，1960），（Yang等人，2005）。eRank（Z）的含义是，它是矩阵Z的有效维数的度量，它不一定与其正值的数目L相同，但通常更低。这是因为，许多收益可以通过进一步降低相关矩阵的有效维数来进行高度相关（这表现为特征值中的巨大差距）。有关Fixing F的先前工作，请参见，例如（Connor和Korajczyk，1993）和（Bai和Ng，2002）。5.2固定Ku这里没有魔弹。它只是需要有意义。直观地说，在统计风险模型的背景下，用因子F的数量确定最小粒度级别的聚类数kp是很自然的。因此，在下文中，我们将简单地取kp=Round（eRank（ψ））（28）添加更多粒度级别，探索基于贴近度标准的时间序列中更深的子结构。在这方面，我们可以将聚类的数量固定到最细粒度级别，如下所示。1级stocksper集群的平均数量为N=N/K（我们正在进行四舍五入）。假设每个集群中的库存数量相同且相等，N.IfN>d-1，然后是子矩阵ψij，i，j∈ Ca（1）（回想一下，Ca（1），a（1）=1，K、是1级群集）是单数。对于N≤ D-1它们是非奇异的。因此，从直觉上看，很自然地需要N=d乘以Kby-1、恢复舍入，在下面我们将设置k=舍入（N/（d- 1））（29）Ku，1<u<P怎么样？在这里做任何过于复杂的事情都是过分的。下面是一个简单的处方（假设K>KP）：Ku=hKP-uKu-1个IP-1，u=1，P（30）我们在附录A中给出了使用该公式构建“自下而上”统计行业分类的R源代码。表7总结了P=2、3、4、5的模拟结果。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

能者818

2022-5-25 10:38:11

很明显，水平的数量并不是这里的驱动因素。结果基本上与表2和表3中K=100（回想一下，在我们的例子中，N=2000，d=21）的结果相同。表8分离出K依赖性，并表明性能峰值在K=100左右。再说一次，这里没有灵丹妙药。5.3比较让我们将统计行业分类的（非常稳定）结果与两个“基准”进行比较：统计风险模型（Kakushadze和Yu，2016b）和异质风险模型，其中BIC用作行业分类（Kakushadze，因子F的数量基本上衡量了收益率Ris的基本时间序列中自由度的有效数量。因此，利用该数字识别KP。即，Ku在对数刻度上是等距的（直至四舍五入）。对于P=3，“中点”K=√kkpi就是几何平均数。有了这个处方，我们可以通过一些启发式方法进一步确定P，例如，取最大P，使得差异KP-1.-KP公司≥ , 哪里是预设的，比如说， = KP。对于K=100和KP=10，这将给出P=4，K=46和K=22。从表8中可以看出，由于风险空间的不充分性，粒度太小会降低夏普比率，而粒度太大会由于过度交易而降低每股美分。2015年b）。更准确地说，（Kakushadze和Yu，2016b）中的统计风险模型是基于样本相关矩阵ψij构建的，这相当于基于归一化回归序列=Ris/σi。如果我们使用基于eRank的算法来确定统计风险因子F的数量，那么表现为ROC=40.777%，SR=14.015，CPS=1.957（Kakushadze和Yu，2016b）。然而，如上所述，使用Bris=Ris/σi构建模型更有意义。因此，我们应该将我们的结果与基于Bris的统计风险模型进行比较。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

何人来此

2022-5-25 10:38:14

为了实现这一点，我们可以简单地替换R函数qrm中的tr<-apply（ret，1，sd）行。埃朗克。tr<-apply（ret，1，sd）/apply（qrm.calc.norm.ret（ret），1，sd）在（Kakushadze和Yu，2016b）的附录A中给出的pc（ret，use.cor=T），其中其功能为qrm。计算标准。ret（）见本协议附录A。性能确实更好：ROC=40.878%，SR=14.437，CPS=2.018。因此，基于k-means的聚类算法仍优于统计风险模型，这意味着超过F个统计因子会增加价值，即数据中的结构比仅由主成分捕获的结构更多。然而，统计行业分类仍然大大低于基于BICS的异质风险模型（Kakushadze，2015b）：ROC=49.005%，SR=19.230，CPS=2.365。显然，统计行业分类与BIC等行业分类并不完全相同，BIC是基于基本/经济数据（如公司的产品和服务，以及更广泛的收入来源、供应商、竞争对手、合作伙伴等）进行的。此类行业分类基本上独立于定价数据，如果构建良好，往往会非常稳定，因为公司很少跳转行业。相比之下，按性质划分的统计行业分类在样本外不太稳定。然而，当无法获得“基本”行业分类时，它们可以增加大量价值，包括回报率高于股票，例如定量交易alphas（Kakushadze和Yu，2017）。最后，在结束本节之前，让我们讨论“自上而下”的分类，动态确定聚类数Ku。更准确地说，在这种情况下，我们使用向量Lu（见第3.3.4小节）。我们在“自下而上”案例中使用的代码（附录A）也可以在这种情况下使用（通过参数选择）。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

可人4

2022-5-25 10:38:19

P=3的随机（典型）试验的ROC=41.657%、SR=15.897和CPS=2.079，而P=4的另一次试验的ROC=41.683%、SR=15.697和2.073。这些结果与我们在表6.6混合行业分类中的结果一致。统计行业分类的一个应用是将其用作改进“基本”行业分类的手段，如BIC、GIC等。因此，最粒度级别的“基本”分类可能有过大的子项（Kakushadze和Yu，2016b），四舍五入为2位小数，而这里我们四舍五入为3位小数。在这里，我们使用了（Kakushadze和Yu，2016a）的结果，这与thosein（Kakushadze，2015b）的结果略有不同，thosein采用了向下舍入（而不是简单的舍入）。行业，使用BICS术语表示不确定性。处理此类大型子行业的一种方法是，使用上文讨论的统计行业分类方法对其进行进一步集群。让我们以BICS为例来说明这一点。表9总结了2000年股票回溯测试投资组合中人口最多的前十大子行业（按股票计数）。为了进行比较，该样本中所有165个子行业的库存总量为最小值=1，第一季度=3，中位数=8，平均值=12.12，第三季度=15，最大值=94，标准偏差=14.755，MAD=8.896（符号见表4）。因此，我们有一些“大型”子行业，它们是异常值。我们可以使用我们的“自下而上”聚类算法将这些大型子行业进一步划分为较小的集群。事实上，它需要使用单级算法来拆分它们。我们使用附录A中的统计行业分类算法给出了改进现有“基本”行业分类的R代码。这个想法很简单。让我们通过A=1，…，在“基本”行业分类中标记子行业（最细粒度），K*.

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群