基于机器学习技术的CDS速率构造方法

2022-5-31 19:52:16

决策树（DecisionTree）是“贪婪”算法的一个例子，在该算法中，我们寻求实现局部最优收益，而不是试图实现某些全局最优。历史上，机器学习中提出了各种类型的基于树的算法。本文使用的版本是一种二元决策树，类似于Breiman等人（1984）最初提出的分类和回归树（CART）和Quinlan（1993）提出的C4.5。如果需要，可以通过替换节点或移除子树来修剪树，同时使用交叉验证检查这不会降低树的预测精度。2.6.1决策树算法对于决策树的构建，我们需要一个标准来决定DTS的两个子样本中哪个更集中于（特定的）交易对手。这可以使用杂质度量的概念来实现，杂质度量是定义在概率p=（p，…，pN）的有限序列上的函数，其中pj≥ 0和pjpj=1，其性质是G（p）是所有pi的最小值，除了一个是0，其余的pithen必然是1；有时，我们会添加这样的条件：G在其参数中是对称的，并且当所有pk都相等时，G假设其最大值：p=····=pN=1/N。我们在研究中也使用了两个常见的杂质度量示例：1。基尼指数，G=1-NXj=1pj，（17），通过将其写入asPNj=1pj（1- pj），可以解释为NBernoulli随机变量的方差之和，其成功概率分别为pj和2。交叉熵，G=-NXj=1pjlog pj。（18）可以进行拆分，以最大化G测量的纯度增益。另一个不同的拆分标准是Twoing，将在下文中解释。然后根据以下算法1构建决策树。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-5-31 19:52:20

从根节点T.2处的完整培训示例数据开始。给定一个节点Tp（对于“父节点”）和幸存样本集DTp，对于每对s=（ν，r）和1≤ ν≤ d和r∈ R、将DTpL拆分为两个子集，即数据点的集合DTpL（xi，yi）∈ 其中第ν个分量xi，ν<r，以及由xi，ν定义的集合DTpR≥ r、我们将s称为拆分，DTpL（s）和DTpR（s）分别称为DTp的相关左拆分和右拆分。请注意，我们可以将自己限制为有限数量的拆分，因为DTp中（xi，yi）只有很多特征值xi，ν，并且我们可以在xi，ν的两个连续值之间任意选择r，例如中间值。3、对于j=1，N、设πp，jbe为数据点的比例（xi，yi）∈ 对于yi=j的dtpf，同样，对于给定的分裂，设πL，j（s）和πR，j（s）是这些点inDTpL（s）和DTpR（s）的比例。将这些数字收集到三个向量πp（s）中=πp，1（s），πp，N（s）,πL（s）=πL，1（s），πL，N（s）同样，对于πR（s），计算每个分裂的纯度增益，定义为G（s）：=G（πp）-pL（s）G（πp，L（s））+pR（s）G（πp，R（s））,式中，pL（s）：=#DTpL（s）/#DTpand pR（s）：=#DTpR（s）/#DTp左拆分和右拆分的DTp点分数。4、最后，选择拆分s*其中纯度增益最大，并用数据集DTpL确定两个子节点Tp、Land Tp、Rw*) 和DTpR*).5、重复步骤2至4，直到每个新节点都有一个关联的数据集，该数据集只包含属于单个名称j的特征数据，或者直到达到节点数量上的某些人工停止标准。很明显，节点实际上可以通过相关数据集进行识别。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-5-31 19:52:24

如果我们使用twoing，那么步骤3将被computingpL（s）pR（s）替换nXj=1πj，R（s）- πj，L（s）,第4步，选择一个使表达式最大化的拆分。s*不一定是唯一的，尽管一般认为基于树的方法的一个优点是其直观的内容和易于解释。我们将结果树中的叶子数视为树的大小或复杂性。超大数据树变得不太容易解释。为了避免这种过于复杂的树，我们可以规定分割数z的边界作为停止标准。我们可以通过检查一系列最大拆分的交叉验证结果来搜索树大小的最佳选择。如经验结果部分所示，一旦达到约20.2.6.2的水平，分类精度就不再受到z的强烈影响。决策树的示例表2显示了决策树算法使用作为特征向量生成的决策规则：=（PD3yr，PD5yr，σh3m），对于表最后一列代码所示的五个可观察交易对手。该算法基于2008年9月15日雷曼破产前100天收集的数据运行：见附录A。该树有9个节点，标记为1到9。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-5-31 19:52:27

根据其特征变量的值，一个不可观测的将被引导通过一系列节点，从节点1开始，直到与单个可观测对手相关的节点结束，然后对其进行分类。表2：基于决策树的CDS代理方法的简单示例，如表1所示，我们调查了树的大小和纯度增益的不同定义（基尼、熵、二分法）对决策树分类性能的影响：交叉分类比较见第3节，分类内比较见图18及其相关表格。众所周知，决策树算法可能会避免过度匹配：它可能在训练集上表现良好，但在测试集上无法获得令人满意的结果。因此，我们还研究了所谓的自举聚合树或袋装树，这是一个集成分类器的示例，我们将在下面的第2.9节中详细讨论。2.7支持向量机我们将仅限于对支持向量机（SVM）算法的直观几何描述，有关技术细节，请参考文献：例如，参见Hastie et al.（2009）。传统上，SVM的解释从两类分类问题开始，类y=1和y=-1，其中训练数据的特征向量分量dt={（xi，yi）∈ Rd×{±1}，i=1，n}可以线性分离，因为我们可以找到一个超平面H Rn使得所有日期xi，其中yi=1，位于超平面的一侧，以及yi=-1躺在另一边。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-5-31 19:52:30

不用说，对于给定的数据集，线性可分性的假设不一定满足，不满足的情况将在下面讨论。如果它真的成立，人们也会谈到硬利润的存在。假设有这样一个硬边界，支持向量机的想法是选择一个分离的超平面，该超平面将到两组特征变量的距离最大化，其中yi=1的特征变量集和yi=-这两个距离可以相等，它们的总和M称为边距：见图5。使用一些初等解析几何，可以将其重新表述为具有线性不等式约束的二次优化问题：最小β，β| |β| |取决于YiβTxi+β≥ 1，i=1，n、（19）不等式约束为最优解等式的数据点称为支持向量：这些是确定最优裕度的向量。If（β*, β*) 是唯一的最佳解决方案，将任何新的特征向量x指定给类y=1或y=-1根据y（x）是正还是负，其中（x）=β*Tx+β*. （20） | x（x）|越大，将新数据点x分配到其各自类别的“安全性”就越高，请记住，将算法扩展到下面的多类别分类。2.7.1 margin图5的一个示例说明了最大边距为M的线性可分离数据的概念。图5:Margin2.7.2非线性可分离数据的SVM示例。如果属于这两类的特征数据不是线性可分离的，它们总是可以通过一些弯曲的超曲面来分离，并且数据在新坐标系（ξ，…，ξd）中线性可分离，例如，在新坐标系中，S的方程简化为ξ=常数。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-5-31 19:52:33

一个标准的例子是半径为R的球体内部的一组点与球体外部的另一组点：这些点在通常的笛卡尔坐标系中显然不是线性可分的，但在极坐标系中会变得可分。更一般地说，人们总是可以从Rdinto中找到一个带有k的可逆Mooth映射≥ d使得变换后的特征向量Д（xi）变得线性可分离。然后，可以在转换后的数据集{（Д（xi），yi）：i=1，…，N}上运行RK中的算法，并构造formby（x）=β的决策函数*TД（x）+β*可用于分类。从理论角度来看，这是非常令人满意的，但从实际角度来看，还有一个问题，即如何让机器自动选择合适的映射。为了避免这种情况，我们首先考虑原始利润最大化问题的双重表述（19）。不难看出最优解可以写成线性组合β*=Pni=1α*ixio数据点：任何非零分量β⊥垂直于XI的β的值对约束没有作用，但贡献了正的β值⊥||目标函数。在geometricterms中，如果所有数据都位于某个低维线性子空间（例如超平面），则最优的、边距最大化的分离超平面将垂直于该子空间。因此，可以将自己限制为β=Piαixi形式的β，而不是（19）求解minα，αPi，jαiαjxTjxis。t、易PjαjxTjxi+α≥ 1，i=1，n、（21）对于转换后的问题，我们只需替换内积xTjxibyД（xj）TД（xi）：请注意，由此产生的二次最小化问题始终是n维的，而与目标空间的维数无关。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-5-31 19:52:36

现在关键的观察结果是，系数k（xi，xj）=Д（xj）TД（xi）（22）的对称n×n矩阵是正定义的，相反，如果k（x，y）是矩阵k（xi，xj）i、 jis正定义，则可通过已知的一般结果，即默瑟定理，将其写成（22）表示适当的Д。函数kk（xi，xj）i、 jis始终为正定义，无论xi点的选择如何，都称为正定义核。此类核的示例包括（非归一化）高斯k（x，y）=e-c | | x-y | |与多项式核1+yTxp、其中p是正整数。为了构造一个通用的非线性SVM分类器，我们选择一个正定义的核k，并求解minα，αPi，jαiαjkxi，xjs、 t.yi公司Pjαjkxi，xj+ α≥ 1，i=1，n、（23）然后，经过训练的分类函数是b（x）的符号，其中（x）：=nXj=1α*jk公司x、 xj公司+ α*,这个*指示最佳解决方案。2.7.3硬边距与软边距最大化尽管坐标变换后始终可以进行线性分离，但如果我们不希望分离面表现得太“疯狂”，允许一些数据点位于分离面错误的一侧可能是有利的：想想两类点的例子，“正方形”和“圆形”，所有“圆”与0之间的距离大于1，所有“正方形”的距离小于1，只有一个距离为100。此外，即使数据可以线性分离，如果这允许我们增加利润率，从而更好地对未来数据点进行分类，那么让一些数据未分类可能仍然是有利的。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-5-31 19:52:39

因此，我们可能希望允许一些分类失误，但要付出一定的代价。这可以通过将第i个不等式约束中右侧的1替换为1来实现- ξi，将成本函数CPiξ添加到要最小化的目标函数中，并对所有ξi进行最小化≥ 0.意味着对于所有向量（v，…，vN），Pi，jk（xi，xj）vivj≥ 02.7.4多类分类我们已经给出了两类SVM分类器的描述，但我们仍然需要解释如何处理多类分类问题，其中我们必须对特征向量xamong类进行分类。有两种标准方法可以解决这个问题：我们可以将问题分解为两类问题，方法是将每个类的特征向量分类为属于给定类或不属于给定类。然后，两类算法为我们提供N个分类函数byj（x），j=1，N、然后，我们通过取（或a）jbyj（x）具有最大值（最大利润）的j来构建一个全局分类器。另一种方法是为每个N（N- 1） /2对类，然后再次查看选择两类决策函数具有最大值的一个类。如表1所示，我们研究了具有线性、高斯和多项式核的SVM算法，并测试了它们在CDS代理问题中的性能。结果见第3节和附录B.2.8神经网络2.8.1描述由人脑功能及其构成神经元的某些生物模型驱动，神经网络表示由单个神经元的程式化（数学模型）网络组成的学习过程，这些神经元被组织成输入层、输出层和一个或多个中间隐藏层。每个“神经元”变换一个输入向量z=（z。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-5-31 19:52:42

，zp）转换为单个输出u，首先取输入的线性组合piwizi，添加一个常数orbias项w，最后对结果应用非线性变换f：u=fXwizi+w= fwTz+w, （24）所有神经元的权重wi将通过一些全局优化程序“学习”。对于所谓的感知机，最初的想法是为f取一个阈值函数：f（x）=1if x≥ 否则为a和0，仅当输入信号wTz+WW的a ffine组合足够强时，才会传输信号。如今，人们通常将f视为光滑可微分函数，例如由σ（x）=1+e定义的sigmoid函数σ-cx（25），c为可调整参数。f的其他选择是双曲正切函数或线性函数；这些都是一对一的，因此与感知器相反，没有任何输入信号丢失。作为输入层神经元的输入，我们采用特征向量x。然后，输入层神经元的输出作为第一个隐藏层神经元的输入，这些输出随后作为下一个隐藏层的输入，等等。。哪个输出作为哪个神经元的输入取决于网络结构：例如，可以将给定层中的每个神经元连接到下一层中的所有神经元。最终隐藏层的输出uf=（ufν）ν经过最终的精细变换，得到K值wtkuf+wk0，K=1，K、（26）对于某些权重向量wk=（wkν）ν和偏差项wk0，类似于隐藏层的权重，必须从测试数据中学习：更多信息如下。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-5-31 19:52:46

对于使用神经网络的回归，这些将是最终输出，但对于分类问题，我们通过定义πk=ewTkuf+wk0PKl=1ewTluf+wl0来执行进一步的转换，（27）解释是πk，它是输入x以及所有初始、中间和最终网络权重的向量W的函数，是特征向量x属于k类的概率。为了训练网络，我们注意到，减去输入xibelongs到（观察到的）类yi的对数可能性∈ {1，…，K}是-NXi=1KXk=1δyi，klogπk（xi；W），（28），其中W是网络所有权重和偏差的向量。这也称为交叉熵。然后确定权重以最小化该交叉熵。该最小值使用梯度下降算法进行数值逼近。目标函数的偏导数可以使用链规则通过反向递归计算：这称为反向传播算法：有关更多详细信息，请参见Hastie et al.（2009）。在训练网络后，最终决策规则是将特征向量x分配给πk（x，cW）最大的类k，其中hat表示优化权重。2.8.2简单神经网络的示例图6显示了一个简单的三层神经网络，包括输入层（d表示#个特征）、一个隐藏层（n表示#个隐藏单元）和输出层。图6：一个简单神经网络的图示2.8.3参数化我们仅限于具有单个隐藏层的神经网络，这是受Cybenko和Hornik的universalapproximation定理的启发，该定理表明此类网络能够一致逼近Rn紧子集上的任何连续函数。剩下的相关参数是激活函数f和隐藏单元数。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-5-31 19:52:51

作为激活函数，我们选择并比较了Elliot-sigmoid函数、纯线性函数和双曲函数：见图7。我们还研究了隐藏单元的数量对分类性能的影响：这些单元的数量越多，神经网络越复杂，人们可能天真地期望性能越好。然而，我们发现，根据特征选择，我们的代理问题的性能对于少量隐藏的神经元很快就稳定了：见图20。我们发现神经网络是我们表现最好的分类器：更多讨论见第3节。图7：神经网络的激活函数2.9集成学习：Bagged决策树Bootstrapped Aggregation或Bagging，由Breiman（1996）介绍，基于众所周知的非参数统计的Bootstrap技术（Efron 1979）。从训练集DTONE开始生成新的训练集D，DBby替换均匀抽样，并使用这些totrain分类BY（x），byB（x）。然后，通过多数投票（或委员会决策）进行最终分类：特征向量x与BYI（x）中最常出现的类别相关联。我们将B称为装袋程序的学习周期数。Breiman（1996）发现装袋可以减少差异和偏差。同样，Friedman和Hall（2000）报告称，装袋可以减少决策树等非线性估计器的方差。装袋可以在每个阶段使用相同的分类算法，但也可以用于组合来自不同分类族的分类者的预测。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-5-31 19:52:54

在本文中，我们将自己局限于bagging决策树，以解决后者对训练集的强烈依赖性及其对噪声的敏感性。2.9.1袋装树绩效示例如图8所示，与普通决策树相比，袋装树在所有三种类型的杂质度量（基尼、二元和熵）中的误分类率方面都有所提高。对于该图，学习周期数B设置为30。Wealso研究了精度对B的依赖性，发现对于每个特征选择，精度稳定在B=30左右：进一步讨论见图21和第3.2节。在装袋之后，决策树算法从第六名上升到第三名，表现最好的分类器系列：参见下面的第3.1节。图8：袋装树与决策树2.10分类性能的统计程序为了检查各种分类的性能，我们使用了成熟的K-fold交叉验证程序，该程序广泛用于统计学和机器学习。2.10.1 K-fold交叉验证让德必成为一组观察数据，包括特征向量及其所属的类别（forus：可观察对手）。1、随机分布并将其拆分为K个不相交子集Dn（K）：DO=K[n=1Dn（K）]。通常，Dn（K）大小相等。对于分层K倍交叉验证，每个Dn（K）其构造方式是，就其包含的特定类别样本的相对数量而言，其组成与DO相似。分层交叉验证服务可限制下一步的样本偏差。2、对于n=1，2，K、通过DHn=Dn（K）确定坚持样本，然后在DTN=DO确定的训练集上训练分类器- DHn。（29）让我们记录最终的分类结果。3.

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-5-31 19:52:57

对于每一个n，通过计算误分类率对保持样本DHNB进行测试HN定义人Hn=#DHnX（x，y）∈DHn公司1.- I（y，^y（x））, （30）其中，如果u=v，则I（u，v）=1，否则为0。如果数据以某种格式出现，则减少采样偏差，例如PD数据按递增幅度排序4。取样本平均值和标准偏差Hnas对预期分类率及其标准差的经验估计值为：buK=KKXn=1HnbSK=vtKKXn=1(Hn公司-buK）。（31）如果我们假设抽样误差的分布，例如正态分布、学生t分布或甚至β分布（εHnare均在0和1之间构造），我们可以将这些数字转换为95%的置信区间，但我们仅限于报告Bukandbsk。还要注意1-buKwill是对预期准确率的估计。2.10.2 K倍交叉验证的K选择Kohavi（1995）建议使用分层交叉验证来测试分类。基于扩展数据集，它表明K=10是一个不错的选择。Breiman等人（1984）也发现了这一点，他们报告称，K=10在决策树研究中给出了令人满意的交叉验证结果。我们检查了K对分层Coss验证对判别分析、逻辑回归和支持向量机系列（见图13、17和11）的影响，并发现K=10是一个令人满意的选择，除非另有说明，我们对八个分类族的所有交叉验证结果都是在K=10.2.11特征选择和特征提取的情况下获得的。在讨论了八个分类族以及我们用于评估分类性能的统计评估程序之后，我们转向了特征变量。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-5-31 19:53:00

我们讨论了使用PCA的特征选择和特征提取，并给出了后者的一个应用。2.11.1特征选择特征选择可以基于纯粹的统计程序，如Hastie et al.（2009）中描述的正向、反向和逐步选择，可以在理论基础上进行，也可以通过实践进行通知。在我们的研究中，我们采用了后两种方法，基于我们自己的经验和Berndt等人（2005）的研究选择特征变量，该研究报告称，违约概率（PD）和公司流动股权期权溢价的隐含波动率对公司的CDS率具有重要的解释力。对于PD数据，Berndt et al.（2005）使用穆迪KMVTMExpectedDefault频率或EDFTM，这是从默顿的经典企业价值模型（默顿，1974）获得的。在我们的研究中，我们用彭博资讯（BloombergTM）的PD数据替换了这些预期违约频率（仅适用于认购者），该数据涵盖了公众（Bloomberg，2015）2.11.2特征提取金融变量通常具有强相关性，尤其是当它们具有期限结构时，但也具有横截面性，如类似到期日的历史波动率和隐含波动率。对于我们的数据集，图15的柱状图说明了这一点，该柱状图显示了16个特征变量之间空气相关性的经验分布，并清楚地表明存在非常强的显著相关性。例如，众所周知，解释变量之间的相关性会对回归系数的估计产生强烈影响。如果我们通过添加或删除解释变量来干扰模型，或通过添加噪声来干扰数据，从而导致错误的估计，则后者可能会受到影响。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-5-31 19:53:03

这在统计学中被称为回归中的多重共线性，并且已经得到了很好的研究：例如Greene（1997）。对数据进行初步主成分分析（PCA），并在PCA空间中仅使用前几个主成分进行回归，可以解决此问题。从数学上讲，PCA相当于对特征向量执行正交变换，从而使方差协方差矩阵对角化。然后，转换变量的分量（称为主分量或PCs）将不相关；它们通常按其相关特征值的降序排列。在机器学习中，使用PCA等技术对原始特征空间进行预处理称为特征提取；参见Hastie等人（2009年）。事实上，在图像识别等领域，通常的做法是在进行分类之前执行这样的特征提取过程，以减少特征空间的极大维数。对于我们来说，特征空间的维度（最多16个）不是一个问题，但单个特征变量之间的强相关性及其对分类的影响可能是一个问题。我们通过执行PCA并使用PCs作为分类算法的输入，替换原始特征变量，检验了相关性的影响。如果相关性会强烈影响分类，那么PCA后的分类结果应该有所不同，因为PCA成分在结构上是不相关的。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-5-31 19:53:06

正如我们将在下文第3.1节中看到的那样，对于大多数分类家庭来说，相关性并不影响分类，而且在哪里存在结构性原因。PCA当然已经经常用于金融领域，尤其是固定收益领域和风险管理领域，主要用于降维目的：例如，Rebonato（1999）作为一般参考，Brummelhuis等人（2002）关于非线性风险价值的应用。在本文中，我们将其用作诊断工具，以确定特征相关性对分类的潜在影响。2.11.3一个例子：Naive Bayes Classification with and without PCAAL尽管在应用中Naive Bayes Classifies isoften所做的类别独立性假设被违反，但其在非金融市场数据方面的表现在Rish等人（2001）中被认为是非常成功的。对于两个特征向量FS1和FS，我们比较了Naive Bayes与原始特征变量的性能，以及Naive Bayes使用主成分的性能。图9中的图表绘制了经验准确率（通过K倍交叉验证计算）与用于分类的FS1 PC数量的函数，其中第一个表格列出了这些比率的数值，以及在最后一列中，通过使用“原始”、未转换的FS1变量获得的准确率。第二个表显示了Naive Bayes与特征向量FS6的相似比较结果。首先，毫不奇怪，图9显示使用的PC数量越多，分类精度越好。此外，基于全套PC变量的分类比使用未转换变量的分类精度更高。这表明Naive-Bayes在回归问题中不存在多重共线性，也表明PCA可以成为揭示这些问题的有用诊断工具。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-5-31 19:53:10

对PCA后更高准确性的解释可以发现，我们的强相关财务特征无法满足NB的独立性假设，而PCs至少近似地满足这一假设，其范围至少是不相关的。我们还注意到，查看图表，需要7到10个主成分才能达到最大精度，这远远超过解释99%方差所需的主成分数1或2。由此我们可以得出结论，解释的方差是分类绩效的一个较差指标，这一点将在第3.1节中进一步讨论。图9:PCA与FS1和FS63经验性能比较总结下Naive Bayes分类的预期准确率在本节中，我们从两个角度总结了我们的结果：o交叉分类性能，其中我们将八个分类系列的分类性能与附录A中列出的六个不同特征选择进行比较，个人和集体，无论是否通过PCA进行特征提取内部分类性能，其中，对于八个分类系列中的每一个，我们分别比较不同分类的不同参数选择和不同特征选择的单独性能，并讨论如何设置第3.1节中的交叉分类比较参数。本总结所依据的不同图表收集在附录B.3.1交叉分类性能比较结果中。我们论文的主要结果总结在图10中，其中我们绘制了附录A中每个特征选择的每个分类的误分类率（用颜色代码表示），以及表3，其中列出了平均误分类率u及其标准偏差σ。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-5-31 19:53:13

分类器的参数已根据经验设定，以优化K倍交叉验证后获得的准确率，同时尊重机器学习文献的建议：有关这一点的进一步讨论，请参见第3.2节。根据该图和表格，我们可以得出以下观察结果。1、首先，该图表明，表现最好的分类器是神经网络、支持向量机和袋装树，其次是k近邻和QDA分类器，Na’I-Bayes总体表现最差。2、为了量化这种印象，我们继Delgado和Amorim（2014）之后，通过计算不同特征选择的准确率的经验平均值和标准偏差，进一步汇总了每个分类的准确率和误分类率。图10：所有分类家族的分类绩效汇总表3：根据K倍交叉验证估计的平均（u）和标准偏差（σ）误分类率汇总表4：基于六个特征选择的平均准确率和标准偏差的分类排名如表4所示。根据该表，平均准确率最高的分类家族中表现最好的确实是具有正切A激活函数的神经网络（平均准确率99.3%，s.d.0.6%）、具有多项式核的支持向量机（96.8%，1.6%）和袋装树（96.0%，2.2%）。这与King at al.（1995）和Delgado and Amorim（2014）等文献的结果一致。或许有点令人惊讶的是，“QDA-FullCov”也以95.2%的合理平均值和1.6%的标准差跻身榜首。3.

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-5-31 19:53:17

如果我们关注特征变量选择的影响，我们会发现，对于大多数类别家庭来说，只有两个特征变量的FS3（灰色）和FS6（绿色）的未分类率明显高于其他类别。也有一些例外，如“NN-Linear”，它们都具有可比性（也相对较低）和“QDA-FullCov”、“NB-norm-kernel”、“NB-tria-kernel”、“DT-Entropy”，其中FS6相对于其他的性能并不太差。4、关于特征变量选择，在所有分类中，FS1（蓝色）和FS4（橙色）的误分类率非常接近，所有分类的平均值（括号中的标准偏差）分别为8.5%（2.0%）和7.5%（2.0%）。类似的备注适用于功能选择FS2和FS5。鉴于FS1和FS2分别要求将（报价最多的）5年期CDS利率s作为附加特征，实际上最好选择FS4而不是FS1或FS5而不是FS2，因为对于给定的不可观测交易对手，可能根本没有任何流动报价CDS利率，包括5年期利率。为了证明我们推荐的文献选择K=10（参见Breiman et al.（1984）和Kohavi（1995））进行K倍交叉验证的合理性，我们使用K倍交叉验证来计算不同的经验准确率，我们检查了DA、LR和SVM家族的经验准确率对K的依赖性：见图13、17和表12。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-5-31 19:53:20

我们发现，这些比率与K没有变化，K只是用预先指定的K来评估分级性能，K=10是一个合理的选择。如前所述，在机器学习的某些领域，如图像识别，在进入分类阶段之前，通常首先执行某种特征提取程序，如主成分分析（PCA）。这通常是为了减少特征变量空间的维数。对我们来说，这个维度的大小（最多16个）并不是什么大问题，但我们的一些或所有个体特征变量之间是否存在强相关性可能是个大问题。对于经典回归，这在回归中的多重共线性下得到了很好的研究。对于金融和经济应用而言，这是一个重要的问题，计量经济学传统上已经认识到这一点：金融变量通常具有强烈的相关性，尤其是具有期限结构的变量，例如我们用于特征向量的变量：历史和隐含波动率、违约概率。从横截面来看，这些也可能是强相关的，例如，某一到期日的隐含波动率和相应的历史波动率。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-5-31 19:53:23

图15显示了16个特征变量的成对相关性的经验分布，并表明我们的数据集中存在显著的相关性。基于这一观察结果，我们通过将原始特征变量替换为我们数据集的初步主成分分析或主成分分析得出的特征变量，检查了八个分类家族中六个的特征变量之间的相关性的影响。与FS1的原始特征变量不同，我们将它们相对于主要组件的坐标作为分类输入（相当于在R中执行正交变换），让我们使用的PC数量从1到16不等。最后，通过比较PCA空间中计算的每个分类性能与原始FS1计算的分类性能，我们对基于FS1（特征变量的全向量）的分类进行了类似比较。其思想是，PCs是正交的，因此不相关，而FS1的分量则不相关。如果两者的分类结果相似，则表明或至少是一个有力的迹象，即多重共线性不是问题。图11和表5总结了结果：1。如图11所示，正如预期的那样，随着更多的主成分用于分类，分类的准确率增加，当使用所有16个成分时达到最大值。它还表明，除了来自DAfamilies的分类人员外，这一表现在PC5和PC7之间大致上是“偏离”的。相比之下，两个DA系列的一些成员需要更多的PC来接近其最大准确率，尤其是QDA对角线COV或LDA对角线COV。根据表4，QDA FullCov的情况与非DA分类更为相似。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-5-31 19:53:27

在QDA对角线COV和LDA对角线COV算法中，另一个残酷的对角线协方差矩阵假设当然已经忽略了数据集中存在的任何相关信息，这可能解释了这种异常行为。2、有趣的是，第一个主成分（PC）已经解释了98%的方差，前两个主成分的解释率为100%，精度在两个小数点内。尽管如此，分类准确率至少需要5个百分点才能稳定下来，而额外的成分只会对差异起到非常小的作用。”方差解释“不是很好的分类精度预测因子，使用PC来减少特征向量大小时应小心。相反，PC应作为信号相关性影响的诊断测试。通过计算各自经验准确率之间的差异（通常通过10倍交叉验证获得），我们对使用特征向量FS1的直接分类和使用16个FS1的分类进行了相似的比较。结果见表5标题为“A（PC）”的最后一列-A（FS1）“”。我们看到，除了NB以及LDA和QDA具有对角协方差矩阵外，假设忽略了数据中的相关性。PCA将考虑这种相关性，从而产生不同的分类。（顺便提一下，如果特征变量不相关，例如PCA产生的变量，则对角协方差矩阵的假设变得无关紧要。）3.2分类内绩效比较结果接下来，我们简要总结了分类内绩效结果，并通过附录B.1中的图表进一步详细说明了各个分类的绩效。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-5-31 19:53:31

在每个Classifier系列中，在不同的参数化选择和不同的功能选择之间存在着大量的性能差异。2.关于判别分析（DA）系列，图12比较了线性和二次两类DA分类的性能，以及协方差矩阵的两种不同的所谓规则化选择（Hastie et al.，2009）：完整与对角线，六种不同的特征变量选择（或学习上下文，也被称为学习上下文）中的每一种。图11：分级性能和PCA总结（K=10，单位：Kfold，带宽b*= 0.2，树尺寸z*= 20，k*= 9对于kNN，学习周期c=30，所有与分类汇总相对应）表5：分类性能，%PCs解释的方差（K=10，Kfold，带宽b*= 0.2，树尺寸z*= 20，k*= 9对于kNN，学习周期c=30）图12显示，在所有特征选择中，QDA FullCov和LDA的准确率明显高于QDA DiagonalCov和LDA DiagonalCov的准确率，而其测试误差的标准偏差或小得多，或近似于其对角线对应项的标准偏差：参见表6。因此，使用全协方差矩阵可以在不引入过拟合的情况下获得更好的精度。3、图14显示了不同核函数和不同特征选择的Naive Bayes分类器作为带宽b函数的平均或预期准确率。带b的Naive Bayes≥ 0.3和特征选择FS6以及使用normal或Epanetchikov核的性能低于本文研究的所有其他分类器，这部分推动了我们在第2.11.3小节中的特征提取研究。表7列出了我们研究的18个NaiveBayes分类器的测试误差的平均值和标准偏差，作为带宽b的函数。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-5-31 19:53:36

由于对于带宽b的最佳选择没有封闭形式的解*, 我们根据K-fold交叉验证得出的性能估计，根据经验确定后者。图14说明了如何：发现b=0.2时的平均准确率（所有分类的平均准确率）最大，并且该图显示，“norm6”的性能在b=0.2时开始“下降”，而其他分类的性能要么下降，要么也开始下降。最后，当b=0.1时，超过一半的分类者的表现比b=0.2.4时差。图16和表8显示了k和不同阻力度量的不同选择的kNN的准确率，同样针对六个特征选择中的每一个。对于为kNN选择最佳k，同样没有解析解。图16表明，k越小，我们可以达到的准确率就越好。然而，小k意味着最近邻居的集合可能很小，我们将在少数对手中占据多数，这可能会使结果对数据中的噪声敏感。Jirina和Jirina（2008）以及Hassanat et al.（2014）建议，根据经验法则，k应选择接近√n其中n是训练样本数。在我们的研究中，n=100，对应于雷曼破产前的100天。此外，我们希望k是奇数，以避免多数规则中的关系。结果，我们选择了k*= 通常，表8列出了测试误差的平均u和方差σ。图17和表9显示了六个逻辑回归分类的K倍分层交叉验证中，经验准确率与层数的依赖关系，表明它们非常稳定。我们注意到，尽管LR在银行业很受欢迎（creditscoring），但其准确性可能会非常不稳定，这取决于特征变量的选择。6.

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

能者818

2022-5-31 19:53:39

图18和表10显示了决策树在不同纯度度量和不同树大小选择（最大分裂数）方面的性能。Breiman等人（1984）表示，如果结果决策树变得过于复杂，它将失去其可解释性，并且往往变得不稳定。在我们的实证研究中，我们确定*= 20作为最佳树大小，因为对于较大的z，性能变得相对灵活，而树的复杂性显著增加。7.图19显示了支持向量机分类器在不同特征选择中对不同核函数选择的性能。表11和表12分别列出了通过K倍交叉验证确定的经验准确度和误分类率及其标准偏差，并作为K的函数。它们再次证明了我们选择K=10是合理的。8、关于神经网络（NN）分类器，例如参考文献[13]所强调的，没有简单的方法来选择隐藏层的隐藏单元数。我们从经验上发现，对于我们的问题，此类单元的数量对类内性能变化的影响有限：见图20。请注意，此图中的准确率都相当高，介于93%和接近100%之间。在报告交叉分类比较结果时，我们使用了10个单位的隐藏层大小。与LayerSize相反，传递函数的选择对性能的影响更大，我们特别发现，在我们调查的所有类别中，切线Sigmoid函数的性能最好。表13和14分别列出了图20的准确率数值以及测试误差的平均值和标准偏差σ。9

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

能者818

2022-5-31 19:53:42

图21和表15检查了袋装树算法的性能变化，通常情况下，对于每个特征选择，从s=10开始的学习周期数s的函数。他们表明，经验精度和误分类率随s变化很小，并且在15到20之间的有限周期数足以实现可得的结果。在我们的研究中，套袋树是第三个表现最好的树；根据黑斯蒂等人的说法。（2009），Bagged Tree算法作为决策树的替代算法，更稳定，在样本外测试中表现更好。我们在图8、图21和表15中的结果证实了这一点。4结论4.1结论在本文中，我们基于公开的金融市场数据，利用机器学习（ML）技术研究了CDS代理构建方法，旨在解决CDS利率的流动性不足问题。机器学习已经广泛应用于制药和医学、机器人、海洋学、图像识别和许多其他领域。我们的研究是第一次将ML应用于重要的金融实践问题的系统研究之一。根据我们的结果，我们可以得出以下结论。1、在对目前机器学习中最流行的八个分类家族中的156个分类家族进行研究后，我们认为，经过精心选择的分类算法，以及适当的参数化选择和特征变量选择，可以用来构建可靠的CDSProxies，用以解决导言中所述CDS利率的流动性不足问题。即使基于压力财务数据（本文使用了雷曼破产前100天的数据），这种代理结构也可以在交叉验证中实现非常高的准确率。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-5-31 19:53:44

我们排名前三位的分类家族是神经网络、支持向量机和Bagged树，这一结果与Kong等人（1995）和Delgado和Amorim（2014）报告的使用非金融数据的机器学习分类结果一致。2、与Kong et al.（1995）和Delgado and Amorim（2014）等现有研究相比，我们专门针对金融市场数据集进行比较，并针对一个特定问题，即CDS代理构建问题。这确保了性能比较是相似的。据所知，我们的分类比较完全基于金融市场数据。尽管如此，我们对表现最佳的分类系列的总体排名结果与该领域现有文献的排名一致，但有一些例外，尤其是Naive Bayes分类。这可以用财务数据的特殊特征来解释，尤其是其内在的高度相关性。3、我们认为，我们的研究是第一个仅使用高度相关数据的分类研究之一，并且我们调查了回归中的多重共线性问题（在很大程度上），因为它可能会影响分类。使用主成分分析（PCA）作为特征提取技术，我们表明，在我们的案例中，相关性对分类的影响不大；尤其是，它们不适用于我们的三个性能最好的Classifier系列。我们建议，在处理潜在的强相关性特征时，最好使用未转换或“原始”特征变量进行PCA空间分类，以进行验证和作为诊断工具。4.

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-5-31 19:53:48

我们认为，基于ML的CDS代理方法优于现有的CDS代理方法，如曲线映射或横截面回归：通过构造，该方法满足监管机构规定的所有三个标准，而不仅仅是前两个标准（参见引言）。此外，与关于曲线映射或横截面回归的公开文献相比，我们已经对我们研究的每种ML算法进行了大量的样本外交叉验证测试，从而为比较这些算法和选择性能最好的算法提供了客观依据。不用说，应该用其他数据集重复这一练习，以确保我们的结果的可重复性，但他们与现有绩效研究的总体一致性可以被视为一个令人鼓舞的迹象。对每种ML算法的基本理解对于指导参数选择和解释实证结果都很重要。为此，本文介绍了我们使用的八个分类系列中的每一个，并通过一个简单的运行示例进行了说明，从而为实际问题的特定背景提供了必要的理论基础。本文研究了可调参数的依赖性，如k-最近邻中的最近邻数、Naive Bayes中的带宽、决策树算法中的树大小参数或神经网络的隐层大小。我们还研究了在K褶皱分层交叉验证中改变地层数量的影响。在缺乏理论结果的情况下，这些参数的调整必须在交叉验证的基础上进行，同时考虑现有文献的建议。7.

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝