全部版块 我的主页
论坛 提问 悬赏 求职 新闻 读书 功能一区 经管百科 爱问频道
30887 4
2010-04-20
请问大家:

如何量化不同客户的违约概率PD?

请建立一个数学模型!

请各位指教,

拜托了。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2010-4-20 22:57:54
请参考:


计算违约概率的数学工具
从统计学角度看,可以进行违约概率分析的数学工具主要包括判别分析、逻辑回归、主成分分析和神经网络等四种类型。
(1) 判别分析
判别分析是一种度量特定范畴内因子重要程度的分类方法。如检验引起客户违约的主要因素,只要能确定所有可能的影响因素,模型就可以使用这些因素在违约主要因素和次要因素之间做出判别分析。在错判概率最小或错判损失最小的前提下,建立一个计算准则,对给定样本,依据该准则判断是否违约。
对客户违约概率的计算属于多元判别分析。具体而言,将已有的客户违约数据对应相应客户信用分类的样本进行分类,对各组样本选择相应的自变量进行统计分析,求出合并协方差矩阵。再利用新样本数据中相应的变量代入公式求得马氏距离,距离最小的表示新样本数据与该类样本最为相似,由此归入此类(违约或不违约),并根据距离远近求出新客户一年期违约概率。
目前,国际通行的统计工具软件,如SAS、SPSS、Statistcs等都能够提供判别分析功能,可以根据用户需要定制前端更加友好的界面,从而更直接地进行违约概率的计算和判别。
(2) Logistic逻辑回归
此类模型是计算违约概率的传统工具,其基本原理是对已有客户违约和不违约样本0-1分类,根据业务规则,选取一定指标作为解释变量。取得这些已有先验数据的样本后,将P设为客户违约概率,(1-P)为客户不违约的概率,将比率P/(1-P)取自然对数得Ln(P/(1-P)),即对P作LOGIT转换,由此建立线形回归方程进行分析。实践表明,这种模型对判断二分类变量的关系有着良好效果。而违约事件正好属于二分变量范畴,因此这种模型在计算PD过程中有着很好的适用性。
(3) 主成分分析
主成分分析是“空间旋转”构造原变量的线形组合,产生一系列互不相关的新变量,从中选出少数主要变量,使之包含尽可能多的原变量信息,从而使得用这几个新变量代替原变量分析问题和解决问题成为可能。当研究对象确定后,变量中所含信息的大小通常用该变量的样本方差来度量。在现实经济生活中,影响违约的因素很多,如企业经营状况、财务状况、还款意愿、担保品价值、政府干预等,这些因素对违约的发生有着不同的贡献,对违约概率的分析没有必要考虑所有影响因素,运用主成分分析可以从变量的相互影响关系中萃取出主要因素,并根据各要素所含信息的多少确定变量关系和计算方法。
统计实验表明,该方法在计算PD时,如单独使用,往往造成模型不健壮,即参数缺乏稳定性,但它可以十分有效地确定解释变量集合,因此在模型建立的前期发挥着重要作用,若与其他模型结合,会收到良好效果。
(4)神经网络分析
神经网络模型是近年发展起来的一种信用分析模型。它与非线形判别分析十分相似,扬弃了危机预测函数的变量是线形并且相互独立的假设。神经网络模型能深入挖掘预测变量之间“隐藏”关系,正在成为非线性违约预测函数的重要根据。
在人脑中,穿梭于神经元间的电子信号是受到抑制还是得到激活,取决于神经元网络过去学习的内容。同样,采用硬件或是软件构建的人工神经元与生物神经元的行为方式基本相似。神经网络的行为来源于相互联系的单元的集合性行为。神经元之间的关联并不是固定不变的,而是可以通过神经网络与外界间的相互作用所产生的学习过程进行相应的修改。
三、违约概率模型的比较研究
(1) 古典违约分析
银行最初的信用违约概率分析更像一个专家系统,这种分析过程多是依赖于训练有素的专家的主观判断的定性分析系统,一个信贷人员在其职业生涯中,积累了这种信用分析经验,进而成为专家。在信用分析模型不甚发达的时代,这些信贷专家的经验判断对银行来说是弥足珍贵的,他们对贷款的审核过程很有借鉴意义。其评估过程大致如下:基于以前客户贷款违约情况资料的分析,将客户的违约情况大致分为几种情况,如很低、低、中、高、很高五个数量级,然后对新贷款客户进行全方位的判断。
尽管这种判断方式无法给出具体的违约概率值,但这种客户违约判断方式在银行发展早期还是相当有效的,也在一定程度上控制了信用风险,特别像财务比率的分析思想,直到现在都是违约概率模型不可或缺的组成成分。然而,古典违约分析过多依赖信贷专家的主观判断,在实际应用中精确度和一致性很难保证。
(2)奥特曼模型
Altman教授创立的Z模型是建立在单指标比率水平及绝对水平基础之上的多变量模型。这些数值经过综合计算产生的衡量标准能有效地区分违约与非违约客户。这种标准之所以有效是因为通过对已有的违约客户和非违约客户的相关数据样本进行统计分析,两组的组内方差较小,组间方差很大,样本显著性非常高,即违约客户所呈现的各种比率和财务趋势与那些财务基础良好的公司截然不同。银行利用这种模型进行判断,当贷款申请者的评分濒于临界点时,要么拒绝其申请,要么对其进行详细审查。通过这种判断方式,就可以很自然的通过对客户相关指标得出恰当的分类,从而对客户违约概率进行大致估判。奥特曼多变量模型是以财务比率为基础的,在该模型基础上后来又产生了很多变形,但基本的Z模型沿用至今,并且已经拓展应用于私人企业、非制造企业以及上市公司等广泛领域。
迄今,奥特曼模型在国外商业银行得到广泛应用。ALTMAN选择的单指标是经过大量样本分析后确定的,具有相当的精准性和稳定性。这些指标包括衡量公司的获利能力、流动能力、偿债能力的各种比率。对于缺乏内部评级系统的金融机构或客户系统性风险无法界定时,可以采用比较简练的奥特曼模型。
(3)决策树模型
决策树模型在判断客户违约概率上也有广泛应用。在决策树模型中,按照申请者特征,由重要到次要,对不同指标连续地分割。这样一个客户的样本空间可被分成若干细小的模块,例如借款人可分成拥有住宅及租赁住宅两大类。拥有住宅者又可以再分成不同的收入水平,每个收入水平上的申请又可继续分成在现有地点居住两年以上者及以下者。这样整个样本空间就被分割成互不交叉的“小组”。该模型总的原则就是将整体按照不同的违约状况不断分割,接着即可根据每个“小组”的违约概率进行信用决策。
决策树模型原理和操作比较简单,系统开发难度较小,主要应用于没有成熟的统计、计量分析能力且有相当丰富的客户样本。此外,决策树模型能比信用计分模型更有效地处理变量之间的相互作用。即使在一些变量缺失的情况下,决策树模型也能产生信用分数。其不足之处在于,对一些最底层的“细胞”,可能只有极少的数据,因而不能满足统计所需的样本规模要求。
(4)宏观迁移模型
该模型由麦肯锡公司提出,属于多因素分析模型。它在宏观经济因素,如失业率、GDP增长率、长期利率水平、汇率、政府支出及总储蓄率等一定的情况下,模拟了违约概率的联合分布。该模型将违约概率、转移概率和宏观经济状况紧密结合起来,当经济恶化时,违约和降级就会增加;经济强劲时,情况相反。麦肯锡提出信贷组合理论,直接将信用等级转移概率与宏观因素的内在关系模型化,并通过制造宏观“冲击”来模拟转移概率矩阵的跨时演变。
转移矩阵中每个单元显示的是一个特定交易对手在期初被评为一定信用级别而在期末移往其他级别的概率。宏观因素用变量y来表示,则转移概率:
P=f(Y)        
上式中,P 反映客户在T期由等级C转移到等级D的概率,宏观指标Y可看作时间t的i种宏观变量集合(X)及非系统冲击或经济体系创新(V)所共同形成的函数。
Y=g(X,V)
如GDP增长率、失业率以及其他宏观变量可视为由历史状况决定(如滞后的GDP增长率),而且对其自身所受冲击()敏感,则有:
X=H(X, X,……, )      
可将不同模型的具体形式用于上述表达式,以改善模型的拟合度。然后,就可以确定评级为C级贷款在下一年内移到D级的概率。
   P=f(X;V, )
有了各信用级别转移概率就可以进一步求得相应的未来年度的违约概率。
(6)违约过滤器
近年来,IQ Financial公司成功开发了以神经网络分析技术为核心的违约概率模型,称之为违约概率器,该模型与非线性派别分析十分相似,它扬弃了违约函数变量是线性且相互独立的假设,能够深入挖掘预测变量之间的“隐藏”的相关关系。违约概率器设置了系统自学习功能,学习方式包括有导师型和无导师型,学习方式之一是多层感知器:输入层、隐蔽层和输出层。如果神经网络难以达到目标准确率,则灵活增减隐蔽层数目,通过有计划地增减隐蔽层,可解决神经网络技术存在的许多疑难问题。
总之,当前违约概率模型发展的特点是:运用现代金融理论和分析技术,从定性分析转向定量分析;从计分卡向模型化形式转变,并寻求二者的有机结合;从单项贷款分析转化组合分析,从盯住帐面价值转向盯住市场价值;描述风险的变量从离散型转向连续型;尝试考虑宏观周期对信用风险的影响;广泛汲取相关领域的最新研究成果,如保险精算理论、神经网络等,并运用计算机大容量处理技术。
不过,现代违约概率模型仍存在一些问题:首先,各类模型均存在不同程度的技术局限,运行效果尚不够稳定;其次,模型风险作为银行操作风险的一个重要方面不容忽视,数据可能过时、偏差和错误,实际业务也可能与模型的前提假设相互脱离,这些都可能造成模型风险;第三,模型参数估计复杂和繁重,系统维护运行的成本较高;第四,模型所需数据输入量大,这在实际业务操作中往往难以满足,因而形成空白或残缺,影响计算精度。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2011-1-17 09:46:36
浅议商业银行违约概率的测算方法
国际银行业监管的统一标准——《巴塞尔新资本协议》在2004年6月正式定稿。与1998年的协议相比,新协议的最大创新之处是提出IRB法,即允许银行采用内部数据估计风险计量参数,包括违约概率PD,违约损失率LGD违约风险暴露EAD和有效期限M等。其中,无论是初级法还是高级法都要求银行自行估计客户的违约概率PD。因此,违约概率是银行信用风险计量的基础,准确测算违约概率对银行防范和控制信用风险十分重要。但是由于我国商业银行的风险管理水平普遍落后于国外先进银行,尤其表现在风险量化方面,因此把《新资本协议》实施作为银行监管和提升风险管理水平的手段对我国商业银行来说既是挑战也是机遇。下面本文将在可供商业银行选择的概率计算方法中结合我国商业银行的实际,对违约概率测算中相关问题进行研究。
一、数据采集
对一个客户信用状况的分析包括两方面:一是定量分析,主要是财务数据的分析;二是定性分析,包括管理水平、市场竞争力和领导者素质等。因此我们测算客户违约概率时采集的数据也必须包括定性数据和定量数据两部分。建模数据的质量很关键,其好坏直接关系到模型结果正确与否。建模所需要的数据有两类,一类是违约客户(坏客户),另一类是非违约客户(好客户)。根据经验,建立相关的企业客户违约概率模型至少需要1000个以上客户样本,所建立的违约概率模型才可能具有较好的稳定性。样本越多,其结果的精确性也越高。由于国内大部分银行一般从2000年以后才开始注意收集并保存完整的客户数据,所以违约客户的数量相对较少。基于以上两个原因考虑,多数情况下建立模型时一般建议采集所有违约客户的数据。
巴塞尔新资本协议只给出了一个普遍的违约定义,因此在收集数据之前首要任务是明确银行自己的违约定义。根据我国商业银行的实际情况和参考新协议,本文建议违约定义考虑以下两点:一是贷款的本金和利息逾期20天以上;二是贷款五级分类的后两类。对第二点需要说明的是贷款五级分类把后三类统称为不良贷款,对可疑和损失类贷款通常都给银行造成损失,而次级类贷款有时没有鲜明的违约特征,可能是人为错误判断而导致错误分类。为提高模型结果的准确性,所选用的样本应是确定的违约/非违约样本,所以本文只把五级分类的后两类作为违约样本之一。
非违约客户数量与违约客户的数量比例至少要达到1:1以上。考虑到非违约客户的数量较多,收集数据有缺失的可能,因此本文建议非违约客户采集的数量最好达到违约客户数量的1.2倍以上。由于对公客户评级通常可分为制造业、批发零售业、房地产业和建筑业等,因此对非违约客户数量的抽样本文建议根据这种分类方式采用分层抽样的方法,这样可以增加抽样样本的代表性和模型的准确性。
二、违约概率的估计方法
巴塞尔新资本协议指出:对客户违约概率的估计需反应长期的平均水平。从这个角度上来看,对建模样本数据的时间长度也提出了要求:数据源的历史观察期一般为五年以上。在估计违约概率的技术上,新资本协议要求必须使用相关信息和适当地考虑长期经验的技术,并给出三种具体的技术:内部违约经验、映射外部数据和统计违约模型,并对这三种方法给出了一些指导性意见。
内部违约经验方法主要依靠银行内部一些专家的经验判断。这种方法在目前中国商业银行缺乏有效客户数据的情况下可操作性强,但准确与否取决于这些专家的经验和水平,具有较大的主观性。映射外部数据方法要求映射评级必须建立在内部评级标准与外部机构评级标准可相互比较,并且对同样的借款人内部评级和外部评级可相互比较的基础上。使用这种方法银行必须避免映射方法或基础数据上的偏差与不一致,以量化风险的数据为基础的外部评级其标准必须是针对借款人的风险(即客户评级),而不是反映交易特征(债项评级)。同时还需要注意的是银行必须分析内部和外部评级使用的违约定义是否一致。在满足这些要求的情况下该方法的准确性相对较高。
统计违约模型由于是以银行内部的数据为基础建立起来的,所以模型结果能反映出银行违约概率大小的真实情况,准确性更高,但统计模型要求银行有一定的数据积累,并且由于宏观经济环境的变化,银行的客户池是一个动态池,这个动态表现在两个方面:一方面每年都有新的客户进入和原有的客户退出客户池,另一方面原有客户可能在违约和非违约之间转换。这要求银行必须周期性校验统计违约模型,确保模型结果的正确性。
由于我国商业银行缺乏有效的建立模型的客户数据,本文将从基于历史数据构建虚因变量模型出发,讨论信贷违约概率的估计问题。
基于历史数据构建虚因变量模型
所谓虚因变量模型,即因变量是虚拟变量,只限定于取0和1两个值这样的回归模型。在商业银行的信贷业务中,一项贷款的违约概率受众多因素的影响,比如对公司法人的借款来说,评定其信用等级的的指标有盈利能力、成长性、行业前景、竞争性优势、管理和股东控制力,以及一整套财务和非财务比率等等,这些因素或多或少影响企业的违约可能性。通常我们认为,违约的发生是一个随机事件,该事件的发生与这些因素有紧密的关系。我们可设二值随机变量Y,只取0和1两个值,等于1时表示违约,等于0时表示不违约。对一项贷款来说,我们可把前述指标认为是其固有属性,具有相似属性的贷款其违约概率也就大致相当。因此我们可以以Y为因变量,评价标准作为自变量建立虚因变量回归模型。由于非线性模型的计算费用相当大,本文暂且讨论线性模型,实际上线性模型的效果往往还比较好。首先不妨利用线性概率模型(LPM),该模型的基本形式如下:
                                 (1)
其中, 是第 个企业的第 项指标,设共有k项指标; 是模型常数项;  是第 项指标的回归系数;如果违约 =1,如果没违约 =0; 为相互独立且均值为零的随机扰动项。
应用该模型需要历史数据足够的多,即样本量尽量大,一般要几年以上的数据。影响违约率的指标的分析方面,如果这些因素中的某些因素之间存在明显的相关性,可以通过主成分分析构造一系列不相关的新变量,然后用回归方法估计回归系数。要注意的是,不同的银行的不同数据会导致在估计过程中会遇到不同的问题,需要相应的计量经济手段处理,这里就不再详述了。为简化起见,假设最终估计的模型为:
                                     (2)
这时,如果将一贷款企业的各项指标输入到该模型中,相应的预测值就是该企业可能违约的概率了。同时根据回归系数的大小,可以判断哪些因素较强的影响违约的产生。
该模型估计中容易出现一些问题,如随机扰动项的非正态性,这在大样本情况下可以避免,因此我们需要足够多的历史数据。可能还会出现不太理想的 值,即拟合系数的可信度不是太高,实际中大多数情况下可以不予考虑。另外,容易产生异方差性,及预测时预测值有可能落在(0,1)之外。如果笼统的将这样的异常值修正为1或0,显然不太合适。所以有时我们可以考虑利用线性 Logistic 回归模型,该模型的基本形式为:
                      (3)
其中, 为一贷款企业违约的概率, 为第 项指标,ex为自然对数的底,其它同方程(1)。该模型确保 的值落在区间(0,1)之间。将该模型对数化即为如下线性方程:
                              (4)
   对于该方程的估计,首先要将原始数据进行一些处理,可以对历史数据采用合适的距离公式,应用Q型聚类方法将样本分成合适数目的类数(要结合指标的数目考虑,以使后面估计时能顺利利用最小二乘法)。假设分成N类,分类后同一类中的企业其大多数指标值较接近,假设每一类中企业数目为 ,发生违约的企业为 个。其次,以每一类企业中违约频率 作为此类企业违约概率 的估计值,记为 。最后,对每一类中的每一指标的样本数值取其均值 ,则方程式可表述为
         ,       (5)
对此方程式可用最小二乘法进行估计。
另外,该 Logistic 模型有时需要采用最大似然估计对参数进行估计。同样有必要进行聚类分析,仍设每一类数目为 ,违约频数为 ,违约事件的发生服从参数为 和 的二项分布,列出似然函数,再用迭代解法估出参数。由于计算较复杂本文就不再详述了,。
用 Logistic 模型进行预测违约概率时,将贷款企业的各项指标值代入估计方程式中,得出的是对数值,若记为 Z ,即有 ,则该企业的违约概率 。实际上,若由贷款企业的指标数据进行多总体距离判别分析,判别其应属于N类中的哪一类,然后用该类中以往所有企业的违约频率作为其违约概率估计值也是可行的,这应该符合我们通常的做法,这样的话就不需要估计Logistic 模型。但我们注意到这样做忽略了概率分布的连续性,即每类型企业均给定了一个概率值,使得概率分布呈现离散型。而用Logistic 模型由于线性连续性,亦可使得概率分布连续性在一定程度上得到保障。
三、回归变量的选取方法
从以上对违约概率估计方法分析中可以看出,使用统计违约模型的一个关键性因素是回归变量的确定,这直接关系到模型的解释能力(贡献力)。选择回归变量的方法通常采用因子分析的方法,在实际建设模型的过程中,为保证模型的效果最佳,本文建议采用对每个变量采用逐一分析的方法。例如,建模初期首先考虑60个可能对模型有解释力的变量,并分别对这60个变量进行逐一选取,具体过程可采用以下方法:首先,对这60个变量分别建立违约概率回归模型,找出贡献力最大的变量,再对这个变量进行与违约概率的单调性分析,如果不符合单调性,则退而求其次,找出解释能力次大的变量,并做相同的单调性分析,使用该方法找出符合要求的第一个解释变量。接着再找第二个解释变量:并把剩下的解释变量分别与第一个解释变量配对求出两个变量的回归模型,找出贡献力最大的模型,并对另一个变量进行单调性分析,找出满足单调性的并具有最大解释能力的变量。以此类推,找出更多的变量,直到加入新变量后模型的效果没有显著改进为止。经验表明,回归变量达到15个左右效果就基本达到最大。确定解释变量后还须对所有变量进行相关性分析,应将相关性较高的两个变量中解释能力相对较小的变量从模型中删除。这样所得到的模型即为需要的统计违约回归模型。
变量的选择须注意数据的可利用性和解释性的问题。通常为消除不同资产规模对模型变量的影响,回归的变量一般采用比率指标。这时必须注意,如果分子分母都是负值时,有可能产生一个错误的信息。例如,一个公司有很大的负净收入和小的负权益,则“收益/权益”就是一个很大的正值,预测结果有可能是违约概率很小,但实际上这样的公司其违约概率可能很大。为消除这个问题,本文建议尽量把分母为负值的比率指标排除在外,对一些解释能力强但又是负值的指标必须仔细分析,以免出现错误的信息。
四、模型的校验和维护
统计违约模型建立后到投入实际应用之前需要对模型进行校验,这个程序是确保模型结果正确的一个重要环节,因此必须十分重视对模型的校验。模型校验的主要内容有:1.模型整体正确性的测算,必须了解模型预测结果的正确率有多大,这对银行以后制定信用评级政策(包括评级的调整和推翻等)具有重要意义。2.对预测违约起关键作用的因子(对违约概率贡献力最大的因子)的可靠性,这直接关系到模型结果的可靠性。3.关键因子的稳定性。关键因子越稳定,模型的变量和参数也相对较稳定,则模型调整的时间可相对较长,否则,模型的变量和参数可能变动较频繁,这对指导以后的模型维护有重要意义。模型投入使用后,由于银行资产池是一个动态池,这包括银行每年都有新的客户进入和老客户退出这个资产池,同时还包括老客户由于经营状况等因素的变化导致信用质量的改变。因此,银行必须经常对评级模型进行维护,包括对模型因子和参数的合理性检验。巴塞尔新资本协议要求对企业客户的违约概率模型的检验周期至少是一年,而零售评分卡由于其零售业务的特点,要求检验的周期至少是半年。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2011-5-18 09:15:42
KMV模型 moody's的 建立在BSM模型基础上
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2016-10-19 19:07:40
测量个人客户违约风险可以用这个模型吗?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群