全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 SPSS论坛
5256 1
2008-04-24

如何将SPSS判别分析中的非标准判别系数转化为标准判别系数?具体公式是什么?

谢谢了!

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2015-5-26 09:28:17
  第一节  判别分析概述


1.1  判别分析的任务

假设事先存在若干个已知类(group),判别分析是研究将一个新的个体(case),用什么方法将它分到最合适的已知类中去。

1.2  数学描述

设有m个已知类:G1, G2, … ,Gm,类的特征由p个变量X1,X2,…,Xp决定,这p个变量也叫判别指标。今后用一个p维向量 表示;类Gi含ni个个体,其弟k个个体(特征)为:

并且有: 。

现有一个新的个体 ,设计一种归类的方法,将 归入最适合它的已知类中去。



第二节  判别函数



2.1  判别的基本方法是把新个体归入与它性质最相近的类。在表达“性质最相近”时,有时候是的距离远近衡量,有时候用损失的大小表示。不管用什么方法表达,都离不开判别函数。

2.2  判别函数

  1.形式  (线性)判别函数是判别指标(变量)的线性函数

其中,向量: (<p)

  2.本质  判别函数是一组由Rp→Rq的映射,它把一个原本属于高维空间的问题转换成为一个维数较低的空间问题。我们把空间Rp中原始已知类Gi经过fs映射后在空间Rq中的像记为fs(Gi)。

  3.判别函数应具备的基本要求

判别函数是从高维空间Rp到较低维空间Rq的一组线性变换,为了使低维空间内的判别工作变得更容易,很自然地对判别函数提出两个基本要求:

  (1)空间Rp中的原始类:G1,G2,…,Gm在空间Rq中的像集合f(G1),f(G2),…,f(Gm)应该容易区分,即这些像集合之间应有较大的间隔空间;

  (2)每个原始类Gi的像集合f(Gi),其元素在空间的分布上应较为集中,或者说f(Gi)有较大的“密度”。

4.基本要求的数学表达

(1)引入一些符号:

像集合f(Gi)的中心:

像空间Rq中,所有像点的中心:

(2)定义两个平方和:

  组内平方和(Within Groups)

组间平方和(Between Groups)

我们看到:SB可以表示Rq中类间的间隔,SW则是Rq中类的密度大小的一种度量。因此,对判别函数提出的两个基本要求就被表示成为:SB要充分大,SW要尽可能小。

  5)特征值(Eigenvalue)

可见,对于一个判别函数来说:特征值越大,区别已知类的能力就越强。这是比较判别函数好坏的一个重要指标。



第三节  典型判别函数(Cannonical Discriminant)



3.1  判别函数的获得

获得判别函数的过程就是根据样本对判别函数中的系数作出估计的过程。由于采用的估计方法不同,也就派生出不同的判别法:距离判别,Fisher判别,Bayes判别等。

3.2  典型判别

基于典型相关分析原理估计判别参数,并用得到的判别函数进行判别分析,这种做法叫典型判别分析。

普通相关分析是在两个变量X和Y之间进行,典型相关分析则是在两组变量(X1,…,Xp)和(Y1,…,Ym)之间进行,也就是考察两个向量之间的相关关系。现在,向量 代表判别指标,而向量 其中

如果判别函数是:

它的系数csj的估计过程,也是求 和 的典型变量过程。



第四节  判别效果的检验



以下的统计检验,都要求已知类 ,i=1,2,…,m;并且协方差矩阵相等:S1=S2=¼=Sm。

4.1  判别函数有效性检验

实际是已知类G1,G2,…,Gm在所选判别指标与样本数据之下,能否被区别的检验。检验的原假设是:

H0:m1=m2=¼=mp

其中的:mi=E(Xi),i=1,2,…,p. 如果原假设显著,则所采用的判别指标 无法区分已知类G1,G2,…,Gm。这也就等于说:判别函数无效。此项检验所用的统计量是威尔克斯L(Wilks’ lambda),在原假设H0为真时,它服从Wilks分布:L~L(m , n-p , p-1),这个分布也可以用c2分布来近似。在SPSS判别分析输出文件中,这部分检验见Summary of Canonical Discriminant Functions中的Wilks’ lambda表格。

*4.2  协方差矩阵相等的Box检验

(Box’s test of equality of variance matrices)

原假设H0:S1=S2=¼=Sm,其中Si是已知类Gi的协方差。检验统计量为Box’s M,原假设H0为真时,该统计量近似服从F分布。在SPSS输出文件中有相关检验结果。

4.3  判别指标的显著性检验(Test of equality of group means)

  1.这项检验是逐个检查每个判别指标,其类平均值在一定的显著性水平下是否有显著差异,也就是能否用来当作分类特征。原假设

Hi0: ,  i=1,2,…,m

其中, 是变量Xj在已知类Gi上的均值。此假设即:被检验指标的类平均值无显著差异,即该指标不能当作分类特征。检验统计量是Wilks’ lambda,在原假设H0为真时,它服从第一自由度为m-1,第二自由度为n-m-(p-1)的F分布,这里n为样本容量。在SPSS判别分析的输出文件中有这一检验的详细列表。例如:在0.05的显著性水平下,检验结果输出的Sig.值大于0.05,则接受原假设,该指标不能用作分类特征;反之,如Sig.值小于0.05,则否定原假设,该指标可以用作分类特征。

  2.如果检验结果表明有多项判别指标不显著,就要考虑逐步判别。这一过程有如回归分析中的逐步回归。最后得到的判别函数中,不包含不显著变量。



第五节  判别分析举例



例  数据data07,该文件的前15个观察值是15个确诊病例,第16个观察值是待判病例。判别指标为:铜蓝蛋白(X1)、蓝色反应(X2)、尿引哚乙酸(X3)、中性硫化物(X4)。试作判别分析。检验的显著性水平取0.05。

打开Discriminant Analysis对话框。将四个判别变量输入Independents,将变量gp输入Grouping Variable,并定义最小值Minimum=1,最大值Maximum=3。点击 Statistics ,选择其中的Means、UnivariateANOVAs、Box’s和Unstandardize,返回,点击Classify选择Territorial Map,返回,点击Save,选择Predicted group membership和Probabilities of group membership,返回,OK。得输出文件。现将其分类解释。

  1.判别函数概况

这是标准化典型判别函数的系数,写成函数便是:



这是非标准化判别函数的系数,写出来便是:



这是结构矩阵,实际是判别函数与判别变量之间的相关系数矩阵,表中数据为Pearson相关系数。

  2.判别函数的判别能力与显著性检验

这是特征值表。判别函数f1的特征值为3.044,f2的特征值为0.207,函数f1的判别能力大于f2。方差百分比(% of Variance)的算法为:

函数f1能够解释绝大部分方差。典型相关系数(Canonical Correlation)显示第一对典型变量的相关系数是0.868,第二对典型变量的相关系数是0.414。

这是判别函数显著性检验。原假设都是所列判别函数不显著。可见在0.05的显著性水平下,用f1, f2两个函数判别,Sig.= 0.034,判别效果显著;单用f2判别,Sig.=0.577,判别效果不显著。

  3.判别指标的显著性检验

原假设为:

H0:

均值的上标为类指标,下标k为变量指标,k=1,2,3,4分别对应四个指标变量。原假设的含义就是该变量不显著。在0.05的显著性水平下,蓝色反应、尿引哚乙酸显著,铜蓝蛋白、中性硫化物不显著。

  4.不同类的判别函数值特点                                                   

参阅Territorial Map(此图太大,不便复制,参阅系统生成的图形),图中显示:第一类病人(胃癌患者)f1值偏大,第二类病人(萎缩性胃炎患者)f2值偏大,第三类病人(一般胃病患者)f1、f2的值都不大。

  5.类协方差矩阵相等的检验

原假设为H0:S1=S2=S3,即三个类的协方差矩阵相等。现有结果Sig.=0.357,接受原假设。

  6.预测

这是非标准化判别函数的类中心坐标值。各观察值就要按照到哪个中心距离近归类。





附录:关于Wilks’ lambda统计量

记总体Gi的容量为ni的样本为:

并有 。定义以下矩阵:

  1.合并组内离差阵:

  2.组间离差阵:

称行列式之比:

为Wilks’统计量。在4. 1中,当原假设H0:m1=m2=¼=mp为真时,统计量L服从参数为m, n-p, p-1的Wilks’分布。实践中,经常用下述Bartlett统计量近似它:

它近似服从c2(m(p-1))分布。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群