1.1 什么是判别分析
判别分析是判别样品所属类型的一种统计方法,其应用之广可与回归分析媲美。 在生产、科研和日常生活中经常需要根据观测到的数据资料,对所研究的对象进行分类。例如在经济学中,根据人均国民收入、人均工农业产值、人均消费水平等多种指标来判定一个国家的经济发展程度所属类型;在市场预测中,根据以往调查所得的种种指标,判别下季度产品是畅销、平常或滞销;在地质勘探中,根据岩石标本的多种特性来判别地层的地质年代,由采样分析出的多种成份来判别此地是有矿或无矿,是铜矿或铁矿等;在油田开发中,根据钻井的电测或化验数据,判别是否遇到油层、水层、干层或油水混合层;在农林害虫预报中,根据以往的虫情、多种气象因子来判别一个月后的虫情是大发生、中发生或正常;在体育运动中,判别某游泳运动员的“苗子”是适合练蛙泳、仰泳、还是自由泳等;在医疗诊断中,根据某人多种体验指标(如体温、血压、白血球等)来判别此人是有病还是无病。总之,在实际问题中需要判别的问题几乎到处可见。
判别分析与聚类分析不同。判别分析是在已知研究对象分成若干类型(或组别)并已取得各种类型的一批已知样品的观测数据,在此基础上根据某些准则建立判别式,然后对未知类型的样品进行判别分类。对于聚类分析来说,一批给定样品要划分的类型事先并不知道,正需要通过聚类分析来给以确定类型的。
正因为如此,判别分析和聚类分析往往联合起来使用,例如判别分析是要求先知道各类总体情况才能判断新样品的归类,当总体分类不清楚时,可先用聚类分析对原来的一批样品进行分类,然后再用判别分析建立判别式以对新样品进行判别。
判别分析内容很丰富,方法很多。判别分析按判别的组数来区分,有两组判别分析和多组判别分析;按区分不同总体的所用的数学模型来分,有线性判别和非线性判别;按判别时所处理的变量方法不同,有逐步判别和序贯判别等。判别分析可以从不同角度提出的问题,因此有不同的判别准则,如马氏距离最小准则、Fisher准则、平均损失最小准则、最小平方准则、最大似然准则、最大概率准则等等,按判别准则的不同又提出多种判别方法。本章仅介绍四种常用的判别方法即距离判别法、Fisher判别法、Bayes判别法和逐步判别法。
1.2 距离判别法
基本思想:首先根据已知分类的数据,分别计算各类的重心即分组(类)的均值,判别准则是对任给的一次观测,若它与第i类的重心距离最近,就认为它来自第i类。
距离判别法,对各类(或总体)的分布,并无特定的要求。
1.2.1 两个总体的距离判别法
设有两个总体(或称两类)G1、G2,从第一个总体中抽取n1个样品,从第二个总体中抽取n2个样品,每个样品测量p个指标如下页表。
66
今任取一个样品,实测指标值为X(x1,,xp),问X应判归为哪一类?
首先计算X到G1、G2总体的距离,分别记为D(X,G1)和D(X,G2),按距离最近准则判别归类,则可写成:
XG1,当D(X,G1)D(X,G2)XG2,当D(X,G1)D(X,G2) 待判, 当D(X,G1)D(X,G2)G1总体:G2总体:
变量 样品 (1) x1(1) x2x1 (2) x11(2) x21x2 (2) x12(2) x22„ „ „ „ xp )x1(2p (2)x2p
变量 样品 x1 (2) x11(2) x21x2 (2) x12(2) x22„ „ „ „ xp )x1(2p (2)x2p x1(2) (2) x2 (2) xn1 (2)xn1 1 (2)xn2 1 (2)xnp 1 (2) xn2 (2)xn1 2 (2)xn2 2 (2)xnp 2均值 (1)x1 (i)(1)x2 (i)x(p1) 均值 (2) x1(2) x2x(p2) 记X(i)(x1,,xp),i1,2
(1)(1)如果距离定义采用欧氏距离,则可计算出
D(X,G1)(XXD(X,G2)(XX)(XX)(XX))xpa1pa1a(1)xa2
2(2)(2)xa(2)xa
然后比较D(X,G1)和D(X,G2)大小,按距离最近准则判别归类。
由于马氏距离在多元统计分析中经常用到,这里针对马氏距离对上述准则做较详细的讨论。
设(1)、(2),(1)、(2)分别为G1、G2的均值向量和协有效期阵。如果距离定义采用马氏距离即
D2(X,Gi)(X(i))((i))1(X(i))这时判别准则可分以下两种情况给出:
(1)当(1)(2)时
考察D2(X,G2)及D2(X,G1)的差,就有:
i1,2
D2(X,G2)D2(X,G1)X1X2X1X(2)(2)1(2)
[X1X2X1(1)(1)1(1)]
2X1((1)(2))((1)(2))1((1)(2))
1(1)(2)2X()1((1)(2)) 2令1(1)((2)) 2W(X)(X)1((1)(2))
67
则判别准则可写成:
XG1,当W(X)0 即D2(X,G2)D2(X,G1)22XG2,当W(X)0 即D(X,G2)D(X,G1) 22待判, 当W(X)0 即D(X,G)D(X,G1)2当
,(1),(2)已知时,令
a1((1)(2))(a1,,ap)则
x11W(X)(X)aa(X)(a1,,ap)
xpp a1(x11)ap(xpp)
显然,W(X)是x1,,xp的线性函数,称W(X)为线性判别函数,a为判别系数。
(i)(i)当,(1),(2)未知时,可通过样本来估计。设X1(i),X2来自Gi的样本,i=1,2。 ,,Xniˆ(1)1n11n2i1n1Xi(1)XXi(2)X(1)
ˆ(2)ˆnii1n2(2)1(S1S2)
n1n22其中Si(Xt1(i)tX(i))(Xt(i)X(i))
X(2)1(1)(XX) 2线性判别函数为:
ˆ1(X(1)X(2)) W(X)(XX)当p=1时,若两个总体的分布分别为N(1,2)和N(2,2),判别函数
21W(X)X(1)2(12),不妨设12,这时W(X)的符号取决于X或
2X。当X时,判XG1;当X时,判XG2。我们看到用距离判别所得
到的准则是颇为合理的。但从下图又可以看出,用这个判别法有时也会得出错判。如X来
自G1,但却落入D2,被判为属G2,错判的概率为图中阴影的面积,记为P(2/1),类似有
2P(1/2),显然P(2/1)=P(1/2)=112
68
。 当两总体靠得很近(即|12|小),则无论用何种办法,错判概率都很大,这时作判别分析是没有意义的。因此只有当两个总体的均值有显著差异时,作判别分析才有意义。
(2)当(1)(2)时
按距离最近准则,类似地有:
当D(X,G1)D(X,G2)XG1,当D(X,G1)D(X,G2) XG2,待判, 当D(X,G1)D(X,G2)仍然用W(X)D2(X,G2)D2(X,G1)
(X(2))((2))1(X(2))
(X(1))((1))1(X(1))
作为判别函数,它是X的二次函数。
1.2.2 多个总体的距离判别法
类似两个总体的讨论推广到多个总体。
设有k个总体G1, „, Gk,它们的均值和协差阵分别为(i),(i),i1,,k,从每个总体Gi中抽取ni个样品,i =1,„,k,每个样品测p个指标。今任取一个样品,实测指标值为
X(x1,,xp),问X应判归为哪一类?
G1总体:„Gk总体:
变量 样品 (1) x1(1) x2x1 (1) x11(1) x21x2 (1) x12(1) x22„ „ „ „ (i)(i)xp )x1(1p (1)x2p
变量 样品 (k) x1(k) x2x1 (k) x11(k) x21x2 (k) x12(k) x22„ „ „ „ xp (k)x1p (k)x2p (2) xn1 (1)xn1 1 (1)xn2 1 (1)xnp 1 (k) xn2 (k)xn1 2 (k)xn2 2 (k)xnp 2均值 x1 (1)x2 (i)(1)xp(1) 均值 x1 (k)x2 (k)xp(k) 记向量X(i)(x1,x2,,xp) i1,,k (1)当(1)(k)时
此时D2(X,Gi)(X(i))1(X(i)) i1,,k判别函数为:
1Wij(X)[D2(X,Gj)D2(X,Gi)]
21(i)X(j)1((i)(j)) i,j1,,k
2相应的判别准则为:
当Wij(X)0,对一切jiXGi, 若有某一个Wij(X)0待判, 当(1),,(1),未知时可用其估计量代替,设从Gi中抽取的样本为
69
(i)ˆ的估计分别为 ˆ(i),X1(i),,Xn,i1,,k,则iˆ(i)X(i)1niki1Xa1ini(i)ai1,,k
ˆni1nkS
其中nn1ni,Si(Xa1(i)a(i)X(i))(XaX(i))为Gi的样本离差阵。
(2)当(1),,(k)不相等时
此时判别函数为:
Wji(X)(X(j))[V(j)]1(X(j))
(X(i))[V(i)]1(X(i))
相应的判别准则为:
当Wij(X)0,对一切jiXGi, 待判, 若某一个W(X)0ij当(i),(i)(i1,,k)未知时,可用(i),(i)的估计量代替,即
ˆ(i)X(i) ˆ(i)1Sini1i1,,k
例1 人文发展指数是联合国开发计划署于1990年5月发表的第一份《人类发展报告》中公布的。该报告建议,目前对人文发展的衡量应当以人生的三大要素为重点,衡量人生三大要素的指示指标分别要用出生时的预期寿命、成人识字率和实际人均GDP,将以上三个指示指标的数值合成为一个复合指数,即为人文发展指数。资料来源:UNDP《人类发展报告》1995年。
今从1995年世界各国人文发展指数的排序中,选取高发展水平、中等发展水平的国家各五个作为两组样品,另选四个国家作为待判样品作距离判别分析。
数据选自《世界经济统计研究》1996年第1期
类别 序号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 国家名称 美国 日本 瑞士 阿根廷 阿联酋 保加利亚 古巴 巴拉圭 格鲁吉亚 南非 中国 罗马尼亚 希腊 哥伦比亚 出生时的 予期寿命(岁) x1 76 79.5 78 72.1 73.8 71.2 75.3 70 72.8 62.9 68.5 69.9 77.6 69.3 成人识字率(%) 1992 x2 99 99 99 95.9 77.7 93 94.9 91.2 99 80.6 79.3 96.9 93.8 90.3 调正后人均GDP 1992 x3 5374 5359 5372 5242 5370 4250 3412 3390 2300 3799 1950 2840 5233 5158 第一类 (高发展水平国家) 第二类 (中等发展水平国家) 待判样品 本例中变量个数p=3,两类总体各有5个样品,即n1n25,有4个待判样品,假定
70
两总体协差阵相等。
两组线性判别的计算过程如下:
(1)X75.88
94.085343.4 X(2)70.44
91.743430.2ˆ (2)计算样本协差阵,从而求出S1a1ni(1)(XaX(1)(1))(XaX(1))
448.7436.22856.022 56.022344.228252.24448.74252.2412987.2类似地
S2a1n2(2)(XaX(2)(2))(XaX(2))
117.6824895.7486.812 117.682188.67211316.544895.7411316.542087384.8经计算
173.7044447123.04
SS1S2173.704532.911568.78444711568.782100372ˆ11(S1S2)S
n1n22821.713555.87515.38 21.71366.61251446.0975555.8751446.0975262546.50.1208960.038450.0000442
0.038450.0292780.00007990.00004420.00007990.00000434ˆ(1)(3)求线性判别函数W(X)
ˆa(X解线性方程组(1)X(2))得
ˆ1(X(1)X(2))(0.6523,0.0122,0.00873) a(1)(2)1W(X)a(XX)aX(XX)
2 0.6523x10.0122x20.00873x387.1525
(4)对已知类别的样品判别分类
对已知类别的样品(通常称为训练样品)用线性判别函数进行判别归类,结果如下,全部判对。
71
样品号 1 2 3 4 5 6 7 8 9 10 判别函数W(X)的值 10.5451 12.6972 11.8323 6.811 8.8153 -2.4716 -7.0898 -10.7842 -18.3788 -11.9742 原类号 1 1 1 1 1 2 2 2 2 2 判归类别 1 1 1 1 1 2 2 2 2 2 (5对判别效果作检验
判别分析是假设两组样品取自不同总体,如果两个总体的均值向量在统计上差异不显著,作判别分析意义就不大。所谓判别效果的检验就是检验两个正态总体的均值向量是否相等,根据第三章§3.1可知检验的统计量为:
(nn22)p12F1T~F(p,n1n2p1)
(n1n22)pn1n2(1)(2)(1)(2)n1n21其中T(n1n22)(XX)S(XX)
nnnn21212将上边计算结果代入统计量后可得:
F12.6746F0.05(3.6)4.76
故在a0.05检验水平下,两总体间差异显著,即判别函数有效。 (6)对待判样品判别归类结果如下表:
样品号 11 12 13 14 国家 中国 罗马尼亚 希腊 哥伦比亚 判别函数W(X)的值 -24.47899 -15.58135 10.29443 4.18289 判别类别 2 2 1 1 简短分析:回代率为百分之百,这与统计资料的结果相符,而待判的四个样品的判别结果表明:中国、罗马尼亚为中等发展水平国家即第二类,希腊、哥伦比亚为高发展水平国家即第一类,这是符合当时实际的,即与当时世界各国人文发展指数的水平相吻合。
例2对全国30个省市自治区1994年影响各地区经济增长差异的制度变量:x1—经济增长率(%)、x2—非国有化水平(%)、x3—开放度(%)、x4—市场化程度(%)作判别分析。
72
资料来源:《经济理论与经济管理》1998年第1期
类别 序号 1 2 3 4 第 一 组 5 6 7 8 9 10 11 12 13 14 15 16 第 二 组 17 18 19 20 21 22 23 24 25 26 27 28 待判样品 29 30 地区 辽宁 河北 天津 北京 山东 上海 浙江 福建 广东 广西 海南 黑龙江 吉林 内蒙古 山西 河南 湖北 湖南 江西 甘肃 宁夏 四川 云南 贵州 青海 新疆 西藏 江苏 安徽 陕西 x1 11.2 14.9 14.3 13.5 16.2 14.3 20 21.8 19 16 11.9 8.7 14.3 10.1 9.1 13.8 15.3 11 18 10.4 8.2 11.4 11.6 8.4 8.2 10.9 15.6 16.5 20.6 8.6 x2 57.25 67.19 64.74 55.63 75.51 57.63 83.94 68.03 78.31 57.11 49.97 30.72 37.65 34.63 56.33 65.23 55.62 55.55 62.88 30.01 29.28 62.88 28.57 30.23 15.96 24.75 21.44 80.05 81.24 42.06 x3 13.47 7.89 19.41 20.59 11.06 22.51 15.99 39.42 83.03 12.57 30.7 15.41 12.95 7.68 10.3 4.69 6.06 8.02 6.4 4.61 6.11 5.31 9.08 6.03 8.04 8.34 28.62 8.81 5.37 8.88 x4 73.41 73.09 72.33 77.33 72.08 77.35 89.5 71.9 80.75 60.91 69.2 60.25 66.42 62.96 66.01 64.24 54.74 67.47 58.83 60.26 50.71 61.49 68.47 55.55 40.26 46.01 46.01 73.04 60.43 56.37 (1)两类地区各变量的均值
X(1)(15.73636X(2)65.0281840.1062525.1490973.80455)
9.22812558.105)
ˆ1 ˆ和(2)计算样本协差阵,从而求出(11.56259.85451823.98494ˆ14.278375.46076723.9849414.278375.460767212.05611.66556769.73185 1.665567202.03449.5135669.731859.5135664.11822 73
ˆ10.1686160.023120.012320.0126150.023120.0105320.0020080.00978 0.012320.0020080.0058980.002010.0126150.009780.002010.02546(1)(3)求线性判别函数
ˆa(X解线性方程组经计算
X(1)(2))
(2)ˆ1(X 得aX(1)X)
X(2)(4.173864
24.9219315.9209715.69955)
a(0.1294110.04435417.188610.0609780.176547)(2)1(1)(XX)(13.64943252.5672265.95477)
W(X)a(XX)a(X(2)1(1)(XX)) 2 0.129411x10.044354x20.060978x30.176547x416.79018
(4)对已知类别的样品回判 由于X样品序号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
(1)(2)X,W(X)0为第一组,W(X)0为第二组。
W(X) 0.980157 1.503103 1.885084 1.272898 2.055351 2.645024 6.297084 4.145854 8.461164 -0.66659 1.055243 -2.72514 -0.75378 -2.36346 -0.83216 -0.48375 -2.30953 -0.50215 -0.89663 -3.19343 -5.10507 -1.34627 -1.37998 -4.18744 74
原类号 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 回归组别 1 1 1 1 1 1 1 1 1 2 1 2 2 2 2 2 2 2 2 2 2 2 2 2 样品序号 25 26 27 W(X) -7.42309 -5.65037 -3.9523 原类号 2 2 2 回归组别 2 2 2 上述回判结果表明,第一组中只有第10个样品判组号为2,与原组号不同,其余样品与原分组号相同;第二组中的各样品回判组号都是2,即与原组号完全相同。我们仔细研究第10号样品广西的指标数据,可以看到它有可能是属于原分组时的错分样品。总的回代判对率达96.3%。
(5)对待判样品判别归类,结果如下:
样品序号 28 29 30 W(X) 2.327825 0.475173 -3.31829 判归类别 1 1 2 待判样品中江苏和安徽被判属第一组,陕西被判属第二组,这与实际情况较吻合。
1.3 费歇(Fisher)判别法
Fisher判别法是1936年提出来的,该法对总体的分布并未提出什么特定的要求。
1.3.1 不等协差阵的两总体Fisher判别法
(1)基本思想:从两个总体中抽取具有p个指标的样品观测数据,借助方差分析的思想造一个判别函数或称判别式:yc1x1c2x2cpxp,其中系数c1、c2„、cp确定的原则是使两组间的区别最大,而使每个组内部的离差最小。有了判别式后,对于一个新的样品,将它的p个指标值代入判别式中求出y值,然后与判别临界值(或称分界点后面给出)进行比较,就可以判别它应属于哪一个总体。
(2)判别函数的导出
假设有两个总体G1、G2,从第一个总体中抽取n1个样品,从第二个总体中抽取n2个样品,每个样品观测p个指标,列表如下: G1总体:G2总体:
变量 样品 (1) x1(1) x2x1 (1) x11(1) x21x2 (1) x12(1) x22„ „ „ „ xp (1)x1p
变量 样品 x1 (2) x11(2) x21x2 (2) x12(2) x22„ „ „ „ xp )x1(2p x1(2) (2) x2(1)x2p (2)x2p (2) xn1 (1) xn12(1) (1)xn P1 (2) xn2 (2)xn 12 (2)xn 22 (2)xn P2x1n11 x1 (1)均值 x2 xp(1) 均值 x1 (2)x2 (2)xp(2) 假设新建立的判别式为yc1x1c2x2cpxp,今将属于不同两总体的样品观测值代入判别式中去,则得:
75
1)1)(1)yi(1)c1xi(1c2xi(2cpxip1)1)(2)yi(2)c1xi(1c2xi(2cpxipi1,,n1 i1,,n2
对上边两式分别左右相加,再乘以相应的样品个数,则有:
yy(1)ck1pk1pk(1)„„第一组样品的“重心” xk(2)ck(2)„„第二组样品的“重心” xk为了使判别函数能够很好地区别来自不同总体的样品,自然希望: i)来自不同总体的两个平均值y(1),y(2)相差愈大愈好。 ii)对于来自第一个总体的愈好,同样也要求
n1yi(1)(i1,,n1)要求它们的离差平方和
(yi1(1)iy(1))2愈小
(yi1n2(2)iy(2))2愈小愈好。
综合以上两点,就是要求:
I(y(1)y(2))2(yi1n1(1)iy(1))2(yi1n2
(2)iy(2))2愈大愈好。
记QQ(c1,c2,,cp)(y(1)y(2))2为两组间离差。
n1n2FF(c1,c2,,cp)为两组内的离差。 则
i1(yi(1)y)(1)2i1(yi(2)y(2)2)
IQ F利用微积分求极值的必要条件可求出使I达到最大值的c1,c2,,cp。 为此将上式两边取对数: 令则
lnIlnQlnF0 k1,,p ckckck1Q1F QckFck1QF即 Ickck而Q(y(1)p(1)(2)2y)ckxkk1(2)ckxk
k12p2p(1)(2)ck(xkxk) k1pckdk k12(1)(2)其中dkxk xk 76
pQ2cdlldk ckl1而Fi1n1n1(yi(1)y)(1)2(yi1n2(2)iy(2))2
2n2(1)(2)pp(1)(2)ck(xikxk)ck(xikxk) i1k1i1k12pp(1)(1)(1)(1)c(xx)c(xxkl) klikili1l1k1n2pp(2)(2)(2)(2)c(xx)c(xx) klklikili1l1k1n2ppn1(1)(1)(1)(2)(2)(1)(2)ckcl(xikxk)(xilxl)(xikxk)(xi(l2)xl)
i1k1l1i1n1ppk1l1
其中
ccsklklskli1n1(1)(xik(1)(1)xk)(xil(1)xl)pi1n2(2)(2)(xikxk)(xilxl)
(2)(2)从而 即
F2clskl ckl1pp2cldldk2clskl Il1l1p1cldldkIl1csl1p klkl 1,,p
1p令 cldl
Il1是常数因子,不依赖于k,它对方程组的解只起到共同扩大倍的作用,不影响它的解c1,,cp之间的相对比例关系。对判别结果来说没有影响,所以取=1,于是方程组:
csl1plkldk k1,,p
即
s11c1s12c2s1pcpd1s21c1s22c2s2pcpd2 scscscdp22ppppp11写成矩阵形式为:
s11s21sp1s12s22sp2s1pc1d1s2pc2d2
sppcpdp 77
s1pd1s22s2pd2 所以
sp2sppdp值得说明的是:本书有几处利用极值原理求极值时,只给出必要条件的数学推导,而有关充分条件的论证省略了,因为在通常遇到的实际问题中,根据问题本身的性质就能肯定有最大值(或最小值),如果所求的驻点只有一个,这时就不需要根据极值存在的充分条件判定它是极大还是极小而就能肯定这唯一的驻点就是所求的最大值(或最小值),为了避免用到较多的数学知识或数学上的推导,这里不追求数学上的完整性。
有了判别函数之后,欲建立判别准则还要确定判别临界值(分界点)y0,在两总体先验
s12概率相等的假设下,一般常取y0为y(1)c1s11c2s21 sp1cp1与y(2)的加权平均值即
(2)y0(1)(2)n1y(1)n2yn1n2(2)
如果由原始数据求得y与y满足y>y,则建立判别准则为:对一个新样品
;若X(x1,,xp)代入判别函数中去所得值记为y,若y>y0,则判定XG1(见图一)y 图一图二 求I(1)(2)(1)Q (c1,,cp)F (c1,,cp)的最大值点c1,c2,cp,根据极值原理,需解方程组 lnIc01lnIc0 2 lnIc0p可得到c1,,cp,写出判别函数yc1x1cpxp。 ii)计算判别临界值y0,然后根据判别准则对新样品判别分类。 iii)检验判别效果(当两个总体协差阵相同且总体服从正态分布)。 (1)(2)H0:Exa1Exa2 H1:12 检验统计量: 78 F其中 (n1n22)p12T~F(p,n1n2p1) (在H(n1n22)p0成立)n1n2(1)(2)(1)(2)n1n21T(n1n22)(XX)S(XX) nnnn21212S(sij)pp,sijXa1(i)(i)(i)(x1,,xp) n1(1)(xai(1)(1)xi)(xaj(1)xj)a1n2(2)(2)(xaixi)(xajxj) (2)(2) 给定检验水平a,查F分布表,确定临界值Fa,若FFa,则H0被否定,认为判别有效。否则认为判别无效。 值得指出的是:参与构造判别式的样品个数不宜太少,否则会影响判别式的优良性;其次判别式选用的指标不宜过多,指标过多不仅使用不方便,而且影响预报的稳定性。所以建立判别式之前应仔细挑选出几个对分类特别有关系的指标,要使两类平均值之间的差异尽量大些。 例1 利用距离判别法中例1的人文发展指数的数据作Fisher判别分析。 (1)建立判别函数 利用前例计算的结果,可得Fisher判别函数的系数c1、c2、c3为 c1d1(2)1ˆ1(1)1cSd(XX) 228c3d30.08153751 a0.00152580.00109125所以判别函数为 y0.0815375x10.001525x20.00109125x3 (2)计算判别临界值y0 由于 (1)y(2)k13ckxk12.1615 3(1)y所以y0k1ckxk9.6266 (2)(2)n1y(1)n2yn1n2(1)10.8941 (3)判别准则 yy(2) ∴判别准则为 当yy0时, 判XG1当yy0时, 判XG2 当yy时, 待判0 79 (4)对已知类别的样品判别归类 序号 1 2 3 4 5 6 7 8 9 10 国家 美国 日本 瑞士 阿根廷 阿联酋 保加利亚 古巴 巴拉圭 格鲁吉亚 南非 判别函数y的值 12.2122 12.4812 12.3731 11.7450 11.9960 10.5851 10.0078 9.5460 8.5968 9.3973 原类号 1 1 1 1 1 2 2 2 2 2 判归类别 1 1 1 1 1 2 2 2 2 2 上述回判结果表明:总的回代判对率为100%,这与统计资料的结果相符,而且与前面用距离判别法的结果也一致。 (5)对判别效果作检验 由于 F12.6746F0.05(3,6)4.76 所以在a0.05检验水平下判别有效。 (6)待判样品判别结果如下: 序号 11 12 13 14 国家 中国 罗马尼亚 希腊 哥伦比亚 判别函数y的值 7.8342 8.9464 12.1809 11.4169 判属类别 2 2 1 1 判别结果与实际情况吻合。 例2 用距离判别法中例2的制度变量对30个省市自治区作Fisher判别分析。 (1)建立判别式 经计算得: 246.363599.6235S356.9592136.5192S1599.62355301.40241.639171743.296356.959241.639175050.86237.839136.51921743.296 237.8391602.9550.0067450.000920.000490.0005050.000920.0004218.03E050.00039 0.000498.03E050.0002368E050.0005050.000398E050.001018∴判别式为y0.005176x10.001774x20.002439x30.007062x4 (2)求判别临界值y0,对所给样品判别分类 y (1)0.779369,y(2)0.563846 80 y0(1)n1y(2)(1)n2yn1n2(2)0.651651 由于yy,当样品代入判别工后,若yy0,则判为第一组;若yy0,则判为第二组。回判结果如下: 样品序号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 y值 0.710814 0.731731 0.747011 0.722523 0.753821 0.777408 0.923491 0.837441 1.010054 0.644944 0.713817 0.562602 0.641456 0.577069 0.638321 0.652257 0.579226 0.651521 0.6365742 0.54387 0.467405 0.617757 0.616408 0.50411 0.374684 0.445593 0.513515 等判样品判别结果 样品序号 28 29 30 y值 0.76472 0.690614 0.538875 判属组号 1 1 3 原类号 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 回判组别 1 1 1 1 1 1 1 1 1 2 1 2 2 2 2 1 2 2 2 2 2 2 2 2 2 2 2 上述回判结果表明,第一组的第10号仍被回判为第2组,说明第10号样品确为误分。而第二组的第16号被回判为第一组,仔细研究其指标,发现其数据介于第1组和第2组之间,差别不显著造成的。总的回代判对率为25/27=92.59%。关于待判的三个样品的判别结果与用距离判别法的相同,说明其判别结果是比较好的。 81 1.3.2 多总体Fisher判别法 类似两总体Fisher判别法可给出多总体Fisher判别法。 设有k个总体G1, „, Gk,抽取样品数分别为n1,n2,,nk,令nn1n2nk。 (i)(i)(i)xa(xa1,,xap)为第i个总体的第a个样品的观测向量。 假定所建立的判别函数为 y(x)c1x1cpxpcx 其中c(c1,,cp),x(x1,,xp) 记x和s(i)分别是总体Gi内x的样本均值向量和样本协差阵,根据求随机变量线性组合的均值和方差的性质可知,y(x)在Gi上的样本均值和样本方差为 (i)y(i)cx, i2cs(i)c (i)记x为总的均值向量,则ycx。 在多总体情况下,Fisher准则就是要选取系数向量c,使 i1kni(yk(i)y)2 2iqii1达到最大,其中qi是人为的正的加权系数,它可以取为先验概率。如果取qini1,并将y(i)cx,ycx,i2cs(i)c代入上式可化为: cAc cEc E(i)其中E为组内离差阵,A为总体之间样本协差阵,即 qi1kkis(i) (i)Ai1ni(xx)(x(i)x) 为求的最大值,根据极值存在的必要条件,令 0,利用对向量求导的公式: C2Ac2Ec(cEc)(cAc) 22C(cEc)(cEc)2Ac2EccAc cEccEccEc2Ac2Ec cEccEc2Ac2Ec因此00AcEc CcEccEc这说明及c恰好是A、E矩阵的广义特征根及其对应的特征向量。由于一般都要求加权协差阵E是正定的,因此由代数知识可知,上式非零特征根个数m不超过min(k-1,p),又因为A为非负定的,所以非零特征根必为正根,记为12m0,于是可构造m个判别函数: yl(x)c(l)x l1,,m 82 对于每一个判别函数必须给出一个用以衡量判别能力的指标pi定义为: pili1m l1,,m im0个判别函数y1,,ym0的判别能力定义为: spm0pl1m0lm01i1l1m i如果m0达到某个人定的值(比如85%)则就认为m0个判别函数就够了。 有了判别函数之后,如何对待判的样品进行分类?Fisher判别法本身并未给出最合适的分类法,在实际工作中可以选用下列分类法之一去作分类。 (1)当取m0=1时(即只取一个判别函数),此时有两种可供选用的方法 i)不加权法 若y(x)y(i)miny(x)y1jk(j) 则判xGi. ii)加权法 将y,y令 (1)(2),,y(k)按大小次序排列,记为y(1)y(2)y(k),相应判别函数的标准 差重排为(i)。 di,i1(i1)y(i)(i)y(i1) i1,,k-1 ((i1)(i))则di,i1可作为Gji与Gji1之间分界点。如果x使得di1,iy(x)di,i1,则判xGji。 (2)当取m01时,也有类似两种供选用的方法 i)不加权法 l1,,m0;i1,,k 记ylc(l)x (i)(i)对待判样品x(x1,,xp),计算 yl(x)c(l)x Di21iky(x)y(i) i1,,k lll1m0222若DrminDi,则判xGr。 ii)加权法 考虑到每个判别函数的判别能力不同,记 Di2y(x)y(i) llll1m02其中l是由AcEc求出的特征根。 22若DrminDi,则判xGr。 1ik 83 1.4 贝叶斯(Bayes)判别法 从上节看到Fisher判别法随着总体个数的增加,建立的判别式也增加,因而计算起来还是比较麻烦的。如果对多个总体的判别考虑的不是建立判别式,而是计算新给样品属于各总体的条件概率P(l/x),l1,,k。比较这k个概率的大小,然后将新样品判归为来自概率最大的总体,这种判别法称为Bayes判别法。 1.4.1 基本思想 Bayes判别法的基本思想总是假定对所研究的对象已有一定的认识,常用先验概率来描述这种认识。 设有k个总体G1, G2, „, Gk,它们的先验概率分别为q1,q2,qk(它们可以由经验给出也可以估出)。各总体的密度函数分别为:f1(x),f2(x),,fk(x)(在离散情形是概率函数),在观测到一个样品x的情况下,可用著名的Bayes公式计算它来自第g总体的后验概率(相对于先验概率来说,将它又称为后验概率): qgfg(x)P(g/x)k g1,,k qi1ifi(x)并且当 P(h/x)maxP(g/x) 1gk时,则判X来自第h总体。 有时还可以使用错判损失最小的概念作判决函数。这时把x错判归第h总体的平均损失定义为 qgfg(x)E(h/x)L(h/g) kghqi1ifi(x)其中L(h/g)称为损失函数。它表示本来是第g总体的样品错判为第h总体的损失。显 然上式是对损失函数依概率加权平均或称为错判的平均损失。当h = g时,有L(h/g)0;当hg时,有L(h/g)0。建立判别准则为如果 E(h/x)minE(g/x) 1gk则判定x来自第h总体。 原则上说,考虑损失函数更为合理,但是在实际应用中L(h/g)不容易确定,因此常常在数学模型中就假设各种错判的损失皆相等,即 hg0 L(h/g)1 hg这样一来,寻找h使后验概率最大和使错判的平均损失最小是等价的,即 hhp(h/x)maxE(h/x)min 1.4.2 多元正态总体的Bayes判别法 在实际问题中遇到的许多总体往往服从正态分布,下面给出p元正态总体的Bayes判别 84 法。 (1)判别函数的导出 由前面叙述已知,使用Bayes判别法作判别分析,首先需要知道待判总体的先验概率qg和密度函数fg(x)(如果是离散情形则是概率函数)。对于先验概率,如果没有更好的办法确定,可用样品频率代替,即令qgngn,其中ng为用于建立判别函数的已知分类数据中 来自第g总体样品的数目,且n1n2nkn,或者干脆令先检概率相等,即qg这时可以认为先验概率不起作用。 p元正态分布密度函数为: 1,k1exp(x(g))(g)1(x(g)) 2式中(g)和(g)分别是第g总体的均值向量(p维)和协差阵(p阶)。把fg(x)代入 fg(x)(2)p2(g)12P(g/x)的表达式中,因为我们只关心寻找使P(g/x)最大的g,而分式中的分母不论g为何值都是常数,故可改令 gqgfg(x)max 取对数并去掉与g无关的项,记为 11Z(g/x)lnqglnE(g)(x(g))(g)1(x(g)) 22111 lnqglnE(g)x(g)1x(g)(g)1(g)x(g)1(g) 222则问题化为 gZ(g/x)max (2)假设协方差阵相等 Z(g/x)中含有k个总体的协方差阵(逆阵及行列式值),而且对于x还是二次函数,实际计算时工作量很大。如果进一步假定k个总体协方差阵相同,即 11(1)(2)(K),这时Z(g/x)中ln(g)和x(g)1x两项与g无关,求最 22大时可以去掉,最终得到如下形式的判别函数与判别准则(如果协方差阵不等,则有非线性判别函数); 1(g)1(g)y(g/x)lnqx1(g)g2 gy(g/x)max上式判别函数也可以写成多项式形式: py(g/x)lnqg此处 (g)C0Ci1(g)xii Ci(g)vj1pij(jg) i1,,p 1(g)C0(g)1(g) 21ppij(g)(g)vij 2i1j1 85 1p(g)(g)Cii 2i1x(x1,x2,,xp) (g)(g)g) (g)(1,2,,(p) (vij)pp, 1(vij)pp (3)计算后验概率 作计算分类时,主要根据判别式y(g/x)的大小,而它不是后验概率P(g/x),但是有了y(g/x)之后,就可以根据下式算出P(g/x): P(g/x)expy(g/x)expy(i/x)i1k 因为 y(g/x)ln(qgfg(x))(x) 其中(x)是ln(qgfg(x))中与g无关的部分。 所以 P(g/x)qgfg(x)qi1kk ifi(x) expy(g/x)(x)expy(i/x)(x)i1expy(g/x)exp(x)expy(i/x)exp{(x)}i1k expy(g/x)expy(i/x)i1k 由上式知使y为最大的h,其P(h/x)必为最大,因此我们只须把样品x代入判别式中:分别计算y(g/x),g1,,k。 若 y(g/x)maxy(g/x) 1gk则把样品x归入第h总体。 例1继续用前面距离判别法例1的人文发展指数的数据作Bayes判别分析。 这里组数k =2,指标数p=3,n1=n2=5 q1q250.5 10lnq1lnq20.693147 x(1)(75.88, 94.08, 5343.4) x(2)(70.44, 91.74, 3430.4) 0.1208960.038450.0000442 10.038450.0292780.00007990.00004420.00007990.00000434代入判别函数: 86 1y(g/x)lnqgg1(g)x1(g) g1,2 2得两组的判别函数分别为: f1323.171945.79239x10.26383x20.03406x3 f2236.020675.14013x10.25162x20.02533x3 将原各组样品进行回判结果如下: 样品序号 1 2 3 4 5 6 7 8 9 10 原类号 1 1 1 1 1 2 2 2 2 2 判别函数f1值 326.2073 345.9698 337.7240 298.3032 307.7082 258.5374 254.2452 221.8201 202.9712 191.8280 判别函数f2值 315.6630 333.2735 325.8926 291.4929 298.8939 261.0097 261.3358 232.6049 221.3502 203.8027 回判类别 1 1 1 1 1 2 2 2 2 2 后验概率 1.0000 1.0000 1.0000 0.9989 0.9999 0.9222 0.9992 1.0000 1.0000 1.0000 回判结果表明,总的回代判对率为100%,这与统计资料的结果相符,并与前面的距离判别法、Fisher判别法的结果也相同。 待判样品判别结果如下: 样品序号 11 12 13 14 国家 中国 罗马尼亚 希腊 哥伦比亚 判别函数f1值 160.9455 202.2739 329.3008 277.7460 判别函数f2值 185.4252 219.5939 319.0073 273.5638 后验概率 1.0000 1.0000 0.99997 0.9850 判属类号 2 2 1 1 待判样品的结果表明,判属类别与前面的判属类别完全相同,即中国、罗马尼亚属于第二类,希腊、哥伦经亚属于第一类。 例2 继续用前面距离判别法例2的制度变量的数据作Bayes判别分析。 由前知: xx(1)(2)(15.73636 65.02818 25.14909 73.80455) (11.5625 40.10625 9.228125 58.105)9.85451823.98494^14.278375.4607670.1686160.02312^10.012320.012615lnq1ln23.9849414.278375.460767212.05611.66556769.73185 1.665567202.03449.5135669.731859.5135664.118220.023120.012320.0126150.0105320.0020080.00978 0.0020080.0058980.002010.009780.002010.02546110.89794 2787 lnq2160.52325 27两组的判别函数分别为: f10.8979453.96461.770953x10.35051x20.06328x31.39083x4 f20.5232536.79981.641542x10.39486x20.12426x31.214283x4 判别原则:若样品的f1f2,则属于第一组;若f1f2,则属于第二组。 回判结果如下: 88 样品序号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 f1 46.1538 49.1303 47.14044 47.45132 46.91096 56.41836 74.60206 57.40508 58.39228 37.37503 42.99943 32.59936 48.82475 37.96652 32.66573 35.76291 28.48817 38.47883 36.40253 36.55619 19.53862 28.47231 50.32191 26.29651 9.551108 19.22999 27.43029 f2 45.92303 48.37659 46.00474 46.92781 45.60499 54.52272 69.05436 54.00861 50.6805 38.79102 42.69357 36.07388 50.32792 41.07936 34.24727 36.99605 31.54708 39.73073 38.04855 40.49901 25.39307 30.56796 52.45129 31.23333 17.72358 25.62974 32.13198 原组号 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 回判组号 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 后验概率 0.646905 0.755545 0.819119 0.71058 0.842992 0.90639 0.997328 0.977493 0.999692 0.739098 0.663861 0.956886 0.755556 0.939241 0.769742 0.702336 0.936089 0.706167 0.78097 0.972565 0.995847 0.848253 0.852542 0.989668 0.99959 0.997588 0.986965 Bayes法的回判结果与距离判别法的结果是一样的,其判对率为96.3%。 待判样品判别结果如下: 样品序号 28 29 30 f1 47.32851 36.85164 23.46429 f2 45.75007 37.12585 27.53197 判属组号 1 2 2 后验概率 0.828983 0.568127 0.983171 在Bayes法下,关于待判的三个样品的判别结果:江苏判属于第一组,安徽和陕西判属于第二组。其中,安徽的判属组别与前两种方法不一样,这与方法本身有差异有关,但也与安徽的数据有关,其数据介于一组和二组之间,差别不显著。 1.5 逐步判别法 前面介绍的判别方法都是用已给的全部变量x1,x2,,xp来建立判别式的,但这些变量在判别式中所起的作用,一般来说是不同的,也就是说各变量在判别式中判别能力不同,有些可能起重要作用,有些可能作用低微,如果将判别能力低微的变量保留在判别式中,不仅会增加计算量,而且会产生干扰影响判别效果,如果将其中重要变量忽略了,这时作出的判别效果也一定不好。如何筛选出具有显著判别能力的变量来建立判别式呢?由于筛选变量的 89 重要性,近三十年来有大量的文章提出很多种方法,这里仅介绍一种常用的逐步判别法。 1.5.1 基本思想 逐步判别法与逐步回归法的基本思想类似,都是采用“有进有出”的算法,即逐步引入变量,每引入一个“最重要”的变量进入判别式,同时也考虑较早引入判别式的某些变量,如果其判别能力随新引入变量而变为不显著了(例如其作用被后引入的某几个变量的组合所代替),应及时从判别式中把它剔除去,直到判别式中没有不重要的变量需要剔除,而剩下来的变量也没有重要的变量可引入判别式时,逐步筛选结束。这个筛选过程实质就是作假设检验,通过检验找出显著性变量,剔除不显著变量。 1.5.2 引入剔除变量所用的检验统计量 设有k个正态总体Np((i),),i1,,k,它们有相同的协方差阵。因此如果它们有产 (1)左别也只能表现在均值向量(i)上,今从k个总体分别抽取n1,,nk个样品,;X1(1),,Xn1(k),令n1nkn0。今作统计假设 ; X1(k), , XnkH0:(1)(2)(k) 如果接受这个假设,说明这k个总体的统计差异不显著,在此基础上建立的判别函数效果肯定不好,除非增加新的变量。如果H0被否定,说明这k个总体可以区分,建立判别函数是有意义的,根据第三章§3.1检验H0的似然比统计量为 EEp~P(nk,k1) AET其中 Ea1i1kkna(Xi(a)X(a)(a))(Xi(a)X(a)) Ana1a(XX)(X(a)X) 由p的定义可知:0p1,而E、T的大小分别反映了同一总体样本间的差异和k个总体所有样本间的差异。因此,p值越小,表明相同总体间的差异越小,相对地,样本间总的差异越大,即各总体间有较大差异,因此对给定的检验水平a,应由p分布确定临界值a,使P{pa}a,当pa时拒绝H0,否则H0相容。这里标下角标(p)是强调有p个变量。 由于Wilks分布的数值表,一般书上没有,所以常用下面的近似公式: Bartlett近似式: 1极限分布n(pk)1ln2(p(k1)) 2在H0成立下Rao近似式 (n(p1)k)(p11)极限分布F(k1,n(p1)k) k1p这里根据Rao近似式给出引入变量和剔除变量的统计量。 为此先复习线性代数的一个定理。 设A(aij)pp且将A剖分为: 90 AA11A21A12 A221AA11A22A21A11A12 1A21 A22A11A12A22这里A11、A22是方阵且非奇异阵,则 另外在筛选变量过程中,要计算许多行列式,在建立判别函数时往往还要算逆矩阵,因 此需要有一套方便的计算方法,这就是消去变换法(见后面附录)。 (1)引入变量的检验统计量 假定计算l步,并且变量x1,x2,xL已选入(L不一定等于l),今考察第l+1步添加一个新变量xr的判别能力,此时将变量分成两组,第一组为前L个已选入的变量,第二组仅有一个变量xr,此时L+1个变量的组内离差阵和总离差阵仍分别为E和T。 e11e12e1Le1reeeeL121222L2rLEE12E11 1E21E22eeeeL2LLLrL1er1er2erLerrE21(e1r,e2r,eLr)' 其中E12LTT111T21T21(t1r,t2r,,tLr) 其中T12(1)由于EE11err Lt11t121T12T22tL1tr1t12t22tr2t1Lt2LtrrtL2tLLt1rt2r tLrtrr其中 (1)111errE22E21E11E12E22E21E11E12errEr1E11E1r (注意:上式行列式里是一个数,所以可去掉行列式符号,又r相当于2。) 同理 (l) TT11trr其中 于是 即 所以 (l)11trrT22T21T11T12TrrTr1T11T1r ET(l)E11err(1)T11trr L1LL1L1(l)err(l)trr(l)(l)trrerr(l)err(l)1Arerr 其中Ar(l) Artrr将上式代入Rao近似式中得到引入变量的检验统计量: 1ArnlkF1r~F(k1,nlk) Ark1若F1rFa(k1,nlk),则x1判别能力显著,我们将判别能力显著的变量中最大的 变量(即使Ar为最小的变量)作为入选变量记为xl1。 值得强调的是:不管引入变量还是剔除变量,都需要对相应的矩阵E和T作一次消去 91 变换,比如说,不妨设第一个引入的变量是x1,这时就要对E和T同时进行消去第一列的变换得到E(1)和T(1),接着考虑引入第二个变量,经过检验认为显著的变量,不妨设是x2,这时就要对E(1)和T(1)同时进行消去第二列的变换得到E和T,对剔除变量也如此。 (2)剔除变量的检验统计量 考察对已入选变量xr的判别能力,可以设想已计算了l步,并引入了包括xr在内的某L个为量(L不一定等于l)。今考察拟在第l+1步剔除变量xr的判别能力,为方便起见,可以假设xr是在第l步引入的,也即前l-1步引进了不包括xr在内的l-1个变量。因此问题转化为考察第l步引入变量xr(在其它l-1个变量已给定时)的判别能力,此时有 (2)(2)Ar(l1)err(l1)trr 对相应的E(l)、T(l),再作一次消去变换有: (l)(l)erjerr ir,jr(l)(l)(l)(l)ir,jreijeirerjerr (l1) eij(l) ir,jr1err (l)(l) ir,jreirerr (l)(l)trjtrr ir,jr(l)(l)(l)(l)ir,jrtijtirtrjtrr (l1) tij (l) ir,jr1trr (l)(l) ir,jrtirtrr 于是 Ar(l)1err1(l)trr(l)trr(l)err 从而得到剔除变量的检验统计量: F2r1Arn(L1)m~F(k1,n(L1)k) Arm1在已入选的所有变量中,找出具有最大Ar(即最小F2r)的一个变量进行检验。若 F2rFa,则认为xr判别能力不显著,可把它从判别式中剔除。 1.5.3 具体计算步骤 (1)准备工作 i)计算各总体中各变量的均值和总均值以及E(eij)pp和T(tij)pp ii)规定引入变量和剔除变量的临界值F进和F出(取临界值F进F出0,以保证逐步筛选变量过程必在有限步后停止)在利用电子计算机计算时,通常临界值的确定不是查分布表,而是根据具体问题,事先给定。由于临界值是随着引入变量或剔除变量的个数而变化的,但是当样本容量n很大时,它们的变化甚微,所以一般取F进F出Fa,如果想少选入几个变量可取F进F出10,8,等等。如果想多选入变量可取F进F出1,0.5,等等,显然如果取F进F出0则全部变量都被引入。 (2)逐步计算 假设已计算l步(包括l=0),在判别式中引入了某L个变量,不妨设x1,x2,,xL,则第l+1步计算内容如下: i)计算全部变量的“判别能力” 92 对未选入变量xi计算Ai对已选入变量xj计算 (l)eii(l)tii(l)tiiAj(l)eii iL1,,P j1,,L ii)在已入选变量中考虑剔除可能存在的最不显著变量,取最大的Aj(即最小的F2j)。假设Armax{Aj},这里jL表示xj属已入选变量。作F检验:剔除变量时统计量为: jLF2r1Arnk(L1) Ark1(l)若F2rF出,则剔除xr,然后对E和T(l)作消去变换。 若F2rF出,则从未入选变量中选出最显著变量,即要找出最小的Ai(即最大的F1i)。假设Armin{Ai},这里iL表示xi属于未入选变量。作F检验:引入变量时统计量为 iLF1r1ArnkL Ark1若F1rF进,则引入xr,然后对E(l)和T(l)作消去变换。 在第l+1步计算结束后,再重复上面的i)、ii)直至不能剔除又不能引入新变量时,逐 步计算结束。 (3)建立判别式,对样品判别分类 经过第二步选出重要变量后,可用各种方法建立判别函数和判别准则,这里使用Bayes判别法建立判别式,假设共计算l+1步,最终选出L个变量,设判别式为: ygl1qg(g)C0Ci1L(g)xi gi1,,k 将每一个样品x(x1,,xp)(x可以是一个新样品,也可以是原来n个样品之一。)分别代入k个判别式yg中去。若y(h/x)maxy(g/x),则x第h总体。 1gk顺便指出两点:(1)在逐步计算中,每步都是先考虑剔除,后考虑引入,但开头几步一 般都是先引入,而后才开始有剔除,实际问题中引入后又剔除的情况不多,而剔除后再重新引入的情况更少见。(2)由算法中可知用逐步判别选出的L个变量,一般不是所有L个变量组合中最优的组合(因为每次引入都是在保留已引入变量基础上引入新变量)。但在L不大时,往往是最优的组合。 例1再次利用人文发展指数的三项指标作逐步判别分析。 (1)计算两类各变量的均值、总均值、组内离差阵、总离差阵如下: 分类均值 总均值 第一类 第二类 x1 75.88 70.44 73.16 x2 94.08 91.74 92.91 x3 5343.4 3430.2 4386.8 组内离差阵为: 173.7044447123.04 WS1S2173.704532.911568.78444711568.782100372总离差阵为: 93 T(Xa1k12na(a)k(a)X)(XkX) 206.0721572.52197.02 206.07547.06185.2421572.52185.24112512077.6(2)逐步计算 设引入变量的临界值为F1,剔除变量的临界值为F2,今取F1 =F2 =2。 第一步:(L = 0) W123.04A1110.6245 t11197.02532.90.9741 547.062100372 (最小) A30.1867 11251207.6本步无剔除,考虑引进x3 1A3nml10.1867102034.8542 FA3m10.186721F1F22,故引进变量x3。 A2对矩阵W、T同时对x3作消去变换得W(1)及T(1)如下: x1 x1 113.6246 149.2101 -0.002117244 155.6579 206.4252 0.0019174 x2 x3 x1 x2 x3 x2 149.2101 469.1795 -0.005507967 206.4252 547.05695 -1.6464E-05 x3 0.002117244 0.005507967 4.76106E-07 -0.0019174 16464E-05 8.88793E-08 W(1) T(1) 第二步:(L=1) 113.62460.72996(最小) 155.6579469.1795A20.8576 547.05695A1本步无剔除(因只引进一个变量x3),考虑引进变量x1, 1A11021F2.5896 A121 FF12故引进变量x1。 对矩阵W(1)、T(1)同时对x1作消去变换得W(1)、T(1)如下: x1 x1 0.00801 -1.31318 1.86337E-05 0.006424345 94 x2 x3 x1 x2 1.31318 273.2392 -0.0027276 1.326146 x3 1.86337E-05 0.0027276 5.15558E-07 -1.23177E-07 W(2) T(2) x2 x3 -1.326146 -1.23177E-05 273.3069 -0.002559 0.002559 1.12497E-07 第三步,(L=2) 0.0064243450.72996(最大) 0.0088011.12497E07A30.2182 5.15558E07273.2392对未入选的变量计算:A20.99975 273.30691A110212.5896 考虑x1的剔除:FA121对已入选的变量计算:A1FF22故x1不能剔除。 1A210220.0015 考虑x2的引进:FA222FF12故x2不能剔除。 至此既无变量剔除,又无变量引入,故逐步计算结束,这时引入的重要变量为x1(出生时预期寿命)与x3(调整后人均GDP)。 (3)计算结果 (a)判别函数为 f1(x)lnq1C01Ca13a1xa 323.171945.79239x10x20.03406x3 f2(x)236.020675.14013x10x20.02533x3 (b)检验判别效果 对参予选判别函数的已知分类的10个样品进行回判结果如下: 序号 1 2 3 4 5 6 7 8 9 10 原分类号 1 1 1 1 1 2 2 2 2 2 判别函数f1的值 300.0881 319.8506 311.6048 273.0019 287.2086 23.0012 229.2077 197.7588 176.8520 170.5633 判别函数f2的值 290.7526 308.3631 300.9822 267.3625 279.3430 237.1831 237.4571 209.6932 196.4398 183.5221 计算分类号 1 1 1 1 1 2 2 2 2 2 后验概率 0.9999 1.0000 1.0000 0.9965 0.9996 0.9601 0.9997 1.0000 1.0000 1.0000 回判结果表明,第一类、第二为的判对率均为100%。 对未知分类的4个待判样品的判别结果如下: 样品序号 11 12 13 国家 中国 罗马尼亚 希腊 f1值 140.0238 176.7088 304.5535 f2值 165.4717 195.2119 295.4053 后验概率 1.0000 1.0000 0.99989 判属类号 2 2 1 95 14 哥伦比亚 253.9222 250.8425 0.9560 1 从待判样品结果表明:判属类别与前面的结果完全一致,即中国、罗马尼亚属于第二类;希腊、哥伦比亚属于第一类。 总之,从逐步判别法所得的结果可看出,尽管这里没有利用变量x2(成人识字率),但所得的判别结果与利用全部变量所得的判别结果完全一致,这充分说明了三个变量在判别式中所起的作用不同。 例2 再次对全国30个省市自治区1994年的影响各地区经济增长差异的4项制度变量作逐步判别分析。 (1)计算两类地区各变量的均值、组内离差阵、总离差阵如下: xx(1)(2)(15.7363665.0281825.1490973.80455) (11.5625246.363599.6235 W356.9592136.5192359.9231277.685 T790.1274563.663140.106259.22812558.105) 599.6235356.9592146.51925301.40241.639171743.296 41.639175050.86237.8391743.296237.8391602.9551277.6859350.0712628.0654293.751790.12742628.0656703.1561867.155563.66314293.751 1867.1553209.612(2)逐步计算 取F1=2.5, F2=2 第一步:(L=0) 计算A10.684488 A20.566991 A30.753505 A40.499423(最小) 本步无剔除,考虑引进x4 F25.057722.5,故引进x4。 第二步:(L=1) 计算A10.449281 A20.471654 A30.4452(最小) 本步无剔除(因只引进一个x4),考虑引进x3 F2.8777042.5,故引进x3。 第三步:(L=2) 对已入选的变量计算 A30.753505(最大) A40.499423 考虑x3的剔除 F2.8777042,故x3不能剔除 对未入选变量计算 A10.424415 A20.420346(最小) 考虑x2的引进 96 F1.4010592.5,故x2不能引进。 至此既无变量剔除又无变量可引入,故逐步计算结束。 (3)计算结果 (a)判别函数为 f10.8979443.87740.070771x31.140569x4 f20.5232526.8520.003024x30.905768x4 (b)检验判别效果 回判结果如下: 样品序号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 原组号 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 回判组号 1 1 1 1 1 1 1 1 1 2 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 后验概率 0.754708 0.661663 0.781206 0.75359 0.656633 0.934712 0.993773 0.926038 0.999479 0.866702 0.786279 0.862318 0.634741 0.848392 0.696018 0.835355 0.977287 0.654767 0.941502 0.928508 0.991029 0.902715 0.582598 0.972714 0.999114 0.99652 0.986391 待判样品的判别结果如下: 样品序号 28 29 30 判属组号 1 2 3 后验概率 0.585795 0.945178 0.972422 计算结果表明影响各地区经济增长差异的制度变量主要是:市场化程度(x4)和开放度(x3),其回判的结果与实际是相符的。 97 1.6 附注 这里不加证明的指出以下几个结论: 1.6.1 判别函数中分界点的选取 分界点的选取对判别效果的影响还是很大的,如果选取不当,很可能使一个好的判别函数变得毫无分类的价值。对分界点的取法可以有各种不同的出发点。 前边曾给出的分界点为: y0n1y(1)n2yn1n2(2) 但也可以人为地从经验或问题的实际背景出发指定y0值,也可以把n1n2个y(x)值从小到大排队,适当地取其中一点作分界点y0;或者可以取一个区间(c1,c2),此处c2c1,然后规定 若y(x)c2, 则判xG1若y(x)c1, 则判xG2 若cy(x)c, 则待定21如果想从数学上来讨论还有平均错判率最小法即使Eq1P(2/1)q2P(1/2)达到最小值的解或最小最大错判率法即使两个错判概率P(2/1)与P(1/2)中最大的一个尽可能地小,它们都是从不同的出发点确定分界点,有兴趣的读者,可查看本书后面列出的参考书。 1.6.2 判别法则的评价 无论用哪一种判别方法,去判断样品的归属问题,均不可能永远作出正确的判断,一般总会发生错判,用错判概率的大小来衡量判别效果是很自然的想法,那么如何来计算错判的概率呢?比如只有两个总体G1,G2,要计算错判概率P(2/1)和P(1/2)就需要知道总体的分布以及判别函数的分布,从数学上是可以对它们进行讨论的,但实用起来总是不太方便。目前已研究出很多种估计错判概率的方法。除本章例子中所用的方法即用建立判别函数的训练样品进行回代,用错判的样品数比上全体样品数作为错判概率的估计。但是经验证明这种方法估计错判概率往往偏低,于是产生一种改进的方法即将已知类别的样品分成两部份,用其中一大部份样品(例如85%)的观测数据去建立判别函数和判别准则,用剩余的一小部份样品(15%)的观测数据进行判断,将错判的比例作为错判概率的估计。它的优点是容易计算,又不要求已知总体的分布及判别函数的分布,缺点是在建立判别函数时,未能充分利用全部样品的信息,且样品量较大。这里再介绍一种常用的方法——刀切法。具体做法是: 从总体G1,G2中分别取出n1,n2个样品,令n1n2n,对n个样品加以编号,从第1号、2号直到n号。 i)在n个样品中,先去掉第1号样品,用余下的n-1个样品建立判别函数和判别准则,然后把第1号样品的观测数据代入,看它被判归为哪个总体,如果判错加以记录。 ii)把第1号样品放回,再去掉第2号样品,用余下的这组n-1个样品去建立判别函数和判别准则,而后将被去掉第2号样品观测数据代入,看其判归为哪个总体,如果错判加以 98 记录„„依此类推,一直做完n步。 iii)分别计算G1中n1个和G2中n2个样品被错判的个数,记为n1M和n2M。从而得出各自错判概率的估计值即 ˆ(2/1)n1M, ˆ(1/2)n2M P Pn1n2有人用蒙特卡罗方法与刀切法进行比较,证明刀切法比前一种方法要好。刀切法的缺点是计 算量比较大,要建立n个判别函数,不过在计算机日益发展的时代,如果有编制的专门程序,计算起来还是方便的且能取得较好效果。 1.6.3 各判别法的比较 至今还难以评价哪一种判别方法最好,此处仅对Bayes判别法与Fisher判别法作比较。 (1)当k个总体的均值向量x,x,,x共线性程度较高时,Fisher判别法可用较少的判别函数进行判别,因而比Bayes判别法简单。另外,Fisher判别法未对总体的分布提出什么特定的要求。 (2)Fisher判别法的不足是它不考虑各总体出现概率的大小,也给不出预报的后验概率及错判率的估计以及错判之后造成的损失。而这些不足恰是Bayes判别法的优点,但值得指出的是,如果给定的先验概率不符合客观实际时,Bayes判别法也可能会导致错误的结论。 (1)(2)(k)1.6.4 各判别法之间的关系 在上述判别法中,只要满足一些必要的条件,它们将是等价的。 (1)在正态等协差阵的条件下,Bayes线性判别函数(在不考虑先验概率q1,,qk的影响)等价于距离判别准则。因此Bayes线性判别法与距离判别法是等价的。 (2)不加权的Fisher判别法等价于距离判别法,因此在等协差阵条件下,Bayes线性判别法、Fisher线性判别法与距离判别法三者是等价的。(理论上可以说明Bayes线性判别函数在总体是非正态时也适用,只不过丧失正态性后,Bayes判别法具有的平均错判率最小的性质就不一定存在了)。 2 选作题参考 6.1 利用Fishes判别法,分析世界资本主义国家经济发展的类型。 6.2 中国房地产经济分区。 6.3 某行政系统工业行业市场竞争力的判别分析。 6.4 对1989年全国农民收入结构作判别分析。 6.5 考察各省市消费类型的变动。 6.6 利用逐步判别法分析各地区农民家庭生活消费结构。 6.7 对不同分组的部份国家的经济发展特征的五项指标作逐步判别。 6.8 29个省市自治区独立核算工业企业主要经济效益的指标作逐步判别。 99 6.9 10个省市国民收入消费额的判别分析。 6.10 为了解全国各地职工生活费用上涨水平,对29个省市自治区九项指标作判别分析。 6.11 对14个国家6项指标作判别分析。 6.12 运用判别分析对各国人口状况进行研究。 6.13 对27个省城镇居民,依据八项指标作判别分析。 6.14 20个省市自治区1991年幼儿园基本情况的有关指标作判别分析。 6.15 判别分析在我国行业经济效益分析中的应用。 6.16 对全国各省市居民收入构成的省际差异,利用五项指标(x1——财产收入,x2——国有收入,x3——集体收入,x4——转移收入,x5——其它收入)作判别分析。 6.17 对我国29个省市自治区1995年物价指数有关数据作判别分析。 100 因篇幅问题不能全部显示,请点此查看更多更全内容