引子: 更为接近真实的结论是什么? 改革开放以来,各地区的医疗机构都有了较快发展,不仅政府建立了一批医疗机构,还建立了不少民营医疗机构。各地医疗机构的发展状况,除了其他因素外主要决定于对医疗服务的需求量,而医疗服务需求与人口数量有关。为了给制定医疗机构的规划提供依据,分析比较医疗机构与人口数量的关系,建立卫生医疗机构数与人口数的回归模型。根据四川省2000年21个地市州医疗机构数与人口数资料对模型估计的结果如下: ˆ563.05485.3735X Yii (291.5778) (0.644284) t =(-1.931062) (8.340265) 22 R0.785456, R0.774146 ,F69.56003 式中Y表示卫生医疗机构数(个),X表示人口数量(万人)。从回归模型估计的结果看,人口数量对应参数的标准误差较小,t统计量远大于临界值,说明人口数量对医疗机构确有显著影响,可决系数和修正的可决系数还可以,F检验结果也明显显著。表明该模型的估计效果还不错,可以认为人口数量每增加1万人,平均说来医疗机构将增加5.3735个。 然而,这里得出的结论可能是不可靠的,平均说来每增加1万人口可能并不需要增加这样多的医疗机构,所得结论并不符合真实情况。那末,有什么充分的理由说明这一回归结果不可靠呢?更为接近真实的结论又是什么呢?
在现实经济活动中,最小二乘法的基本假定并非都能满足,上一章介绍的多重共线性只是其中一个方面,本章将讨论违背基本假定的另一个方面——异方差性。虽然它们都是违背了基本假定,但前者属于解释变量之间存在的问题,后者是随机误差项出现的问题。本章将讨论异方差性的实质、异方差出现的原因、异方差的后果,并介绍检验和修正异方差的若干方法。
第一节 异方差性的概念
1
一、异方差性的实质
第二章提出的基本假定中,要求对所有的i(i=1,2,„,n)都有
Var(ui)2 (5.1) 也就是说ui具有同方差性。这里的方差度量的是随机误差项围绕其均值的分散程度。由于E(ui)0,所以等价地说,方差度量的是被解释变量Y的观测值围绕回归线
22
E(Yi)=12X2ikXki的分散程度,同方差性实际指的是相对于回归线被解释变
量所有观测值的分散程度相同。
设模型为
Yi12X2ikXkiui如果其它假定均不变,但模型中随机误差项ui的方差为
i1,2,,n (5.2)
Var(ui2)i2,则称ui具有异方差性。
(i1,2,3,,n). (5.3)
由于异方差性指的是被解释变量观测值的分散程度是随解释变量的变化而变化的,如图5.1所示,所以进一步可以把异方差看成是由于某个解释变量的变化而引起的,则 Var(ui2)i22f(Xi) (5.4)
图5.1
二、产生异方差的原因
2
由于现实经济活动的错综复杂性,一些经济现象的变动与同方差性的假定经常是相悖的。所以在计量经济分析中,往往会出现某些因素随其观测值的变化而对被解释变量产生不同的影响,导致随机误差项的方差相异。通常产生异方差有以下主要原因:
1、模型中省略了某些重要的解释变量
异方差性表现在随机误差上,但它的产生却与解释变量的变化有紧密的关系。如果计量模型本来应当为Yi12X2i3X3iui,假如被略去了X3i,而采用了
Yi12X2iui* (5.5)
当被略去的X3i与X2i有呈同方向或反方向变化的趋势时,X3i随X2i的有规律变化会体现在(5.5)式的ui*中。如果将某些未在模型中出现的重要影响因素归入随机误差项,而且这些影响因素的变化具有差异性,则会对被解释变量产生不同的影响,从而导致误差项的方差随之变化,即产生异方差性。在第四章已经讨论过,可以通过剔除变量的方法去避免多重共线性的影响,但是如果删除了重要的变量又有可能引起异方差性。这是在建模过程中应当引起注意的问题。
2、模型设定误差
模型的设定主要包括变量的选择和模型数学形式的确定。模型中略去了重要解释变量常常导致异方差,实际就是模型设定问题。除此而外,模型的函数形式不正确,如把变量间本来为非线性的关系设定为线性,也可能导致异方差。
3、测量误差的变化
样本数据的观测误差有可能随研究范围的扩大而增加,或随时间的推移逐步积累,也可能随着观测技术的提高而逐步减小。例如生产函数模型,由于生产要素投入的增加与生产规模相联系,在其他条件不变的情况下,测量误差可能会随生产规模的扩大而增加,随机误差项的方差会随资本和劳动力投入的增加而变化。另一方面当用时间序列数据估计生产函数时,由于抽样技术和数据收集处理方法的改进,观测误差有可能会随着时间的推移而降低。
4、截面数据中总体各单位的差异
通常认为,截面数据较时间序列数据更容易产生异方差。例如,运用截面数据研究消费和收入之间的关系时,如果采取不同家庭收入组的数据,低收入组的家庭用于购买生活必需品的比例相对较大,消费的分散程度不大,组内各家庭消费的差异也较小。高收入组的家庭有更多自由支配的收入,家庭消费有更广泛的选择范围,消费的分散程度较大,组内各家庭
3
消费的差异也较大。这种不同收入组家庭的消费偏离均值程度的差异,最终反映为随机误差项偏离其均值的程度有变化,而出现异方差。异方差性在截面数据中比在时间序列数据中可能更常出现,这是因为同一时点不同对象的差异,一般说来会大于同一对象不同时间的差异。不过,在时间序列数据发生较大变化的情况下,也可能出现比截面数据更严重的异方差。 以上只是对产生异方差的经验总结,在建立计量经济学模型的过程中,具体是什么原因产生异方差,应对变量的经济意义和数据所表现出的特征进行认真地分析。
第二节 异方差性的后果
在计量经济分析中,如果模型里存在异方差,则对模型会产生以下后果。 一、对参数估计式统计特性的影响 1、参数的OLS估计仍然具有无偏性
由第二章参数估计的统计特性可知,参数OLS估计的无偏性仅依赖于基本假定中随机误差项的零均值假定(即E(ui)0),以及解释变量的非随机性,异方差的存在并不影响参数估计式的无偏性。
2、参数OLS估计式的方差不再是最小的
在模型参数的所有线性估计式中,OLS估计方差最小的重要前提条件之一是随机误差项为同方差,如果随机误差项是异方差的,将不能再保证最小二乘估计的方差最小。事实上可以证明,能够找到比OLS估计的方差更小的估计方法,本章第四节将会介绍这类估计方法。也就是说,在异方差存在时,虽然OLS估计仍保持线性无偏性和一致性,但已失去了有效性,即参数的OLS估计量不再具有最小方差。(证明见本章附录5.1)。
二、对参数显著性检验的影响
在ui存在异方差时,OLS估计式不再具有最小方差,如果仍然用不存在异方差性时的
ˆ)2OLS方式估计其方差,例如在一元回归时仍用Var(2x2i去估计参数估计式的方
ˆ),这将导致夸大用于参数显著性差,将会低估存在异方差时的真实方差,从而低估SE(2检验的t统计量。如果仍用夸大的t统计量进行参数的显著性检验,可能造成本应接受的原假设被错误的拒绝,从而夸大所估计参数的统计显著性。
三、对预测的影响
4
尽管参数的OLS估计量仍然无偏,并且基于此的预测也是无偏的,但是由于参数估计量不是有效的,从而对Y的预测也将不是有效的。在ui存在异方差时,i2与Xi的变化有
ˆ)不能唯一确定,Y预测区间的建立将发生困难。而且关,参数OLS估计的方差Var(kˆ)会增大,Y预测值的精确度也将会下降。 Var(k异方差性的存在,会对回归模型的正确建立和统计推断带来严重后果,因此在计量经济分析中,有必要检验模型是否存在异方差。
第三节 异方差性的检验
要检验模型中是否有异方差,需要了解随机误差项ui的概率分布。由于随机误差很难直接观测,只能对随机误差的分布特征进行某种推测,因此对异方差性的检验还没有完全可靠的准则,只能针对产生异方差不同原因的假设,提出一些检验异方差的经验办法。本节只介绍一些最常用的方法。
一、图示检验法 1、相关图形分析
方差描述的是随机变量相对其均值的离散程度,而被解释变量Y与随机误差项u有相同的方差,所以分析Y与X的相关图形,可以初略地看到Y的离散程度及与X之间是否有相关关系。如果随着X的增加,Y的离散程度有逐渐增大(或减小)的变化趋势,则认为存在递增型(或递减型)的异方差。通常在建立回归模型时,为了判断模型的函数形式,需要观测Y与X的相关图形,同时也可利用相关图形大致判断模型是否存在异方差性。例如,用1998年四川省各地市州农村居民家庭消费支出与家庭纯收入的数据(表5.2),绘制出消费支出对纯收入的散点图(图5.2),其中用y1表示农村家庭消费支出,x1表示家庭纯收入。
5
图5.2
2、残差图形分析
虽然随机误差项无法观测,但样本回归的残差一定程度上反映了随机误差的某些分布特征,可通过残差的图形对异方差性作观察。例如,一元线性回归模型Yi12Xiui,在OLS估计基础上得到残差的平方ei2,然后绘制出ei2对Xi的散点图,如果ei2不随Xi而变化,如图5.3a所示,则表明ui不存在异方差;如果ei2随Xi而变化,如图5.3b、c、d所示,则表明ui存在异方差。
0 ei2 ei2 a
Xi
0 b
Xi
ei2
ei2
0 c
Xi
0
d
Xi
6
图5.3
图形法的特点是简单易操作,不足是对异方差性的判断比较粗糙,由于引起异方差性的原因错综复杂,仅靠图形法有时很难准确对是否存在异方差下结论,还需要采用其他统计检验方法。
二、戈德菲尔德-夸特(Goldfeld-Quanadt)检验
该检验方法是戈德菲尔德和夸特于1965年提出的,可用于检验递增性或递减性异方差。此检验的基本思想是将样本分为两部分,然后分别对两个样本进行回归,并计算比较两个回归的剩余平方和是否有明显差异,以此判断是否存在异方差。
1、检验的前提条件
(1)此检验只适用于大样本。
(2)除了同方差假定不成立外,其它假定均满足。 2、检验的具体做法
(1)将观测值按解释变量Xi的大小顺序排序。
(2)将排列在中间的C个(约1/4)的观察值删除掉,再将剩余的观测值分为两个部分,每部分观察值的个数为(n-c)/2。
(3)提出假设。即H0:两部分数据的方差相等;H1: 两部分数据的方差不相等。 (4)构造F统计量。分别对上述两个部分的观察值作回归,由此得到的两个部分的残差平方和,以
e21i表示前一部分样本回归产生的残差平方和,以
e22i表示后一部分样本
回归产生的残差平方和,它们的自由度均为[(n-c)/2]-k,k为参数的个数。在原假设成立的条件下,因
e和e21i22i分别服从自由度均为[(n-c)/2]-k的2分布,可导出
⒈
nck]*2 Fnc2e1i/[2k]e22i/[ee22i21i~F(ncnck,k) (5.7) 22ncnck,k)。22(5)判断。给定显著性水平,查F分布表,得临界值F()F()(**计算统计量F,如果F>F(),则拒绝原假设,不拒绝备择假设,即认为模型中的随机误差存在异方差。反之,如果FF(),则不拒绝原假设,认为模型中随机误差项不存在异方差。
* 7
戈德菲尔德-夸特检验的功效,一是与对观测值的正确排序有关;二是与删除数据的个数c的大小有关。经验认为,当n=30时,可以取c=4;当n=60时,可以取c=10为宜。该方法得到的只是异方差是否存在的判断,在多个解释变量的情况下,对判断是哪一个变量引起异方差还存在局限。 三、White检验
White检验的基本思想是,如果存在异方差,其方差t2与解释变量有关系,分析t2是否与解释变量的某些形式有联系可判断异方差性。但是t2一般是未知的,可用OLS估计的残差平方et2作为其估计值。在大样本的情况下,作et2对常数项、解释变量、解释变量的平方及其交叉乘积等所构成辅助回归,利用辅助回归相应的检验统计量,即可判断是否存在异方差性。
例如,二元线性回归模型为
Yt12X2t3X3tut (5.8) 并且,设异方差与X2t,X3t的一般关系为
22 t212X2t3X3t4X2Xt53t6X2tX3tvt (5.9)
其中vt为随机误差项。White检验的基本步骤如下
ˆ,并求残差的平方e2。 1、用OLS法估计(5.12)式,计算残差etYtYtt222、用残差平方et2作为异方差t2的估计,并作et2对X2t,X3t,X2t,X3t,X2tX3t的辅助
回归,即
2ˆ1ˆ2x2tˆ3x3tˆ4x2ˆ2ˆˆt2 et5x3t6x2tx3t (5.10)
ˆt2表示et2的估计。 式中e3、计算统计量nR,其中n为样本容量,R为辅助回归的可决系数。
4、在H0:260,H1:j(j2,3,,6)中至少有一个不为零的原假设下,可证明,nR渐近地服从自由度为5的分布。给定显著性水平,查分布表得临界
22值(5),如果nR>(5),则拒绝原假设,表明模型中随机误差存在异方差。
222222
⒈
可参阅 [美] J.M.伍德里奇著《计量经济学导论》,中国人民大学出版社,2003,第240页。
8
White检验的特点是,不仅能够检验异方差的存在性,同时在多变量的情况下,还能判断出是哪一个变量引起的异方差。此方法不需要异方差的先验信息,但要求观测值为大样本。
四、ARCH检验
通常,人们在做计量经济分析时对截面数据产生异方差给予足够的关注,而放松了对时间序列数据产生异方差的警惕。恩格尔(Engel)于1982年提出了在时间序列背景下也有可能出现异方差性,并从理论上提出了一种观测时间序列方差变动的方法,这就是所谓的ARCH(AutoRegressive Conditional Heteroscedasticity)检验方法。ARCH检验的思想是,在时间序列数据中,可认为存在的异方差性为 ARCH(自回归条件异方差)过程,并通过检验这一过程是否成立去判断时间序列是否存在异方差。
1、ARCH过程 设ARCH过程为
t01t1ptpvt (5.11) 式中p为ARCH过程的阶数,并且00,i0,(i1,2,,p);vt为随机误差。
2、ARCH检验的基本步骤 (1)提出原假设:
222H0:12p0;H1:j(j1,2,,p)中至少有一个不为零。
(2)对原模型作OLS估计,求出残差et,并计算残差平方序列et,et1,,etp,以分别作为对t,t1,,tp的估计。
(3)作辅助回归
222222ˆ0ˆ1et1ˆpetp (5.12) ˆt e222ˆt2表示et2的估计。 式中e(4)计算式(5.12)辅助回归的可决系数R,可以证明在H0成立下,基于大样本,有(np)R渐近服从(p),p为自由度,亦即式(5.11)中变量的滞后期数;给定显著性水平,查分布表得临界值(p),如果(np)R>(p),则拒绝原假设,表明模型中的随机误差项存在异方差。 ⒊
2222222⒊
陆懋祖,高等时间序列经济计量学,上海人民出版社,1999年,第300页。
9
ARCH检验的特点是,要求变量的观测值为大样本,并且是时间序列数据;它只能判断模型中是否存在异方差,而不能诊断出是哪一个变量引起的异方差。
五、Glejser检验
Glejser检验的基本思想是,由OLS法得到残差ei,取ei的绝对值ei,然后将ei对某个解释变量Xi回归,根据回归模型的显著性和拟合优度来判断是否存在异方差。该检验的特点是不仅能对异方差的存在进行判断,而且还能对异方差随某个解释变量变化的函数形式进行诊断。该检验要求变量的观测值为大样本。
Glejser检验的具体步骤:
ˆ。 (1)根据样本数据建立回归模型,并求残差序列eiYiYi(2)用残差绝对值ei对Xi的进行回归,由于ei与X的真实函数形式并不知道,可用各种函数形式去试验,从中选择最佳形式。Glejser曾提出如下一些假设的函数形式:
eiXivi;eiXivi;eiXivi;ei其中v为随机误差项。
11 vi;eivi,
XiXi(3)根据选择的函数形式作ei对Xi的回归,用回归所得到的R、t、F等信息判断,若表明参数显著不为零,即认为存在异方差性。
上述各种检验方法,很难说哪一种方法最为有效。这些检验方法的共同思想是,基于不同的假定,分析随机误差项的方差与解释变量之间的相关性,以判断随机误差项的方差是否随解释变量而变化。其中有的检验方法还能提供随机误差项的方差与解释变量之间关系的某些信息,这些信息对补救异方差性可能是有价值的。
2第四节 异方差性的补救措施
通过检验如果证实存在异方差,则需要采取措施对异方差性进行修正,基本思想是采用适当的估计方法,消除或减小异方差对模型的影响。
一、对模型变换
当可以确定异方差的具体形式时,将模型作适当变换有可能消除或减轻异方差的影响。
10
以一元线性回归模型为例
Yi12Xiui (5.13) 经检验ui存在异方差,并已知var(ui)i22f(Xi),其中为常数,f(Xi)为Xi的某种函数。显然,当f(Xi)是常数时,ui为同方差,当f(Xi)不是常数时,ui为异方差。为变换模型,用
2f(Xi)去除(5.20)式的两端,得 Yif(Xi)1f(Xi)2Xif(Xi)ui (5.14)
f(Xi);vi记 Yi*Yi;Xi*f(Xi)Xi;1*f(Xi)1f(Xi)ui,则有
f(Xi) Yi*1*2Xi*vi (5.15) (5.15)式的随机误差项为vi的方差为 var(vi)var(ui1)var(ui)2 (5.16)
f(Xi)f(Xi)ui已是同方差。
f(Xi)可见,经变换后的(5.15)式的随机误差项vi根据图示法或Glejser检验所得到的相应信息,可以对f(Xi)的函数形式作出各种假定,常见的f(Xi)形式有以下几种:
(1)设f(Xi)Xi,即var(ui)2Xi,这时对式(5.13)两端同除
Xi,得
YiXu12ii (5.17) XiXiXiXi令viui,则var(vi)为同方差。因为 Xiui1)var(ui)2 (5.18)
XiXi22 var(vi)var((2)设f(Xi)Xi2,则var(ui)Xi,同理,得
11
YiXu112ii (5.19) XiXiXiXi令viui,则var(vi)为同方差。因为 Xiui1)2var(ui)2 (5.20) XiXi var(vi)var((3)设f(Xi)(a0a1Xi)2,则var(ui)2(a0a1Xi)2。同理有
YiXiui1 (5.21) 12a0a1Xia0a1Xia0a1Xia0a1Xi令viui,则var(vi)为同方差。因为
a0a1Xiui12 (5.22) )var(u)i2a0a1Xi(a0a1Xi) var(vi)var(二、加权最小二乘法
为了便于说明问题,以一元线性回归模型为例
Yi12Xiui (5.23) 且存在异方差的形式为var(ui)i22f(Xi),其中为常数,f(Xi)为Xi的某种函数。对(5.20)式按照最小二乘法的基本原则,是使残差平方和
2ˆe(Y2ii1ˆX)22i为最小。在同方差性假定下,普通最小二乘法是把每个残差平方ei2(i1,2,,n)都同等看待,都赋予相同的权数1。但是,当存在异方差性时,方差i2越小,其样本值偏离均值的程度越小,其观测值越应受到重视。即方差越小,在确定回归线时的作用应当越大;反之方差
i2越大,其样本值偏离均值的程度越大,其观测值所起的作用应当越小。也就是说,在拟
合存在异方差的模型的回归线时,对不同的i2应该区别对待。从样本的角度,对较小的ei2给予较大的权数,对较大的ei2给予较小的权数,从而使
2e2i更好地反映i2对残差平方和
的影响。通常可将权数取为wi1i(i1,2,,n),由此,当i2越小时,wi越大,当i2越大时,wi就越小。将权数与残差平方相乘以后再求和,得
12
wew(Y2iiii*1*2Xi)2 (5.24)
(5.24)式称为加权的残差平方和。根据最小二乘原理,若使得加权的残差平方和最小,即
*min:wiei2wi(Yi1*2Xi)2 (5.25)
可得
ˆ*Y*ˆ*X*12
ˆ*2其中X*wXwiii,Y*w(XX)(YY) (5.26) w(XX)wY。这样估计的参数和称为加权最小二乘估计。这种w**iii*2iiiii*1*2求解参数估计式的方法为加权最小二乘法(Weighted Least Square,简称WLS)。
容易证明,对原模型变换的方法与加权最小二乘法实际上是等价的。例如以(5.23)式的一元线性模型为例,如果已知存在异方差,且var(ui)i22f(Xi),变换后的模型为
Xif(Xi)1f(Xi)2Xif(Xi)ui (5.27)
f(Xi)由前面的讨论知,(5.27)式的随机误差项ui式的参数,其剩余平方和为
f(Xi)已是同方差的。用OLS法估计(5.27)
Yie(f(X)i2iˆ1f(Xi)ˆ)221ˆˆX)2 (5.28) (Yi12if(Xi)当对(5.23)式采用加权最小二乘法时,其权数为wi1i212f(Xi)(i1,2,,n),其残差平方和为
(e*i2i)21i*(Yi1*2Xi)221*(Yi1*2Xi)2 (5.29) 2f(Xi)将(5.28)式模型变换的残差平方和与(5.29)式加权最小二乘的残差平方和加以对比,可以看出二者的剩余平方和只相差常数因子,能使其中一个最小时必能使另一个最小。对模型变换后用OLS估计其参数,实际与应用加权最小二乘法估计的参数是一致的。这也间接证明了加权最小二乘法可以消除异方差。只是对原模型变换后的模型拟合优度有可能变小,这是由于对样本观测值加权的结果。
13
2
三、模型的对数变换
在经济意义成立的情况下,如果对(5.13)式的模型作对数变换,其变量Yi和Xi分别用lnYi和lnXi代替,即
lnYi12lnXiui (5.30) 对数变换后的模型通常可以降低异方差性的影响。
首先,运用对数变换能使测定变量值的尺度缩小。它可以将两个数值之间原来10倍的差异缩小到只有2倍的差异。例如,100是10的10倍,但在常用对数情况下,lg100=2是lg10=1的两倍;再例如,80是8的10倍,但在自然对数情况下,ln80=4.3820是ln8=2.0794的两倍多。
其次,经过对数变换后的线性模型,其残差e表示相对误差(证明见附录5.2),而相对误差往往比绝对误差有较小的差异。
但是特别要注意的是,对变量取对数虽然能够减少异方差对模型的影响,但应注意取对数后变量的经济意义。如果变量之间在经济意义上并非呈对数线性关系,则不能简单地对变量取对数,这时只能用其它方法对异方差进行修正。
第五节 案例分析
一、问题的提出和模型设定
根据本章引子提出的问题,为了给制定医疗机构的规划提供依据,分析比较医疗机构与人口数量的关系,建立卫生医疗机构数与人口数的回归模型。假定医疗机构数与人口数之间满足线性约束,则理论模型设定为
Yi12Xiui (5.31)
其中Yi表示卫生医疗机构数,Xi表示人口数。由2001年《四川统计年鉴》得到如下数据。
表5.1 四川省2000年各地区医疗机构数与人口数
地区
人口数(万人) 医疗机构数(个)
X
Y
地区
人口数(万人) 医疗机构数(个)
X
Y
成都 自贡
1013.3 315
6304 911
眉山 宜宾
339.9 508.5
827 1530
14
攀枝花 泸州 德阳 绵阳 广元 遂宁 内江 乐山
103 463.7 379.3 518.4 302.6 371 419.9 345.9
934 1297 1085 1616 1021 1375 1212 1132 4064
广安 达州 雅安 巴中 资阳 阿坝 甘孜 凉山
438.6 620.1 149.8 346.7 488.4 82.9 88.9 402.4
1589 2403 866 1223 1361 536 594 1471
南充 709.2
二、参数估计
进入EViews软件包,确定时间范围;编辑输入数据;选择估计方程菜单,估计样本回归函数如下
表5.2
估计结果为
ˆ563.05485.3735XYii
(1.9311)(8.3403) (5.32)
R20.7855,s.e.508.2665,F69.56括号内为t统计量值。 三、检验模型的异方差
本例用的是四川省2000年各地市州的医疗机构数和人口数,由于地区之间存在的不同人口数,因此,对各种医疗机构的设置数量会存在不同的需求,这种差异使得模型很容易产生异方差,从而影响模型的估计和运用。为此,必须对该模型是否存在异方差进行检验。
(一)图形法 1、EViews软件操作。
15
由路径:Quick/Qstimate Equation,进入Equation Specification窗口,键入“y c x”,确认并“ok”,得样本回归估计结果,见表5.2。
(1)生成残差平方序列。在得到表5.2估计结果后,立即用生成命令建立序列ei2,记为e2。生成过程如下,先按路径:Procs/Generate Series,进入Generate Series by Equation对话框,即
图5.4
然后,在Generate Series by Equation对话框中(如图5.4),键入“e2=(resid)^2”,则生成序列ei2。
(2)绘制et2对Xt的散点图。选择变量名X与e2(注意选择变量的顺序,先选的变量将在图形中表示横轴,后选的变量表示纵轴),进入数据列表,再按路径view/graph/scatter,可得散点图,见图5.5。
16
图5.5
2、判断。由图5.5可以看出,残差平方ei2对解释变量X的散点图主要分布在图形中的下三角部分,大致看出残差平方ei2随Xi的变动呈增大的趋势,因此,模型很可能存在异方差。但是否确实存在异方差还应通过更进一步的检验。
(二)Goldfeld-Quanadt检验 1、EViews软件操作。
(1)对变量取值排序(按递增或递减)。在Procs菜单里选Sort Series命令,出现排序对话框,如果以递增型排序,选Ascenging,如果以递减型排序,则应选Descending,键入X,点ok。本例选递增型排序,这时变量Y与X将以X按递增型排序。
(2)构造子样本区间,建立回归模型。在本例中,样本容量n=21,删除中间1/4的观测值,即大约5个观测值,余下部分平分得两个样本区间:1—8和14—21,它们的样本个数均是8个,即n1n28。
在Sample菜单里,将区间定义为1—8,然后用OLS方法求得如下结果
表5.3
17
在Sample菜单里,将区间定义为14—21,再用OLS方法求得如下结果
表5.4
(3)求F统计量值。基于表5.3和表5.4中残差平方和的数据,即Sum squared resid的值。由表5.3计算得到的残差平方和为方和为
2e.9,由表5.4计算得到的残差平1i144958e22i734355.8,根据Goldfeld-Quanadt检验,F统计量为
22i21ie Fe734355.85.066 (5.33)
144958.9(4)判断。在0.05下,式(5.33)中分子、分母的自由度均为6,查F分布表得临界值为F0.05(6,6)4.28,因为F5.066F0.05(6,6)4.28,所以拒绝原假设,表明模型确实存在异方差。
(三)White检验
由表5.2估计结果,按路径view/residual tests/white heteroskedasticity(no cross terms or cross terms),进入White检验。根据White检验中辅助函数的构造,最后一项
18
为变量的交叉乘积项,因为本例为一元函数,故无交叉乘积项,因此应选no cross terms,则辅助函数为
t201xt2xt2vt (5.34) 经估计出现White检验结果,见表5.5。
2从表5.5可以看出,nR18.0694,由White检验知,在0.05下,查2分布表,
2得临界值0(在(5.34)式中只有两项含有解释变量,故自由度为2),比.05(2)5.99152较计算的2统计量与临界值,因为nR18.0694>0所以拒绝原假设,.05(2)5.9915,
2不拒绝备择假设,表明模型存在异方差。
表5.5
四、异方差性的修正 (一)加权最小二乘法(WLS)
在运用WLS法估计过程中,我们分别选用了权数w1t111。权,w2i2,w3iXtXtXt数的生成过程如下,由图5.4,在对话框中的Enter Quation处,按如下格式分别键入:
w11/X;w21/X^2;w31/sqr(X),经估计检验发现用权数w2t的效果最好。下
面仅给出用权数w2t的结果。
19
表5.7
表5.7的估计结果如下
ˆ368.60902.9530XYii
(4.3794)(3.5894) (5.36)
R20.9387,D.W.1.7060,s.e.276.0493,F12.8838括号中数据为t统计量值。
可以看出运用加权小二乘法消除了异方差性后,参数的t检验均显著,可决系数大幅提高,F检验也显著,并说明人口数量每增加1万人,平均说来将增加2.953个卫生医疗机构,而不是引子中得出的增加5.3735个医疗机构。虽然这个模型可能还存在某些其他需要进一步解决的问题,但这一估计结果或许比引子中的结论更为接近真实情况。
第五章小结
1、异方差性是指模型中随机误差项的方差不是常量,而且它的变化与解释变量的变动有关。
2、产生异方差性的主要原因有:模型中略去的变量随解释变量的变化而呈规律性的变化、变量的设定问题、截面数据的使用,利用平均数作为样本数据等。
3、存在异方差性时对模型的OLS估计仍然具有无偏性,但最小方差性不成立,从而导致参数的显著性检验失效和预测的精度降低。
4、检验异方差性的方法有多种,常用的有图形法、Goldfeld-Qunandt检验、White检
20
验、ARCH检验以及Glejser检验,运用这些检验方法时要注意它们的假设条件。
5、修正异方差性的主要方法是加权最小二乘法,也可以用变量变换法和对数变换法。变量变换法与加权最小二乘法实际是等价的。
第五章主要公式表
异方差性 Goldfeld-Qunandt检验 的F统计量 Va(rui)i2 nck]*2Fnc2e1i/[2k]e22i/[ee22i21i White检验中的辅助函数 (原模型只有两个解释变量) ARCH检验中的辅助函数 Glejser检验中常用的辅助函数 ˆ1ˆ2x2ˆxt3ˆ2ˆ2ˆ3x t6x2tˆt2ext34t2x5t322ˆ0ˆ1eˆˆt2eet1pt peXv;eXv;e1ev;eXvX1v;X 一元函数下的加权最小二乘估计 ˆ*Y*ˆ*X*12ˆ*2**w(XX)(YY) iiiw(XiiX*)2一元函数下的对原模型的变换 设Yi12Xiui并且vauri()i22f(Xi) 则Yif(Xi)1f(Xi)2Xif(Xi)ui f(Xi)对数变换的模型
lnYi12lnXiui 思考题与练习题
思考题
5.1简述什么是异方差?为什么异方差的出现总是与模型中某个解释变量的变化有关? 5.2试归纳检验异方差方法的基本思想,并指出这些方法的异同。 5.3什么是加权最小二乘法,它的基本思想是什么?
21
5.4 产生异方差的原因是什么?试举例说明经济现象中的异方差性。
5.5 如果模型中存在异方差性,对模型有什么影响?这时候模型还能进行应用分析吗? 5.6 对数变化的作用是什么?进行对数变化应注意什么?对数变换后模型的经济意义有什么变化?
5.7 怎样确定加权最小二乘法中的权数? 练习题
5.1 设消费函数为
Yi12X2i3X3iui
式中,Yi为消费支出;X2i为个人可支配收入;X3i为个人的流动资产;ui为随机误差
2项,并且E(ui)0,Var(ui)2X2。试回答以下问题: i(其中为常数)
2 (1)选用适当的变换修正异方差,要求写出变换过程;
(2)写出修正异方差后的参数估计量的表达式。
5.2 根据本章第四节的对数变换,我们知道对变量取对数通常能降低异方差性,但须对这种模型的随机误差项的性质给予足够的关注。例如,设模型为Y1X2u,对该模型中的变量取对数后得如下形式
lnYln12lnXlnu
(1)如果lnu要有零期望值,u的分布应该是什么? (2)如果E(u)1,会不会E(lnu)0?为什么? (3)如果E(lnu)不为零,怎样才能使它等于零?
5.3 由表中给出消费Y与收入X的数据,试根据所给数据资料完成以下问题: (1)估计回归模型Y12Xu中的未知参数1和2,并写出样本回归模型的书写格式;
(2)试用Goldfeld-Quandt法和White法检验模型的异方差性; (3)选用合适的方法修正异方差。
22
Y 55 65 70 80 79 84 98 95 90 75 74 110 113 125 108 115 140 120 145 130
X 80 100 85 110 120 115 130 140 125 90 105 160 150 165 145 180 225 200 240 185
Y 152 144 175 180 135 140 178 191 137 189 55 70 75 65 74 80 84 79 90 98
X 220 210 245 260 190 205 265 270 230 250 80 85 90 100 105 110 115 120 125 130
Y 95 108 113 110 125 115 130 135 120 140 140 152 140 137 145 175 189 180 178 191
X 140 145 150 160 165 180 185 190 200 205 210 220 225 230 240 245 250 260 265 270
5.4 由表中给出1985年我国北方几个省市农业总产值,农用化肥量、农用水利、农业劳动力、每日生产性固定生产原值以及农机动力数据,要求:
(1) 试建立我国北方地区农业产出线性模型; (2) 选用适当的方法检验模型中是否存在异方差;
(3) 如果存在异方差,采用适当的方法加以修正。
农业总产值 农业劳动力 灌溉面积 化肥用量 户均固定
地区 北京 天津 河北 山西 内蒙古 辽宁 吉林 黑龙江 山东 河南 陕西 新疆
(亿元) 19.64 14.4 149.9 55.07 60.85 87.48 73.81 104.51 276.55 200.02 68.18 49.12
(万人) (万公顷) (万吨) 90.1 95.2 1639 .0 562.6 462.9 588.9 399.7 425.3 2365.6 2557.5 884.2 256.1
33.84 34.95 357.26 107.9 96.49 72.4 69.63 67.95 456.55 318.99 117.9 260.46
7.5 3.9 92.4 31.4 15.4 61.6 36.9 25.8 152.3 127.9 36.1 15.1
农机动力
资产(元) (万马力) 394.3 567.5 706.89 856.37 1282.81 844.74 2576.81 1237.16 5812.02 754.78 607.41 1143.67
435.3 450.7 2712.6 1118.5 641.7 1129.6 647.6 1305.8 3127.9 2134.5 764 523.3
23
5.5 表中的数据是美国1988研究与开发(R&D)支出费用(Y)与不同部门产品销售量(X)。试根据资料建立一个回归模型,运用Glejser方法和White方法检验异方差,由此决定异方差的表现形式并选用适当方法加以修正。
单位:百万美元 工业群体
销售量X R&D费用Y
利润Z 1.容器与包装 6375.3 62.5 185.1 2.非银行业金融 11626.4 92.9 1569.5 3.服务行业 14655.1 178.3 276.8 4.金属与采矿 21869.2 258.4 2828.1 5.住房与建筑 26408.3 494.7 225.9 6.一般制造业 32405.6 1083 3751.9 7.休闲娱乐 35107.7 1620.6 2884.1 8.纸张与林木产品 40295.4 421.7 4645.7 9.食品 70761.6 509.2 5036.4 10.卫生保健 80552.8 6620.1 13869.9 11.宇航 95294 3918.6 4487.8 12.消费者用品 101314.3 1595.3 10278.9 13.电器与电子产品 116141.3 6107.5 8787.3 14.化工产品 122315.7 4454.1 16438.8 15.五金
141649.9 3163.9 9761.4 16.办公设备与电算机 175025.8 13210.7 19774.5 17.燃料 230614.5 1703.8 22626.6 18.汽车
293543
9528.2
18415.4
5.6 由表中给出的收入和住房支出样本数据,建立住房支出模型。
住房支出 收入 1.8 5 2 5 2 5 2 5 2.1 5 3 10 3.2 10 3.5 10 3.5 10 3.6 10 4.2 15 4.2 15 4.5 15
24
4.8 5 4.8 5 5.7 6 6.2 15 15 20 20 20 20 20 假设模型为Yi12Xiui,其中Y为住房支出,X为收入。试求解下列问题: (1)用OLS求参数的估计值、标准差、拟合优度
(2)用Goldfeld-Quandt方法检验异方差(假设分组时不去掉任何样本值)
(3)如果模型存在异方差,假设异方差的形式是i22Xi2,试用加权最小二乘法重新估计1和2的估计值、标准差、拟合优度。
5.7 表中给出1969年20个国家的股票价格(Y)和消费者价格年百分率变化(X)的一个横截面数据。
国家 1.澳大利亚 2.奥地利 3.比利时 4.加拿大 5.智利 6.丹麦 7.芬兰 8.法国 9.德国 10.印度 11.爱尔兰 12.以色列 13.意大利 14.日本 15.墨西哥 16.荷兰 17.新西兰 18.瑞典 19.英国 20.美国
试根据资料完成以下问题:
(1)将Y对X回归并分析回归中的残差;
股票价格变化率%Y
5 11.1 3.2 7.9 25.5 3.8 11.1 9.9 13.3 1.5 6.4 8.9 8.1 13.5 4.7 7.5 4.7 8 7.5 9
消费者价格变化率%X
4.3 4.6 2.4 2.4 26.4 4.2 5.5 4.7 2.2 4 4 8.4 3.3 4.7 5.2 3.6 3.6 4 3.9 2.1
25
(2)因智利的数据出现了异常,去掉智利数据后,重新作回归并再次分析回归中的残差; (3)如果根据第1条的结果你将得到有异方差性的结论,而根据第2条的结论你又得到相反的结论,对此你能得出什么样的结论?
5.8 表中给出的是1998年我国重要制造业销售收入与销售利润的数据资料 行业名称 食品加工业 食品制造业 饮料制造业 烟草加工业 纺织业 服装制造业 皮革羽绒制品 木材加工业 家具制造业 造纸及纸制品 印刷业 文教体育用品 石油加工业 化学原料制品 销售收入 187.25 111.42 205.42 183.87 316.79 157.70 81.73 35.67 31.06 134.40 90.12 54.40 194.45 502.61 销售利润 3180.44 1119.88 1489.89 1328.59 3862.90 1779.10 1081.77 443.74 226.78 1124.94 499.83 504.44 2363.80 4195.22 行业名称 医药制造业 化学纤维制造 橡胶制品业 塑料制品业 非金属矿制品 黑色金属冶炼 有色金属冶炼 金属制品业 普通机械制造 专用设备制造 交通运输设备 电子机械制造 电子通讯设备 仪器仪表设备 销售收入 238.71 81.57 77.84 144.34 339.26 367.47 144.29 201.42 354.69 238.16 511.94 409.83 508.15 72.46 销售利润 1264.10 779.46 692.08 1345.00 2866.14 3868.28 1535.16 1948.12 2351.68 1714.73 4011.53 3286.15 4499.19 663.68 试完成以下问题:
(1)求销售利润岁销售收入的样本回归函数,并对模型进行经济意义检验和统计检验; (2)分别用图形法、Glejser方法、White方法检验模型是否存在异方差; (3)如果模型存在异方差,选用适当的方法对异方差性进行修正。
5.9 下表所给资料为1978年至2000年四川省农村人均纯收入Xt和人均生活费支出Yt的数据。
四川省农村人均纯收入和人均生活费支出 单位:元/人
时间
农村人均纯收入农村人均生活费
X 支出Y
时间
农村人均纯收入农村人均生活费
X 支出Y
1978
1979 1980 1981
127.1 155.9 187.9 220.98 120.3 142.1 159.5 184.0 1990 1991 1992 1993 557.76 590.21 634.31 698.27 509.16 552.39 569.46 647.43
26
1982 1983 1984 1985 1986 1987 1988 1989 255.96 258.39 286.76 315.07 337.94 369.46 448.85 494.07 208.23 231.12 251.83 276.25 310.92 348.32 426.47 473.59 1994 1995 1996 1997 1998 1999 2000 946.33 1158.29 1459.09 1680.69 1789.17 1843.47 1903.60
904.28 1092.91 1358.03 1440.48 1440.77 1426.06 1485.34
数据来源:《四川统计年鉴》2001年。
(1)求农村人均生活费支出对人均纯收入的样本回归函数,并对模型进行经济意义检验和统计检验;
(2)选用适当的方法检验模型中是否存在异方差;
(3)如果模型存在异方差,选用适当的方法对异方差性进行修正。
5.10 在题5.9中用的是时间序列数据,而且没有剔除物价上涨因素。试分析如果剔除物价上涨因素,即用实际可支配收入和实际消费支出,异方差的问题是否会有所改善?由于缺乏四川省从1978年起的农村居民消费价格定基指数的数据,以1978年—2000年全国商品零售价格定基指数(以1978年为100)代替,数据如下表所示: 年份 商品零售价格指数 1978 1979 1980 1981 1982 1983 1984 1985 100 102 108.1 110.7 112.8 114.5 117.7 128.1 1986 1987 1988 1989 1990 1991 1992 1993 年份 商品零售消费价格指数 135.8 145.7 172.7 203.4 207.7 213.7 225.2 254.9 1994 1995 1996 1997 1998 1999 2000 年份 商品零售消费价格指数 310.2 356.1 377.8 380.8 370.9 359.8 354.4 数据来源:《中国统计年鉴2001》
第五章附录
附录5.1在异方差性条件下参数估计统计性质的证明 1、参数估计的无偏性仍然成立 设模型为 Yi12Xivi,i1,2,,n (1)
27
用离差形式表示 yi2xiui (其中uiviv) (2)
ˆ为 参数2的估计量2xyx(xu)xxuˆxxxxuxˆ)E(xu)E(xu)E(xxiii22i2i2ii22i2i2ii2i22ii2i2ii2i2ii(3) (4)在证明中仅用到了假定E(xiui)0。
2、参数估计的有效性不成立
ˆ的方差为 假设(1)式存在异方差,且var(ui)i22Xi2,则参数2的估计2ˆ*)EˆE(ˆ)EˆVar(22222xiuiE2xi222xiuiE22 2xi2xi2ui22xixjuiujijijE(xi2)2)xE(u2iij2i)2xixjE(uiuj)(x)ij22i
xE(u(x)2iij2i22ix(x)2iij2i22i2xi2Xi2(x)22ixXxx2i2i2i2i (5)
在上述推导中用了假定E(uiuj)0,ij。
下面对(2)式运用加权最小二乘法(WLS)。设权数为wi1,对(2)式变换为 zi
yixu2ii (6) ziziziui为同方ziˆ,根据本章第四节变量变换法的讨论,这时新的随机误差项可求得参数的估计2u2ˆ的方差为 差,即var(i),而 2zi 28
ˆ) var(2wls2xizi2 (7)
ˆ)wls表示加权最小二乘法估计的,用(ˆ)ols表示OLS法估计的。为了便于区别,用(22 22比较(5)式与(7)式,即在异方差下用OLS法得到参数估计的方差与用WLS法得到参数估计的方差相比较为
2222xixi
var(ˆ2)wlsz22iivar(ˆ
2)olszix2i2ixx222 (8)i2zix2222xi2z2ziiixiix2令
xiabi,由初等数学知识有
abzi,zixia2b21,因此(10)式右端有
ix22i21 (9) xix2z2ziii从而,有
var(ˆ2)wlsvar(ˆ2)ols 这就证明了在异方差下,仍然用普通最小二乘法所得到的参数估计值的方差不再最小。
附录5.2 对数变换后残差为相对误差的证明 事实上,设样本回归函数为
Yiˆ1ˆ2Xiei (10) 其中eiYiYˆ为残差,取对数后的样本回归函数为 lnYˆ*1ˆ2lnXe (11)
其中残差为e*lnYlnYˆ,因此 e*lnYlnYˆln(YYˆYYˆYYˆYˆ)ln(Yˆ)ln(1Yˆ) (12)
对(12)式的右端,依据泰勒展式
29
nX2X3X4Xln(1X)X234(1)n1n (13) 将(13)式中的X用
YYˆYˆ替换,则e*可近似地表示为 e*YYˆYˆ (14) 即表明(11)式中的误差项为相对误差。
30
因篇幅问题不能全部显示,请点此查看更多更全内容