搜索
您的当前位置:首页正文

纹理、估计值、置信区间、p值与置信度

来源:小奈知识网
纹理、估计值、置信区间、p值与置信度

计算机图形学里的纹理既指物体表面凹凸不平的沟纹,也指光滑表面的彩色图案!

纹理的性质:

1、对比度

2、粗糙度

3、方向度

4、线像度

5、规整度

6、粗略度

p值与置信度是相对的

p值代表:虚无假设(Null Hypothesis)成立之下你却拒绝接受虚无假设所发生的机率值,这在统计上就是所谓的型一错误(Type I Error)。所以p值越小,代表犯这种错误的机会就越不可能发生,也就是虚无假设不成立。一般都会定一个所谓的alpha值,代表显著水平值,就数学上的意义代表p值的最大值。所以如果p值小于alpha值的话,就代表虚无假设不成立。

PDF 文件使用 \"pdfFactory Pro\" 试用版本创建 www.fineprint.cn 以前面所提的正态分配(Normal Distribution)检定,虚无假设为\"数据是正态分配\",所以p值很小很小就表示:你犯这种错误几乎是不可能发生,代表\"数据是正态分配\"是不成立的。

而置信度=100(1-alpha)%,代表虚无假设成立之下做对判断的机会。

估计值与置信区间

置信区间的表达式 u=x+-tS/n-1/2

我们在工作过程中常常看到这样描叙:u值的90%的置信区间为[θL, θu]、MTBF的95%的置信下限为6753小时。其中一个常用的概念是:置信区间。这个词包含有什么样的物理意义?我们怎么样去求这一个物理量的置信区间[θ1, θ2]?这是本文要阐述的主要内容。

在理解这个概念之前,需要掌握一定的概率与统计知识。

一、概率的基本知识

PDF 文件使用 \"pdfFactory Pro\" 试用版本创建 www.fineprint.cn 概率的定义以及概率的基本性质这里不作说明,只用一例题对概率的知识作一个回顾。

例:从6双不同颜色的鞋中任意取4只,取到只有一双成对的鞋的概率是多少?

第一种根据古典定义计算。 P(A)=k/n=(A中所含样本点的个数)/(全体样本点的总数)

按照定义,最主要是要找出样本点的数量,通常要用到排列与组合的公式。这里对“分步完成”、“分类完成”、“排列”及“组合”的定义,不作说明;要强调一点:公式中k与n的计算方式要一致(如果n这个总数是用排列计算出来的,那么k就要用排列的个数)。

解1:

n的求法;从12只鞋中任意取4只组合:共有12*11*10*9/4*3*2种取法;

k的求法;从12只中取一双和另外2只组合:第一步取1双的取法有6种,第二步在剩下的10只中取两只不同颜色的鞋组合共有10*8/2种;所以k为6*10*8/2

求P(A);运用公式直接求得P(A)= (6*10*8/2)/(12*11*10*9/4*3*2)=16/33

PDF 文件使用 \"pdfFactory Pro\" 试用版本创建 www.fineprint.cn 第二种根据统计定义计算。 P(A)=k/n=(事件A发生的次数)/(重复试验次数)

当重复次数不断增加时,P(A)趋于稳定,这个稳定值就是事件A的概率。

解2:

从6双不同颜色的鞋里任意取出4只,4只鞋中“恰好只有2只配成一双”的概率=(1-四只鞋都不成对的概率-有两对鞋的概率)

全不成对的概率: 第一只鞋: P1=1 第二只鞋: P2=10/11 <不与前面所选鞋成对> 第三只鞋: P3=8/10 <不与前面所选鞋成对> 第四只鞋: P4=6/9 <不与前面所选鞋成对> P不成对=P1*P2*P3*P4=16/33

两对鞋的概率: 六对鞋任取两对的取法/12只鞋取4只鞋的取法: C6(2)/C12(4)=1/33

P=1-P不成对-P2对=1-16/33-1/33=16/33;

二、分布

对不同的事件A有不同的概率P(A),全体事件Ω发生的概率P(Ω)=1;也就是说:在不同的事件A上分布着不同的概率,所有事件中每个事件对应的P(A)之和为1。如果把“不同的事件A”抽象成“一个变量”,那么针对每一个变量A就有一个概率P(A)与之对应,分布就是描述P(A)与A之间的一

PDF 文件使用 \"pdfFactory Pro\" 试用版本创建 www.fineprint.cn种对应关系(从函数的定义上讲,对应关系就是函数表达式,不同的分布有不同的表达式)。若以变量A为x轴、以P(A)为y轴,那么就可以得到相应的图像,不同的分布对应不同的图像,有离散的、有连续的。每个一个具体的x值都有一个相应的y值,图像与x轴围成的面积为1。

常见的分布有几种:二项分布、泊松分布、正态分布、指数分布、对数正态分布等等(这里不列出各种分布的表达) ;对一种分布而言,有三个比较重要的特征数:均值、方差与标准差。均值是指表示分布的中心位置、方差用来表示分布的散布大小(将方差开平方后就得到标准差)。就标准正态分布而言,图像关于y轴对称,y轴(也就是x=0)将“图像与x轴围成的面积”分为相等的二个部分;则可以这样的表达:x=0左边面积为0.5;0是标准正态分布的0.5的分位数;标准正态分布的0.5分位数为0;同样,某一分布的0.9分位数就是这样一个数:在x轴上的此数处做一垂直于x轴的直线,图像位于直线左侧的面积恰好为0.9,右侧一块面积恰好为0.1。大部份分位数可以查表得到。再如,查表得,对标准正态分布N(0,1)而言:

A、0.00135的分数位为-3,说明位于x=-3左侧的面积为0.00135;

B、0.99865的分数位为 3,说明位于x= 3左侧的面积为0.99865;

所以,位于x=-3和x=3之间的面积为0.9973,显然位于x=-3和x=3之外的面积为0.0027。那么,对非标准正态分布N(u,σ2)而言,如何求其0.975的分位数呢?先把非标准正态分布“标准化”,对上述分布而言,若令m=(x-u)/σ,而m就属于N(0,1)分布;再求“标准化”后的N(0,1)的0.975分位数(查

PDF 文件使用 \"pdfFactory Pro\" 试用版本创建 www.fineprint.cn表得1.96,所以m=1.96);接着求出x(因为m=(x-u)/σ=1.96,所以x=1.96σ+u)。

最后要讨论的是,对于任意一个分布,如何求x1、x2。例如:对于N(3,4)这个非标准正态分布而言,x1、x2计算如下:

N(3,4) ==> u=3 ,σ=2(即4开方),所以

-1.96=(x1-3)/2 ==> x1=3-1.96*2=-0.92

1.96=(x2-3)/2 ==> x2=3+1.96*2=6.92

从计算结果看,分布N(3,4)的0.975分位数的x轴位置区间座标分别为(-0.92,6.92)。

如果将N(3,4)在x轴方向平移-3后得到N(0,4),对应N(0,4)的0.975分位数的x轴位置区间座标分别就变成了(-0.92-3,6.92-3)=(-3.29,3.29);如果再将N(0,4)转化“标准化”的为N(0,1),因为σ由2变成了1,所在对应的x轴位置区间座标分别就变成了(-3.92/2,3.92/2)=(-1.96,1.96),相对应的面积为0.95。

注:

正态分布(normal distribution)是具有两个参数μ和σ2的连续型随机变量的分布。第一参数μ是服从正态分布的随机变量的均值,第二个参数σ2是此随机变量的方差,所以正态分布记作N(μ,σ2 )。

PDF 文件使用 \"pdfFactory Pro\" 试用版本创建 www.fineprint.cn

Z值是标准正态分布的一个分位数。Z值分为Zlt(长期Z值)和Zst(短期A值),Zlt=Zst-1.5。

Z值是Cpk之后出现的代表制程能力的指数。我们在计算Cpk的时候,选择的是Cpu和Cpl中较差的一个,于是便忽略掉了较好的一边所产生的不良,所以Cpk描述制程能力不够全面。于是便产生的Z值,Z值是将所有的不良率计算出来,放到标准正态分布中,计算得出的值。所以只要能够得出不良率就可以算出Z值。一般使用时都是通过计算出缺陷率DPMO(每百万次采样数的缺陷率,Defects Million Opportunity),然后通过转换表查出相应的Z值。

三、统计的基础知识

统计的目的:一是为了找到被研究的总体是什么分布、一是为了找到这个总体的均值、方差(或标准差)。我们不可能把总体中所有单位量拿来一个一个地研究与分析(有些总体是无穷的),只从总体中取出一定的样本、对样本进行研究与分析,这种用有限的样品来推断总体性质的方法就是统计方法。

PDF 文件使用 \"pdfFactory Pro\" 试用版本创建 www.fineprint.cn 因为取样的随机性,导致“每一组取样”后所得到的计算值不全相等;如果更多组的取样,那么样本计算值也不会全相等,只会产生样本计算值的分布,也就是抽样分布。

统计研究最终是要确定总体的数量特征,但是有时总体的单位数很多,甚至无限,不可能或无必要对每个总体单位都做调查。这时,就要借助样本来研究总体了。所谓样本(Sample)就是按照一定的概率从总体中抽取并作为总体代表的一部分总体单位的集合体。也有学者称总体为母体,样本为子样。但是,绝对不允许将统计总体叫做“全及总体”,样本叫做“样本总体”,这类叫法十分不规范。

样本是统计学中非常重要的概念,对这一概念的理解要注意三方面问题:

其一,构成某一样本的每一单位都必须取自某一特定的统计总体,不允许该总体之外的单位介入该总体的样本。

其二,样本单位的抽取应是按一定的概率进行的,而具体样本的产生应是随机的,因此必须排除人的主观因素对样本单位抽取和样本生成的干扰。

其三,样本是母体的代表,带有母体的信息,因而能够推断母体;然而,样本只是母体的一个子集,且具有随机性,故由样本去推断总体会产生代表性误差。其实,如何从母体中抽取子样,怎样控制样本对总体的代表性误差,是推断统计学研究的主要问题(统计学分描述性统计技术和推断性统计技术)。

PDF 文件使用 \"pdfFactory Pro\" 试用版本创建 www.fineprint.cn四、点估计及区间估计

取了n个样品,进行了一系列的测试,得到n个样品的参数,把样品的数据经过分析、处理后拿来作为全体的参数。这就是(对整体的)点估计。数据处理时,为了方便快捷的操作,很多时候都是根据经验进行近似处理的。很多时候,因为取样的随机性,需要对这个点估计值的准确性做出判断,这就需要进行区间估计。

1、点估计:对要计算的具体值进行求解;

例:从生产线随机取5个圆形钢球,测试其直径分别为:0.75, 0.70, 0.65, 0.70, 0.65。若“全体钢球的直径X”服从正态分布,求X的平均值和标准差。

解:

X的平均值一般取样本的平均值为:(0.75+0.70+…+0.65)/5=0.69;

X的标准差一般取样本的标准差修偏后得到:

样本的方差为[1/(5-1)]*(0.06^2+0.01^2+0.04^2+0.01^2+0.04^2)=0.00175、标准差为0.0418;

X的标准差为:样本的标准差/C4=0.0418/0.940=0.045;

说明:上式中的C4是修偏系数,不同取样时的修偏系数可以查表得到;

2、区间估计:对计算出来的具体值评估其准确性;

PDF 文件使用 \"pdfFactory Pro\" 试用版本创建 www.fineprint.cn 点估计仅仅给出参数的一个具体估计值,但是没有给出估计的精度,而区间估计是用一个区间来对未知参数进行估计,区间估计体现了估计的精度。就上例来说,用5个样品算出X的平均值为0.69mm,那么对下面决定,有多大的可能:

A、全体钢球的X平均值就是0.69mm; --也许只有不到10%的可能;

B、全体钢球的X平均值在[0.65, 0.75]内; --也许只有50%的可能;

C、全体钢球的X平均值在[0.60, 0.80]内; --也许有90%的可能;

D、全体钢球的X平均值在(0.01, 100.00)内;--有100%的可能。

那么,如何从数学上去理解、去计算这个区间和对应的可能性呢?

2.1区间的意义

假设θ值是总体的一个待求参数,取n个样品对θ计算后,得到一个区间[θL, θu]。若对于任意θ,当θL<θ<θu时有P(θL<θ<θu) ≥1-a,则称随机区间[θL, θu]是θ的置信水平为1-a的置信区间,简称[θL, θu]是θ的1-a置信区间,θL和θu分别称为θ的1-a的置信下限与置信上限。

可以这样去理解置信区间:经过计算出来的区间[θL, θu],它包含真实θ值的可能性为1-a;如果你把求区间[θL, θu]的方法从取样开始重复100次,那么会得到100个区间,将有100*(1-a)个区间包含了真实θ值。

PDF 文件使用 \"pdfFactory Pro\" 试用版本创建 www.fineprint.cn

注:

置信度Confidence level,也称为置信水平、可靠度、置信系数。它是指特定个体对待特定命题真实性相信的程度。也就是概率是对个人信念合理性的量度。即在抽样对总体参数作出估计时,由于样本的随机性,其结论总是不确定的。因此,采用一种概率的陈述方法,也就是数理统计中的区间估计法,即估计值与总体参数在一定允许的误差范围以内,其相应的概率有多大,这个相应的概率称作置信度。概率的置信度解释表明,事件本身并没有什么概率,事件之所以指派有概率只是指派概率的人头脑中所具有的信念证据。

置信水平是指总体参数值落在样本统计值某一区内的概率;而置信区间是指在某一置信水平下,样本统计值与总体参数值间误差范围。置信区间越大,置信水平越高。置信区间的跨度是置信水平的正函数,即要求的把握程度越大,势必得到一个较宽的置信区间,这就相应降低了估计的准确程度.

2.2区间的计算

为了精确地找到置信区间,有以下几个问题要确认(结合第二小结“分布”中的最后一个例题):

A、置信度为多少?

B、位于置信区间以外的部分如何分配?

PDF 文件使用 \"pdfFactory Pro\" 试用版本创建 www.fineprint.cn C、需要求的物理量属于什么分布?

D、如何“标准化”?

E、此种分布对应的分位数如何求出?

F、计算结果?还是以“点估计”中5个钢球的直径为例,求全体钢球直径X的平均值的95%的置信区间。

解:

A、按题目要求,置信度为95%;--- 即0.025和0.975两个分位数间包括的面积。

B、因为直径可以偏小、也可以偏大,且这种偏移是随机的,所以在置信区间两边的分布应相等。所以置信下上限对应的面积为0.025和0.975 ;--- 即对应(-1.96,1.96)的分位数。

C、“X平均值”的统计分布,一般情况属于正态分布(根据中心极限定理得知:“X平均值的统计分布”的方差是“X的分布”的方差n分之一)。因为不知X分布的方差,所以必须以样本的标准差来代替,此时:X平均值的统计分布就属于t分布。

D、标准化方,参见第二节最后的转化方法。

E、查表得到:当n为5时t分布的0.025及0.975的分位数为:±2.571;

PDF 文件使用 \"pdfFactory Pro\" 试用版本创建 www.fineprint.cn F、所以:[(0.69-x)/0.045]*(51/2)=±2.571,解得:x1=0.638, x2=0.742. 要求的X平均值的95%的置信区间为[0.638, 0.742]. 按书面上的写法是这样的:要求x平均值的1-a置信区间,利用t分布计算后得到: x±t(1-a/2)(n-1)*s/n’ 其中:t(1-a/2)(n-1)是自由度为n-1的t分布的1-a/2分位数; s是样本的标准差; n’是n的正平方根;

五、说明

本文都是以正态分布为例,而可靠性计算中多出现指数分布,虽然分布形式不一样,但对置信区间的理解与计算步骤是一样的。最主要的是在实际运用过程中,已经有可以直接套用的公式,没有必要去具体地分析是什么分布、用什么去“标准化”,如:在一次可靠性测定试验中,某种产品作累积T小时(T为3万小时)的定时截尾试验,共出现r次(r=5次)故障,求MTBF在置信度为b(b=95%)时的置信下限θL。按照给定的计算公式:θL=θ*2r/X2b(2r+2),其中:θ是MTBF的点估计值、X2b(2r+2)是自由度为2r+2的X平方分布b分位数;计算后得到:θ=30000/5=6000Hrs,所以: θL=6000*2*5/21.026=2853.6Hrs

PDF 文件使用 \"pdfFactory Pro\" 试用版本创建 www.fineprint.cn

因篇幅问题不能全部显示,请点此查看更多更全内容

Top