您现在的位置:首页 > >

王静龙《非参数统计分析》(1-6章)教案

发布时间:

引言
一般统计分析分为参数分析与非参数分析,参数分析是指,知道总体分布,但 其中几个参数的值未知,用统计量来估计参数值,但大部分情况,总体是未知 的,这时候就不能用参数分析,如果强行用可能会出现错误的结果。 例如:分析下面的供应商的产品是否合格? 合格产品的标准长度为(8.5 ? 0.1),随即抽取 n=100 件零件,数据如下: 表 1.1
8.503 8.508 8.498 8.502 8.503 8.501 8.505 8.501 8.500 8.510 8.499 8.489 8.346 8.310 8.489 8.501 8.499 8.804 8.493 8.494 7.780 8.495 8.461 8.504 8.347 8.505 8.499 8.496 8.499 8.505 8.509 8.691 8.494 8.492 8.490 8.500 8.492 8.504 8.782 8.499 8.500 8.497 8.493 8.503 8.497 8.499 8.502 8.503 8.498 8.500 8.502 8.501 8.150 8.496 8.501 8.489 8.501 8.497 8.501 8.498 8.497 8.504 8.503 8.506 8.506 8.502 8.505 8.489 8.506 8.499 8.493 8.494 8.509 8.499 8.498 8.493 8.494 8.511 8.501 8.497 8.491 8.506 8.503 8.497 8.503 8.490 8.897 8.493 8.504 8.497 8.505 8.507 8.492 8.505 8.504 8.501

8.511 8.502 8.505 8.503

经计算,*均长度为 x ? 8.4958cm ,非常接*中心位置 8.5cm,样本标准差 为s ?

? ?x ? x ?
n i ?1 i

2

n ? 1 ? 0.1047cm.一般产品的质量服从正态分布, X ~ N ( ? , ? 2 ) 。

P(8.4 ? X ? 8.6) ? ?(8.6 ? ? ) ? ?(8.4 ? ? )

?

?

? ?(8.6 ? 8.4958 ) ? ?(8.4 ? 8.4958 ) 0.1047 0.1047 ? 66%

这说明产品有接*三分之一不合格,三分之二合格,所以需要更换供应厂 商,而用非参数分析却是另外一个结果。 以下是 100 个零件长度的分布表:

长度(cm) ~8.40 8.40~8.46 8.46~8.48 8.48~8.50 8.50~8.52 8.52~8.60 8.60~ 合计

频率(%) 5 0 1 45 45 0 4 100

这说明有 90%的零件长度在 (8.5 ? 0.2) cm 之间,有 9%的零件不合格,所以工 厂不需要换供应商。 例 2 哪一个企业职工的工资高? 表 1.3 两个企业职工的工资 企业 1 企业 2 11 12 13 14 15 16 17 18 19 20 40 60 3 4 5 6 7 8 9 10 30 50

显然,企业 1 职工的工资高,倘若假设企业 1 与企业 2 的职工工资分别服从正 态分布 N (a, ? 2 ), N (b, ? 2 ) , 则这两个企业职工的工资比较问题就可以转化为一个参 数的假设检验问题,原假设为 H 0 : a ? b ,备择假设为 H 0 : a ? b 则 x ? y ~ N (a ? b, ( ? )? 2 ) 若 H 0 为真,则
1 m 1 n

t?

x? y ~ t (m ? n ? 2) ? t (20) 1 1 Sw ? m n

2 其中 S w ?

m n 1 [? ( xi ? x) 2 ? ? ( yi ? y) 2 ] m ? n ? 2 i ?1 i ?1

} 拒绝域为: {t ? t0.90 (20)} ? {t ? 1.325
检测值为: t

? 1.282

故不能拒绝原假设,认为两企业的工资水*无差异。 也可以用 P ? 值 检验 由于 P(t (20) ? 1.282) ? 0.1073 故不能拒绝原假设,认为两企业的工资水*无差异。 这里我们采用的显著性水*为 0.1. 但这个统*崧塾胧导适莶幌喾稀V饕且蛭偕韫ぷ史诱植迹 个假设是错误的,用错误的假设结合参数分析自然得出的结论不可靠。这时候 有两种方法处理,一种更换其他分布的假设,二是用非参数数据的方法的分析。 非参数统计如同光谱抗生素,应用范围十分广泛。 参数统计与非参数统计针对不同的情况提出的统计方法,它们各有优缺点,互 为补充。

第二章描述性统计
§2.1 表格法和图形法 表格法主要有列频数分布表和频率分布表 例 2.1 某公司测试新灯丝的寿命,列表如下: 107 73 68 97 76 79 94 59 98 57 73 81 54 65 71 80 84 79 98 63 65 66 79 86 68 74 61 82 65 98 63 71 62 116

64 79 78 79 77 86 89 76 74 85 73 80 68 78 89 72 58 92 78 88 77 103 88 63 68 88 81 64 73 75 90 62 89 71 74 70 85 61 65 61 75 62 94 71 85 84 83 63 92 68 81
???????? ??????? ?

(1)找到最小值 43,最大值 116; (2)将组数分为 5~20 组, 组距 ? (最大值- 最小值) 组数 ,分 16 组,组距为 5

表 2.2 灯丝寿命的频率分布表 灯丝寿命(小时) 40--44 45--49 50--54 55--59 60--64 65--69 70--74 75--79 80--84 85--89 90--94 95--99 100--104 105--109 110--114 115--119 总和 个数 1 1 2 8 24 28 30 34 23 22 14 8 3 1 0 1 200 频率(%) 0.5 0.5 1.0 4.0 12.0 14.0 15.0 17.0 11.5 11.0 7.0 4.0 1.5 0.5 0.0 0.5 100

对应的直方图为:

§2.2 表格法和图形法 数值方法主要是用数值来表示数据的中心位置 (或者*均大小) 和离散程度等。 1 3 5 3 3 1 3 2 3 2 4 4 ? ?

列1 *均 标准误差 中位数 众数 标准差 方差 峰度 偏度 区域 最小值 最大值 求和 观测数 2.833333 0.34451 3 3 1.193416 1.424242 -0.20317 -0.00713 4 1 5 34 12

它的*均数,中位数,众数差不多大。但大部分情况不是这样的,例如:

§表 2.3 某保险公司赔款样本数据频率分布表 赔款数 0--400 400--800 800--1200 1200--1600 1600--2000 2000--2400 2400--2800 2800--3200 3200--3600 3600--4000 赔款次数 2 32 24 19 10 6 3 2 1 1

合计

100

*均数,中位数,众数分别为:1224,1000,600,这三者相差较大。 左峰的时候:众数 ? 中位数 ? *均数, 右峰的时候:*均数 ? 中位数 ? 众数。 *均数容易受到异常值的影响,故不能很好地代表中心位。 例如某地农户收入增长了 2.9%,但减收的农户却是 60%,为了更好地反映中心位,所以很多 情况采用 ? % 的切尾*均数。人们熟知的去掉最大值与最小值的*均数也是切尾*均数。

§2.4 经济专业毕业生的月收入数据 毕业生 1 2 3 4 5 6 月收入 1850 1950 2050 1880 1750 1700 毕业生 7 8 9 10 11 12 月收入 1890 2130 1940 2340 1920 1880

去掉最大值 2340,最小值 1700,的切尾*均数比总体*均数要小,它为 1924,而总体*均数 为 1940.但中位数都一样,均为 1905,中位数表现了稳定性。因此我们不仅用*均数表示中 心位置,有时候也用中位数描述数据的中心位置。 另外,众数也能用来描述数据的中心位置,尤其是定性数据的中心位置,例如:

§ 2.5 有缺陷的小巧克力不合格品问题的频数频率分布表 代码 1 2 3 4 5 问题 外层不够 两个粘在一起 被压扁 外层太多 破裂 频数 486 43 295 84 12 频率(%) 52.83 4.67 32.07 9.13 1.30

这种情况下计算*均数和中位数没有多大意义,相反众数为 1,众数值得关注。

一般情况,*均数,中位数,众数应该综合考量,这三个数目,使得我们可以 从不同角度表达数据的中心位置,给评估对象一个全面的评价,例如:某企业 的职工收入的*均数为 5700,元,中位数为 3000 元,众数为 2000 元,这说明收 入 2000 元的人最多,有一半职工低于 3000 元,有一半职工高于 3000 元,*均 数 5700 大于中位数,说明有些员工工资特别高。

*均数与中位数为何可以表示数据的中心位置呢?主要是因为:

? ( x ? x)
i ?1
n

n

2

i

?m in ? ( xi ? a)
a i ?1
n i

n

2

(2.1) (2.2)

? x ? m e ? min ? x ? a
i ?1 i a i ?1

这说明用不同的距离标准衡量,*均数与中位数到各点的距离最*。 另外*均数的物理意义还有重心的意义,在重心位置,系统可以*衡,在 图 2.8 处,*均数为 4,中位数为 3,就意味着把树木集中在 3 这点,所走

的路最短。

* 1

* * * * 2

* * * 3 4 5 中位数 *均数

6

* 7

* 8

* 9

§2.2.2 表示离散程度的数值 表示离散程度的数值一般有方差,四分位数,而四分位数又分上四分位数与下 四分位数。 为表示数据的离散程度,我们一般用五个数概括,即最小值,下四分位数,中 位数,上四分位数,最大值,分别记为 Q0 , Q1 , Q2 , Q3 , Q4 . 例如:将 12 名经济专业毕业生月收入数据处理结果如下:(用 Minitab) 数据容量 N *均数 Mean 中位数 Median 切尾*均数 TrMean 标准差 StDev 标准误 SEMean 最小值 Minimum 最大值 Maximum 下四分位数 Q1 上四分位数 Q3 12 1940 1905 1924 170.6 49.3 1700 2340 1857.5 2025

用统计软件 Minitab 画箱线图(见图 2.9) 图 2.9

四分位数的计算
分位数是将总体的全部数据按大小顺序排列后,处于各等分位置的变量值.如果将全部 数据分成相等的两部分,它就是中位数;如果分成四等分,就是四分位数;八等分就是 八分位数等.四分位数也称为四分位点,它是将全部数据分成相等的四部分 ,其中每部 分包括 25%的数据,处在各分位点的数值就是四分位数.四分位数有三个,第一个四分位 数就是通常所说的四分位数 ,称为下四分位数,第二个四分位数就是中位数 ,第三个四 分位数称为上四分位数,分别用 Q1、Q2、Q3 表示.四分位数作为分位数的一种形式,在 统计中有着十分重要的作用和意义,现就四分位数的计算做一详细阐述. 一 、 资 料 未 分 组 四 分 位 数 计 算 第一步:确定四分位数的位置.Qi 所在的位置=i(n+1)/4,其中 i=1,2,3.n 表示资料 项 数 . 第 二 步 : 根 据 第 一 步 四 分 位 数 的 位 置 , 计 算 相 应 四 分 位 数 . 例 1 : 某 数 学 补 * 小 组 11 人 年 龄 ( 岁 ) 为 : 17,19,22,24,25, 28,34,35,36,37,38. 则 三 个 四 分 位 数 的 位 置 分 别 为 : Q1 所在的位置=(11+1)/4=3,Q2 所在的位置=2(11+1)/4=6,Q3 所在的位置=3(11+1) /4=9. 变量中的第三个、第六个和第九个人的岁数分别为下四分位数、中位数和上四分位数, 即 : Q1=22 ( 岁 ) 、 Q2=28 ( 岁 ) 、 Q3=36 ( 岁 ) 我们不难发现,在上例中(n+1)恰好是 4 的整数倍,但在很多实际工作中不一定都是整 数倍.这样四分位数的位置就带有小数,需要进一步研究.带有小数的位置与位置前后 标志值有一定的关系: 四分位数是与该小数相邻的两个整数位置上的标志值的*均数, 权数的大小取决于两个整数位置的远* ,距离越*,权数越大,距离越远,权数越小,权 数 之 和 应 等 于 1. 例 2 : 设 有 一 组 经 过 排 序 的 数 据 为 12,15,17,19,20,23,25, 28,30,33,34,35,36,37, 则 三 个 四 分 位 数 的 位 置 分 别 为 : Q1 所在的位置=(14+1)/4=3.75,Q2 所在的位置=2(14+1)/4=7.5,Q3 所在的位置=3 ( 14+1 ) /4=11.25. 变量中的第 3.75 项、 第 7.5 项和第 11.25 项分别为下四分位数、 中位数和上四分位数, 即 : Q1=0.25 × 第 三 项 +0.75 × 第 四 项 =0.25 × 17+0.75 × 19=18.5 ; Q2=0.5 × 第 七 项 +0.5 × 第 八 项 =0.5 × 25+0.5 × 28=26.5 ; Q3=0.75 × 第 十 一 项 +0.25 × 第 十 二 项 =0.75 × 34+0.25 × 35=34.25. 二 、 资 料 已 整 理 分 组 的 组 距 式 数 列 四 分 位 数 计 算 第一步:向上或向下累计次数(因篇幅限制,以下均采取向上累计次数方式计算); 第 二 步 : 根 据 累 计 次 数 确 定 四 分 位 数 的 位 置 : Q1 的位置 = (∑f+1)/4,Q2 的位置 = 2(∑f +1)/4,Q3 的位置 = 3(∑f +1)/4 式 中 : ∑ f 表 示 资 料 的 总 次 数 ; 第三步:根据四分位数的位置计算各四分位数(向上累计次数,按照下限公式计算四分 位 数 ) : Qi=Li+fi × di 式中: Li——Qi 所在组的下限,fi——Qi 所在组的次数,di——Qi 所在组的组距; Qi-1 — — Qi 所 在 组 以 前 一 组 的 累 积 次 数 , ∑ f — — 总 次 数 . 例 3 : 某 企 业 工 人 日 产 量 的 分 组 资 料 如 下 :

根 据 上 述 资 料 确 定 四 分 位 数 步 骤 如 下 : ( 1 ) 向 上 累 计 方 式 获 得 四 分 位 数 位 置 : Q1 的 位 置 = ( ∑ f +1 ) /4= ( 164+1 ) /4=41.25 Q2 的 位 置 =2 ( ∑ f +1 ) /4=2 ( 164+1 ) /4=82.5 Q3 的 位 置 =3 ( ∑ f +1 ) /4=3 ( 164+1 ) /4=123.75 (2)可知 Q1,Q2,Q3 分别位于向上累计工人数的第三组、第四组和第五组,日产量四分 位 数 具 体 为 : Q1=L1+ ■ × d1=70+ ■ × 10=72.49 ( 千 克 ) Q2=L2+ ■ × d2=80+ ■ × 10=80.83 ( 千 克 ) Q3=L3+■×d3=90+■×10=90.96(千克) shitouwa4320 2014-10-23

§2.2.3 标准误 假设产生数据的总体的均值为 ? , 方差为 ? 2 。 它们的估计分别为样本*均值 x , 样本方差 S 2 和样本标准差 S ,由于*均数 x 的标准差为 ? 为S 由
n ,S n 称为标准误。

n ,所以它的估计取

x?? x?? ~ N (0,1) 得 ~ t (n ? 1) ? n S n

在显著性水* 0.95 的条件下,得置信区间的端点

x?? ? ?t0.975 ( n ? 1) S n
即得 ? ? x ?

S t0.975 (n ? 1) . n

t0.975 (11) ? 2.2010
用 Mintab 计算得到:
Variable Maximum C1 2340.0 N 12 N* 0 Mean 1940.0 SE Mean 49.3 StDev 170.6 Minimum 1700.0 Q1 1857.5 Median 1905.0 Q3 2025.0

算得到所求置信区间为:

? ? 1940? 49.3 ? 2.20986273 ? 1940? 108.5086233
用 Excel 计算得到:

*均 标准误差 中位数 众数 标准差 方差 峰度 偏度 区域 最小值 最大值 求和 观测数 置信度(95.0%)

1940 49.25198 1905 1880 170.6139 29109.09 1.874516 1.102987 640 1700 2340 23280 12 108.4029

所求置信区间为:

? ? 1940? 49.25198042 ? 2.20986273 ? 1940? 108.4029328
两款软件计算结果相差不大。 §2.2.4 偏度 偏度(Skewness)反应单峰分布的对诚性,总体偏度用 ? s 表示

?3 ? X ??? ? s ? E[? ? ]? 3 ? ? ? ?
样本偏见度用 bs 表示,国家标准的计算公式为:

3

bs ?
j

m3

?m2 ?

3 2

其中 m j ?

?
i ?1

n

?x ? x? ,
i

n

j ? 2,3.

在 Excel 中的计算公式为:

bs ?

m3 n (n ? 1)(n ? 2) ?S ?3

一般 bs

? 0 数据的分布是右偏的, bs ? 0 数据的分布是左偏的, bs ? 0

我们倾向于认为总体的分布是对称的。 §2.2.4 峰度 峰度(Kurtosis)反映峰的尖峭程度,总体峰度用 ? k 表示,总体的峰度的定义 为(国家标准)

? ? X ??? ? k ? E[? ? ]? 4 ?4 ? ? ?
样本峰度用 bk ,国家标准的计算公式为

4

bk ?

m4 ?m2 ?2

由于正态分布的峰度系数为 3,当 *分布。

bk ? 3 时为尖峰分布,当 bk ? 3

时为扁

第三章 符号检验法
符号检验是一种较为简单的非参数检验,中位数检验是符号检验的一个重要 应用。 例 3.1 某市劳动和社会保障部门的资料说明,1998 年高级技师的年收入的中位 数为 21700 元,该市某个行业有一个由 50 名高级技师组成的样本,数据如下: 23072 26744 24370 23406 20327 20439 24296 24890 22256 24815 19140 24556 25669 18472
? ????

22404 24514

26744 22516

25112 23480 26552 24074 18064 22590 原假设与备择假设为:

H 0 : me ? 21700

H1 : me ? 2170

,2,?, n},S 即为大于中位数 me0 的 选择统计量 S ? {xi : xi ? me 0 ? 0, i ? 1
#

?

?

xi 的个数, " # " 表示计数, S ? 也可表示为:
?1 xi ? me0 ? 0 S ? ? ui , ui ? ? 其他 i ?1 ?0
? n

1 ? S ~ b ( n , ) H : m e ? 2170 若 0 为真,则 2
而 n ? 50, 检测值 S ? 32
?

? 50?? 1 ? 计算 P 值 P( X ? 32) ? ? ? ? i ? ?? 2 ? ? 0.032454? 0.05 i ?32 ? ?? ?
50

50

即检测值 S ? 32 落入拒绝域。 故拒绝原假设,接受备择假设 H 1 : m e ? 2170

?

在 excel 中如何使用 BINOMDIST 函数返回一元二 项式分布的概率值
BINOMDIST 函数用于返回一元二项式分布的概率值。 函数语法 语法形式 BINOMDIST(number_s,trials,probability_s,cumulative) number_s:表示实验成功的次救。 trials:表示独立实验的次数。 probability_s:表示一次实验中成功的概率。 cumulative:表示一逻辑值,决定函数的形式,如果 cumulative 为 TRUE,函数 BINOMDIST 返 回积累 分布函数,即至多 number_s 次成功的概率;如果为 FALSE,返回概率密度函数,即 number_s 次成功 的概率。 例如,抛硬币正反面的概率是 0.5 若要计算出抛 10 次硬币 6 次是正面的概率。可以使用 BINOMDIST 函数 来实现。 Step01 选中 C4 单元格,在公式编辑栏中输入公式: =BINOMDIST(A2,B2.C2,TRUE)

按 Enter 键即可计算出积累分布函数,即至多 6 次成功概率,如图 8-73 所示。

Step02 选中 C5 单元格,在公式编辑栏中输入公式: =BINOMDIST(A2,B2.C2.FALSE) 按 Enter 键即可计算出概率密度函数,即 6 次成功的概率,如图 8-74 所示。

§3.2 符号检验在定性数据分析中的应用 有的时候,观察值是一些定性数据,如果定性数据仅取两个值,就可以使用 符号检验对它进行统计分析。 例 3.2 某项调查询问了 2000 名年轻人。 问题是: 你认为我们的生活环境是比过 去更好,更差,还是没有变化?有 800 人觉得”越来越好”,有 720 人感觉一天 不如一天,有 400 人表示没有变化,还有 80 人说不知道,根据调查结果,你是 否相信,在总体认为我们的生活比过去更好的人,比认为我们的生活比过去差 的人多? 解:原假设与备择假设为
H0 : p ? 1 2 H1 : p ?
? #

1 2
?

} , S 也可表示为: 选择统计量 S ? {认为生活变好的人数
?1 认为生活变好 S ? ? ui , ui ? ? 其他 i ?1 ?0
? n

1 ? S ~ b ( 1520 , ) 则 2
由于 n 很大,所以可以*似认为 S ~ N (760,380)
其中 ?
?

? np ? 760,? ? npq ? 380

P S ? ? 800 ? 0.0 2 0 0 8 6 8 6 8
利用正态分布的计算结果

?

?

? 760? 799? P S ? ? 800 ? P S ? ? 799 ? ?? ? ? 0.022714571 380 ? ?

?

? ?

?

修正后

? 760? 799.5 ? P S ? ? 800 ? ?? ? ? 0.021366586 380 ? ?

?

?

由于 P 值较小,所以我们认为我们的生活环境变好了。

§3.3 成对数据的比较问题 由于同一块田的生长环境相同,不同的地生长环境各不相同,所以将这批数据 写成成对的形式。

? x1n ? ? x11 ? ? x12 ? ? ? ? ? ? , , ? ? ?x ? ?x ? ?x ? ?. ? 21 ? ? 22 ? ? 2n ?
di ? x1i ? x2i ? ? ? ?i , i ? 1,2,?n,

? ? ?1 ? ? 2 , ? i ? ?1i ? ? 2i , ?

为品种差, ? i 为随机差。

? i 关于原点对称的分布。
由于 ?1i 和? 2i 都服从关于原点对称的分布, ?1i ? ? 2i ? ? 2i ? ?1i (同分布) 则

P?? i ? c ? ? P(?1i ? ? 2i ? c) ? P(? 2i ? ?1i ? c) ? P(?1i ? ? 2i ? ?c) ? P(? i ? ?c)
所以 ? i 关于原点对称。

其它分位点的检验 茆诗松老师教材 P414,例 7.6.3 以往的资料表明,某种圆钢的 90%的产品的硬度不小于 103( kg / mm ),为了 检验这个结论是否属实,现在随机挑选 20 根圆钢进行硬度实验,测得其硬度分 别是: 142 86 134 119 119 161 98 144 131 158 102 165 154 81 122 117 93 128 137 113
2

问这批钢材是否达标? 解:原假设与备择假设为:

H0 : x0.10 ? 103

H1 : x0.10 ? 103

?1 xi ? 103 ui ? ? 其他 ?0
选取统计量 S ?
?
?

?u
i ?1

n

i

? ,若原假设成立,则 S ~ b(20,09)

检测值 S ? 15,检验的 P 值为

? 20? i 20?i p ? P(S ? 15) ? ? ? ? i ? ?09 0.1 ? 0.043? 0.05 i ?0 ? ?
? 15

即检测值落入拒绝域,故拒绝原假设,接受备择假设 H1 : x0.10 即产品不达标。

? 103

例 7.6.4 工厂有两个化验室,每天同时从工厂的冷却水中取样,测量水中的含 氯量( 10 )一次,记录如下:
?6

i 1 2 3 4 5 6 7 8 9 10 11

xi (实验室 A)
1.03 1.85 0.74 1.82 1.14 1.65 1.92 1.01 1.12 0.9 1.4

yi (实验室 B)
1 1.89 0.9 1.81 1.2 1.7 1.94 1.11 1.23 0.97 1.52

差 xi 0.03 -0.04 -0.16 0.01 -0.06 -0.05 -0.02 -0.1 -0.11 -0.07 -0.12

? yi

问两个化验室测定的结果之间有无显著性差异? 解:设 A,B 实验室的测量误差分别为: ? ,?. 并设 ? ,?. 的分布函数分别为

F ( x), G ( x) 。
由于 xi ? ?i ? ?i ,

yi ? ?i ??i .

选取统计量 zi ? xi ? yi ? ?i ??i 原假设与备择假设为:

H0 : F ( x) ? G( x)

H1 : F ( x) ? G( x) .

若 H 0 为真,则在 Z 的分布关于原点对称

?1 zi ? 0 ui ? ? ?0 其他
选取统计量 S ?
?

?u
i ?1

11

i

即 S 表示 z1 , z 2 , ?, z11 中正数的个数。 检验值 S
?

?

? 2 ,检验的 P 值为:

p ? 2 min{P ( S ? ? 2), P ( S ? ? 2)} ?11? 11 ? 2? ? ?i? ?0.5 ? 0.0654? 0.05 i ?0 ? ?
2

在显著性水*为 ?

? 0.05,检测值未落入拒绝域,故接受原假设,认为两个化

验室的检测结果之间无显著性差异。

例 7.6.5 在某保险类中,一次 2008 年索赔数额的随机抽样为(按照升序排列): 4632 14760 4728 15012 5052 18720 5064 21240 5484 22836 6972 52788 7596 67200 9480

已知 2007 年索赔数额的中位数为 5063 元,问 2008 年索赔的中位数较上一年 是否有所变化? 解:这是一个双侧检验问题: 原假设与备择假设为:

H0 : x0.5 ? 5063
?1 ui ? ? ?0 xi ? 5063 其他

H1 : x0.5 ? 5063

选取统计量 显著性水* ? 计算得:

S ? ? ui
? i ?1

n

? 0.05, n ? 15 。

k ?12 3

?C

15

k 15

0.5 0.5 0.5 0.5
k

k

15? k

k ? 0.0176? 0.025 ? ? C15 0.5k 0.515?k ? 0.0592 k ?11 4

15

?C
k ?0

k 15

15? k

k ? 0.0176? 0.025 ? ? C15 0.5k 0.515?k ? 0.0592 k ?0

所以双侧拒绝域为: W

? {S ? ? 3或S ? ? 12}

而检测值 S ? ? 12 ,落入拒绝域 W . 故拒绝原假设,接受备择假设,即可以认为 2008 年索赔的中位数较上一年有所 变化。 方法二:也可采用 P 值检验 检验的 P 值为:

p ? 2P(S ? ? 12) ? 0.0352? ? ? 0.05

故检测值落入拒绝域,所以拒绝原假设,接受备择假设,即可以认为 2008 年索 赔的中位数较上一年有所变化。

例 7.6.6.1984 年一些国家每*方公里可开发的水资源数据如下表所示 (万度/年)

国家

每*方可开发水资源

国家

每*方可开发水资源

苏联 巴西 美国 加拿大 扎伊尔 墨西哥 瑞典 意大利 奥地利 南斯拉夫 挪威

4.9 4.1 7.5 5.4 28.1 4.9 22.3 16.8 58.6 24.8 37.4

印度 哥伦比亚 日本 阿根廷 印度尼西亚 瑞士 罗马利亚 西德 英国 法国 西班牙

8.5 26.3 34.9 6.9 7.9 78.0 10.1 8.8 1.7 11.5 13.4

而当年中国的该项指标为 20 万度/年。请用符号检验方法检验:这 22 个国家每 *方公里可开发的水资源的中位数不高于中国,求检验的 P 值,并写出结论。 解:原假设与备择假设为:

H 0 : x0.5 ? 20
?1 ui ? ? ?0 xi ? 20 其他
?

H1 : x0.5 ? 20

选取统计量 S ? 显著性水* ?

?u
i ?1

22

i

? ,若原假设成立,则 S ~ b(22,0.5)

? 0.05, n ? 22 ,查表得:
22 ? k k ? 0.0262? 0.05 ? ? C22 0.5k 0.522?k ? 0.0669 , k ?15 22

k ?16

?C

22

k 22

0.5 0.5

k

? 右侧拒绝域为: W ? {S ? 16}

? 又检测值 S ? 8 ? W

或者检测的 P 值为

p ? P(S ? ? 8) ? 0.9331? ? ? 0.05

故接受 H 0 ,拒绝 H1 。 即可认为这 22 个国家可开发的水资源的中位数不高于中国。

例 7.6.7.下面是亚洲十个国家 1996 年的每 1000 个新生儿中的死亡数(按从小 到大的次序排列) 日本 以色列 韩国 斯里兰卡 中国 叙利亚 伊朗 印度 孟加拉 巴基斯坦 4 6 9 15 23 31 36 65 77 88

以 M 表示 1996 年 1000 个新生儿中死亡数的中位数,试检验:

H 0 : M ? 34 H 0 : M ? 34
?1 ui ? ? ?0 xi ? 34 其他
?

H1 : M ? 34,求检验的 P 值,并写完出结论。 H1 : M ? 34

解:原假设与备择假设为:

选取统计量 S ? 显著性水* ?

?u
i ?1

10

i

? ,若原假设成立,则 S ~ b(10,0.5)

? 0.05, n ? 10 ,查表得:
10 ? k k ? 0.0107? 0.05 ? ? C10 0.5k 0.510?k ? 0.0547 , k ?0 3

?C
k ?0

2

k 10

0.5 0.5

k

? 左侧拒绝域为: W ? {S ? 2}
? 又检测值 S ? 4 ? W

或者检测的 P 值为

p ? P(S ? ? 4) ? 0.3770? ? ? 0.05

故接受 H 0 ,拒绝 H1 。

即可认为 1996 年 1000 个新生儿中死亡数的中位数不低于 34。

例 7.6.8.某烟厂称其生产的每支香烟的尼古丁含量在 12mg 以下, 实验室测定的 该烟厂的 12 支香烟的尼古丁含量(单位:mg)分别为: 16.7 17.7 14.1 11.4 13.4 10.5 13.6 11.6 12.0 12.6 11.7 13.7 问是否该厂所说的尼古丁含量比实际要少?求检验的 P 值,并写出结论。 由于对于非正态总体,小样本场合不能用样本均值检验,所以下面采用中位数 检验。 解:原假设与备择假设为:

H0 : x0.5 ? 12
?1 ui ? ? ?0 xi ? 12 其他
?

H1 : x0.5 ? 12

选取统计量 S ? 显著性水* ?

?u
i ?1

12

i

? ,若原假设成立,则 S ~ b(12,0.5)

? 0.05, n ? 12 ,查表得:
12 ? k k ? 0.0193? 0.05 ? ? C12 0.5k 0.512?k ? 0.0730 , k ?9 12

k ?10

?C

12

k 12

0.5 0.5

k

? 右侧拒绝域为: W ? {S ? 10}
? 又检测值 S ? 8 ? W

或者检测的 P 值为

p ? P(S ? ? 8) ? 0.1938? ? ? 0.05

故接受 H 0 ,拒绝 H1 。 即可认为该厂的尼古丁含量比实际含量要少。

第四章 符号秩和检验法
§4.1 对称中心为原点的检验问题 设对称中心为 ? ,则原假设与备择假设分别为:

H0 :? ? 0 H0 :? ? 0 H0 :? ? 0
引入符号检验统计量为:

H1 : ? ? 0 H1 : ? ? 0 H1 : ? ? 0
?1 xi ? 0 ui ? ? ?0 其它

S ? ? ui ,
? i ?1

n

将 x1 , x2 ,?? xn 排序。设
? 量为: W ? ? ui Ri i ?1 n

xi

的秩为 Ri , i ? 1,2,?, n. 引入符号秩和检验统计

表 4.1 10 个观察值和它们的符号,绝对值和绝对值的秩

观察值

-7.6
?

-5.5
?

4.3
?

2.7
?

-4.8
?

2.1
?

-1.2
?

-6.6
?

-3.3
?

-8.5
?

符号 绝对值

7.6 9

5.5 7 ,W
?

4.3 5

2.7 3

4.8 6

2.1 2

1.2 1

6.6 8

3.3 4

8.5 10

绝对值 的秩

S? ? 3
H0 :? ? 0
如果 ?

? 5?3? 2

下面讨论符号秩和检验的检验方法,原假设与备择假设为:

H1 : ? ? 0
1 2 1 2

? 0 ,则 P( X ? 0) ? P( X ? ? ) ? , P( X ? 0) ? P( X ? ? ) ?

对于任意的正数 a,

P( X ? a) ? P( X ? ? ? (a ? ? )) ? P( X ? ? ? (a ? ? )) ? P( X ? ?a ? 2? ) ? P( X ? ?a)

即 P( X ? a) ? P( X ? ?a),?a ? 0

?a
?

? a

此时 W 较大, C 为检验的临界值为

c ? inf{c* : P(W ? ? c* ) ? ?}.

原假设与备择假设为:

H0 :? ? 0
?

H1 : ? ? 0

此时 P( X ? a) ? P( X ? ?a), ?a ? 0 此时 W 较小, d 为检验的临界值为

d ? sup{d * : P(W ? ? d * ) ? ?}.

原假设与备择假设为:

H0 :? ? 0
?

H1 : ? ? 0
?
2

我们在 W 较大或者较小的时候拒绝原假设,检验的临界值 c , d 为

c ? inf{ c* : P(W ? ? c* ) ?

}.

d ? sup{ d * : P(W ? ? d * ) ?

?
2

}.

§4.2 符号秩和检验统计量 W 的性质
? 性质 4.1 令 S ? ? iui ,则在总体的分布关于原点 0 对称时, W 与 S 同分布:
i ?1 n

?

W? ?S

d

表 4.1 10 个观察值和它们的符号,绝对值和绝对值的秩

观察值

-7.6
?

-5.5
?

4.3
?

2.7
?

-4.8
?

2.1
?

-1.2
?

-6.6
?

-3.3
?

-8.5
?

符号 绝对值

7.6 9

5.5 7
? n

4.3 5

2.7 3

4.8 6

2.1 2

1.2 1

6.6 8

3.3 4

8.5 10

绝对值 的秩

W ? ? ui Ri ? 5 ? 3 ? 2 ? 10
i ?1

表 4.3 10 个观察值和它们的符号,绝对值和绝对值的秩

观察值

-1.2
?

2.1
?

2.7
?

-3.3
?

4.3
?

-4.8
?

-5.5
?

-6.6
?

-7.6
?

-8.5
?

符号 绝对值

1.2 9

2.1 7
n

2.7 5

3.3 3

4.3 6
?

4.8 2
n

5.5 1

6.6 8

7.6 4

8.5 10

绝对值 的秩

S ? ? iui ? 2 ? 3 ? 5 ? 10 , W ? ? ui Ri
i ?1

i ?1

这样就初步说明了性质 4.1

W ? 的概率分布,在总体 X 关于原点 0 分布时, u1 , u2 ,?, un 相互独立,同分布,
n 1 S ? iui 是离散的分布,它的取值 P ( u ? 0 ) ? P ( u ? 1 ) ? , i ? 1 , 2 , ? , n . 且 所以 ? i i 2 i ?1

范围是 0,1,2,?, n(n ? 1) 2, ,且

P( S ? d ) ? P(? iui ? d ) ? tn (d ) 2n , d ? 0,1,2,?, n(n ? 1) 2, (4.1)
i ?1

n

其中 t n ( d ) 表示从 1,2,?, n. 中取若干个,其和恰好为 d 的取法数, 例如: tn (0) ? tn (1) ? tn (2) ? 1。 t n (3) ? t n (4) ? 2 , t n (5) ? 3 , t n (6) ? 4.

性质 4.2 在总体的分布关于原点 0 对称时, W 与 S 同分布:所以 W 的分布

?

?

P(W ? d ) ? P(? ui Ri ? d ) ? tn (d ) 2n , d ? 0,1,2,?, n(n ? 1) 2, (4.2)
? i ?1

n

P(W ? ? d ) ? P(W ? ? n(n ? 1) 2 ? d ), d ? 1,2,?, n(n ? 1) 2.
于是
?

P(W ? ? d ) ? P(W ? ? n(n ? 1) 2 ? d ),

(4.3)

这说明 W 的密度是以中心对称的。

性质 4.3 在总体的分布关于原点 0 对称时, W 的分布的对称中心为:

?

n(n ? 1) 4

例 4.1 有 12 个工人,每个工人用两种生产方式完成一项生产任务,所用时间对 比如下表所示:

表 4.4 用两种方式完成一项生产任务的完工时间及其差值
工人 方式 1 方式 2

xi

yi

差值 di ? xi ? yi

工人

方式 1

方式 2

差值
di ? xi ? yi

xi
7 8 9 10 11 12 16.1 18.5 21.9 24.2 23.4 25.0

yi

1 2 3 4 5 6

20.3 23.5 22.0 19.1 21.0 24.7

18.0 21.7 22.5 17.0 21.2 24.8

2.3 1.8 -0.5 2.1 -0.2 -0.1

17.2 14.9 20.0 21.1 22.7 23.7

-1.1 3.6 1.9 3.1 0.7 1.3

表 4.5 差值的符号,绝对值及绝对值的秩
工人 差值 符号 差的绝 对值 绝对值 的秩 工人 差值 符号 差的绝 对值 绝对值 的秩

1 2 3 4 5 6

2.3 1.8 -0.5 2.1 -0.2 -0.1

? ?
?

2.3 1.8 0.5 2.1 0.2 0.1

10 7 3 9 2 1

7 8 9 10 11 12

-1.1 3.6 1.9 3.1 0.7 1.3

?

1.1 3.6 1.9 3.1 0.7 1.3

5 12 8 11 4 6

? ? ?
?

?
? ?

?

符号秩和统计量

W ? ? 10 ? 7 ? 9 ? 12 ? 8 ? 11? 4 ? 6 ? 67
原假设与备择假设为

H0 :? ? 0

H1 : ? ? 0

我们在 W 较大或者较小的时候拒绝原假设 由于 2 P(W ? ? 65) ? 0.05 而检测值 W
?

?

? 67

既有 2P(W ? ? 67) ? 2P(W ? ? 65) ? 0.05 故检测值落入拒绝域 所以拒绝原假设 H 0 ,接受备择假设 H1 即认为两种生产方法有差异,方法 1 不如方法 2,方法 1 需要更多的时间。 例:7.6.9 9 名学生到英语培训学*,培训前后各进行了一次水*测验,成绩 如下:
学生编号 i 入学前成 绩 xi 入学后成 绩

1 76 81 -5

2 71 85 -14

3 70 70 0

4 57 52 5

5 49 52 -3

6 69 63 6

7 65 83 -18

8 26 33 -7

9 59 62 -3

yi

zi ? xi ? yi

(1)假设测验成绩服从正态分布,问学生的培训效果是否显著? (2)不假定总体分布,采用符号检验的方法检验学生的培训效果是否显著? (3)采用符号秩和检验方法检验学生的培训效果是否显著,三种检验方法结论 是否相同? 解:(1)由于测验成绩符合正态分布,而 ? 未知,所以我们采用 T ? 检验
2

原假设与备择假设为:

H0 : ?z ? 0

H1 : ? z ? 0

由于 ? z 未知,所以我们选取统计量
2

T?

z Sz n

~ t (n ? 1)
n ? 9, t0.95 (8) ? 1.8595 ,

显著性水* ? ? 0.05,

}. 左侧拒绝域为 W ? {t ? ?1.8595
而检测值 T ?

z Sz n

?

? 4.3333 ? ?1.6378?W 7.9373 9

另一方面也可以用 P-值也可判断检测值不在拒绝域。

} ? 0.07 ? ? ? 0.05 . 检验的 P 值 p ? P{T ? ?1.6378
故检测值 T ? ?1.6378?W . 故接受 H 0 ,拒绝 H1 ,即认为培训效果不明显。

(2)原假设与备择假设为:

H 0 : z0.5 ? 0

H1 : z0.5 ? 0

选取符号检验统计量:

S ? ? ui ,
? i ?1

n

?1 zi ? 0 ui ? ? ?0 其它
n ? 9,



S ? ~ b(n,0.5)

这里显著性水* ? ? 0.05, 查表得

?C
k ?0

1

k 9

0.5 0.5

k

9?k

? 0.0195? 0.05 ? ? C9k 0.5k 0.59?k ? 0.0898
k ?0

2

? 所以左侧拒绝域为 W ? {S ? 1}
? 而检测值 S ? 2 ? W .

另一方面也可以用 P-值也可判断检测值不在拒绝域。
? 检验的 P 值 p ? P{S ? 2} ? 0.0898? ? ? 0.05 .

? 故检测值 S ? 2 ? W .

故接受 H 0 ,拒绝 H1 ,即认为培训效果不明显。

(3)原假设与备择假设为:

H0 :? ? 0
?

H1 : ? ? 0
n

?1 zi ? 0 W ? u R , 其中 u ? ? 选取统计量 . ? i i i i ?1 ?0 其他
这里显著性水* ? ? 0.05,

n ? 9 , 查表计算得:

? ? 满足 P(W ? C0.05 ) ? 0.05 ,右侧临界点为 37,由于 W 密度的对称中心为

n(n ? 1) 9(9 ? 1) n(n ? 1) ? 37 ? ? 37 ? 8 ,所以左侧临界点为 2 2 4
? 左侧拒绝域为 W ? {W ? 8} .

而检测值 W ? ? ui Ri ? 4.5 ? 6 ? 10.5 ?W
? i ?1

n

故接受 H 0 ,拒绝 H1 ,即认为培训效果不明显.

7.6.10 为了比较来做鞋子的两种材料的质量, 选取 15 个男子, 每人穿一双新鞋, 其中一只是以材料 A 做后跟,另外一只是以材料 B 做后跟,其厚度均为 10mm, 过一个月再测量厚度,数据如下:
序号

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

材料 A 材料 B

6.6 7.0 8.3 8.2 5.2 9.3 7.9 8.5 7.8 7.5 6.1 8.9 6.1 9.4 9.1 7.4 5.4 8.8 8.0 6.8 9.1 6.3 7.5 7.0 6.5 4.4 7.7 4.2 9.4 9.1

问是否可以认为材料 A 制成的鞋子比材料 B 耐穿? (1)设 di ? xi ? yi (i ? 1,2,?,15) 来自正态总体,结论是什么? (2)采用符号秩和检验,结论是什么? 解:(1)由于 d i 符合正态分布,而 ? 未知,所以我们采用 T ? 检验
2

原假设与备择假设为:

H 0 : ?d ? 0
2

H1 : ?d ? 0

由于 ? z 未知,所以我们选取统计量

T?

D Sd n

~ t (n ? 1)
n ? 15, t0.95 (14) ? 1.7613 ,

显著性水* ? ? 0.05,

}. 右侧拒绝域为 W ? {t ? 1.7613
而检测值 T ?

D Sd n

?

0.5533 ? 2.0959?W 1.0225 15

另一方面也可以用 P-值也可判断检测值在拒绝域。

} ? 0.0274? ? ? 0.05. 检验的 P 值 p ? P{T ? 2.0959
故检测值 T ? 2.0959?W . 故拒绝 H 0 ,接受 H1 ,即认为材料 A 制成的鞋后跟比材料 B 耐穿。

(2)原假设与备择假设为:

H0 :? ? 0
?

H1 : ? ? 0
n

?1 di ? 0 选取统计量 W ? ? ui Ri , 其中ui ? ? . i ?1 ?0 其他
这里显著性水* ? ? 0.05,

n ? 15, 查表计算得:

? 满足 P(W ? C0.05 ) ? 0.05 ,右侧临界点为 90。

? 右侧拒绝域为 W ? {W ? 90} .而检测值

W ? ? ui Ri ? R2 ? R4 ? R6 ? R7 ? R8 ? R9 ? R10 ? R11 ? R12 ? R13
? i ?1

n

? 12 ? 3.5 ? 3.5 ? 12 ? 8.5 ? 6.5 ? 8.5 ? 14 ? 10 ? 15 ? 93.5 ?W
故拒绝 H 0 ,接受 H1 ,即认为材料 A 制成的鞋后跟比材料 B 耐穿。

7.6.11 某饮料商用两种不同的配方推出两种新的饮料,现在调查 10 位消费者, 他们对两种饮料的评分如下:
品尝者

1 10 6

2 8 5

3 6 2

4 8 2

5 7 4

6 5 6

7 1 4

8 3 5

9 9 7

10 7 8

A 饮料 B 饮料

问两种饮料评分是否有显著性差异? (1)采用符号检验法作检验; (2)采用符号秩和检验法作检验. 解:(1)解:原假设与备择假设为:

H0 : d0.5 ? 0
?1 ui ? ? ?0
选取统计量 S ?
?

H1 : d0.5 ? 0
xi ? yi ? 0 其他

?u
i ?1

n

i

S ? 即为更喜欢 A 饮料的人数,若原假设成立,则

S ? ~ b(10,0.5)
计算得:

?C
k ?9 1

10

k 10

0.5 0.5 0.5 0.5
k

k

10 ? k

k ? 0.0107? 0.025 ? ? C10 0.5k 0.510?k ? 0.0547 k ?8 2

10

?C
k ?0

k 10

10 ? k

k ? 0.0107? 0.025 ? ? C10 0.5k 0.510?k ? 0.0547 k ?0

所以双侧拒绝域为: W

? {S ? ? 1或S ? ? 9}

? 检测值 S ? 5 ,检验的 P 值为

?10? i 10?i p ? 2 min{P(S ? 5), P(S ? 5)} ? 2? ? ?i ? ?0.5 0.5 ? 1.2460? ? ? 0.05 i ?0 ? ?
? ? 5

即检测值未落入拒绝域,故接受 H 0 ,拒绝 H1 。 即认为两种饮料的评分没有显著性差异。 (2)原假设与备择假设为:

H0 :? ? 0
?

H1 : ? ? 0
n

?1 xi ? yi ? 0 W ? u R , 其中 u ? ? 选取统计量 . ? i i i 其他 i ?1 ?0
这里显著性水* ? ? 0.05, n ? 10, 查表计算得:
? 满足 P(W ? C0.025 ) ? 0.025,右侧临界点为 47,则左侧临界点为

n(n ? 1) 10 ?11 ? 47 ? ? 47 ? 8 2 2
? ? 双侧拒绝域为 W ? {W ? 8或W ? 47} .而检测值

W ? ? ui Ri ? R1 ? R2 ? R3 ? R4 ? R5
? i ?1

10

? 8.5 ? 6 ? 8.5 ? 10 ? 6 ? 39 ?W
故接受 H 0 ,拒绝 H1 ,即认为两种饮料的评分没有显著性差异。

7.6.12 测试精神压力和没有精神压力的血压差别, 10 个志愿者进行了相应的实 验,数据如下(单位:毫米汞柱收缩压):
无精神压力时

107 127

108 119

122 123

119 113

116 125

118 132

121 121

111 131

114 116

108 124

有精神压力时

该数据是否表明有精神压力的情况下的血压是否有所增加? 解:采用符号秩和检验 原假设与备择假设为:

H0 :? ? 0

H1 : ? ? 0 其中 ? 为 di ? xi ? yi 总体密度函数的对称中心,

n ?1 xi ? yi ? 0 ? W ? ui Ri , 其中ui ? ? 选取统计量 . ? 其他 i ?1 ?0

这里显著性水* ? ? 0.05, n ? 10, 查表计算得:
? 满足 P(W ? C0.05 ) ? 0.05 ,右侧临界点为 45,则左侧临界点为

n(n ? 1) 10 ?11 ? 45 ? ? 45 ? 10 2 2
? 左侧拒绝域为 W ? {W ? 10} .而检测值

W ? ? ui Ri ? R4 ? 4 ?W
? i ?1

10

故拒绝 H 0 ,接受 H1 ,即认为有精神压力导致血压增加。

§4.3 符号秩和检验统计量 W ? 的渐*正态性 (1)期望与方差 在总体 X 的分布关于原点 o 对称时, u1 , u2 ,?un 相互独立,每一个 ui 的分布
1 都是 P(ui ? 0) ? P(ui ? 1) ? , i ? 1,2,? n. 。而 S ? 2

? iu
i ?1

n

i

,则它的期望与方差分别为:

E (S ) ?

1 n n(n ? 1) i? ? 2 i ?1 4
2

1 n n(n ? 1)(2n ? 1) D(S ) ? ? i ? . 4 i ?1 24
由于 W ? 与 S 有相同的分布,所以

E (W ? ) ?
D (W ? ) ?
(2)渐*正态性

n(n ? 1) 4
n(n ? 1)( 2n ? 1) . 24

性质 4.5 如果总体关于原点对称,则在样本容量 n 趋于无穷大时, W ? 有渐* 正态性:

W ? ? E (W ? ) D(W ? )

W ? ? n(n ? 1) 4 L ? ? ?? N (0,1). n(n ? 1)( 2n ? 1) 24

? 或者简记为 W ~ N ?n(n ? 1) 4 , n(n ? 1)(2n ? 1) 24? .

§4.4

*均秩法

*均秩的基本定义:即对于相同的样本取*均秩。 每个元素赋予*均秩为:

(r ? 1) ? (r ? 2) ? ? ? (r ? ? )

?

? r ? (r ? 1) 2

*均时的秩和与*方和为

[r ? (? ? 1) 2] ? [r ? (? ? 1) 2] ? ?? [r ? (? ? 1) 2] ? ? [r ? (? ? 1) 2], (4.8)

[r ? (? ? 1) 2]2 ? [r ? (? ? 1) 2]2 ? ?? [r ? (? ? 1) 2]2 ? ? [r ? (? ? 1) 2]2 , (4.9)
非*均的时候秩和与*方和为

(r ? 1) ? (r ? 2) ? ?? (r ? ? ) ? ? [r ? (? ? 1) 2], (4.10)

(r ? 1)2 ? (r ? 2)2 ? ?? (r ? ? )2 ? ?r 2 ? r? (? ? 1) ? ? (? ? 1)(2? ? 1) 6 , (4.11)
(4.8)与(4.10)结果一样。 由(4.11) 减去(4.9)得到

? [r ? (? ? 1) 2]2 ? (r ? 1)2 ? (r ? 2)2 ? ?? (r ? ? )2 ? (? 3 ?? ) 12, (4.12)
于是由(4.11)与(4.12)得:

? a(i) ?1 ? 2 ? ? ? n ?
i ?1
n

n

n(n ? 1) , (4.13) 2
2 g

?a
i ?1

2

(i ) ?1 ? 2 ? ? ? n ? ?
2 2 j ?1

(? 3 j ?? j ) 12

3 n(n ? 1)(2n ? 1) g (? j ? ? j ) ? ?? , (4.14) 6 12 j ?1

性质 4.6 在总体的分布关于原点 o 对称,有结秩取*均时,

E (W ? ) ?

n(n ? 1) , 4

(4.15)

3 n(n ? 1)(2n ? 1) g (? j ? ? j ) D(W ) ? ?? , (4.16) 24 48 j ?1 ?

在有结的情况下,如果总体关于原点对称,则在样本容量 n 趋于无穷大时,W ? 有渐*正态性:
g ? ? 3 ? W ~ N? n ( n ? 1 ) 4 , n ( n ? 1 )( 2 n ? 1 ) 24 ? ( ? ? ? ) 48 ? j j ? ? j ?1 ? ? ?

严格上以上期望与方差是在有结的情况下的计算结果,所以严格书写应该按照 以下方式:

E (W ? ? 1 ,? 2 , ?,? g ) ?
?

n(n ? 1) , 4

(4.15)

3 n(n ? 1)(2n ? 1) g (? j ? ? j ) D(W ? 1 ,? 2 ,?,? g ) ? ?? , (4.16) 24 48 j ?1

§4.5 对称中心的检验问题 有以下几种情形: 原假设与备择假设为

H 0 : ? ? ?0 H 0 : ? ? ?0 H 0 : ? ? ?0

H1 : ? ? ?0 H1 : ? ? ?0 H1 : ? ? ?0

例 4.5: 通常认为人在放松条件下入睡的时间比紧张状态下的入睡时间要少两分 钟,现在有十名男性,他们在放松下与紧张状态下的入睡时间分别为 xi与yi ,

di ? xi ? yi ,表 4.10 显示 10 个差值 8 个小与-2,只有 2 个不小于-2,所以我们
有理由猜测放松状态下比非放松状态下入睡时间要少 2 分钟,这个猜测是否正 确?

表 4.10 成年人在放松的条件下和没有放松的条件下入睡所需的时间
研究对象 i 放松条件 非放松条件 差值 差值+2 绝对值 秩

xi

yi

di ? xi ? yi

ci ? di ? 2

ci

Ri

1 2 3 4 5 6 7 8 9 10

10 9 12 8 9 7 8 7 11 6

15 12 22 15 10 7 16 10 14 9
10

-5 -3 -10 -7 -1 0 -6 -3 -3 -3

-3 -1 -8 -5 1 2 -4 -1 -1 -1

3 1 8 5 1 2 4 1 1 1

7 3 10 9 3 6 8 3 3 3

? 符号秩和检测值为 W ? ? ui Ri ? 3 ? 6 ? 9, i ?1

?1 ci ? 0 ui ? ? ?0 其他

原假设与备择假设为

H0 : ? ? ?2

H1 : ? ? ?2

? 左侧拒绝域为 W ? {W ? 10} .而检测值

W ? ? ui Ri ? 3 ? 6 ? 9 ?W
? i ?1

10

故拒绝 H 0 ,接受 H1 ,即认为成年男性在放松条件下入睡的时间比紧张状态下入 睡时间要少于 2 分钟。

由于样本容量 n 足够大的时候,W ? 有渐*正态性,所以也可以用正态分布作检 测。 原假设与备择假设为

H0 : ? ? ?2

H1 : ? ? ?2
?

g ? ? 3 ? 在 H 0 为真的时, W ~ N ? n(n ? 1) 4 , n(n ? 1)(2n ? 1) 24 ? ? (? j ? ? j ) 48? ? j ?1 ? ?
? 即 W ~ N ?27.5,93.75?

检测值为: W ? ? ui Ri ? 3 ? 6 ? 9
? i ?1

10

? 检测 p 值为 P(W ? 9) ? ?(9.5 ? 27.5

93.75) ? 0.031511

所以在显著性水*为 0.05 下,检测值落入拒绝域 故拒绝 H 0 ,接受 H1 ,即认为成年男性在放松条件下入睡的时间比紧张状态下入 睡时间要少于 2 分钟。

第五章 两样本问题
§5.1 Mood 中位数检验法 例 2 哪一个企业职工的工资高? 表 1.3 两个企业职工的工资 企业 1 企业 2 11 12 13 14 15 16 17 18 19 20 40 60 3 4 5 6 7 8 9 10 30 50

他们的合样本为

?3?, ?4?, ?5?, ?6?, ?7?, ?8?, ?9?, ?10?,11,12,13,14,15,16,17,18.19,20 ?30?,40, ?50?,60,
其中带 [ ] 表示企业 2 的职工的工资,其他的为企业 1 的工资,合样本的中位数 为 13.5,将以上数据转化为四表格 表 5.1 四格表
工资<13.5 千元 企业 1 企业 2 合计 工资>13.5 千元 合计

N11 ? 3
N 21 ? 8

N12 ? 9 N 22 ? 2

N1? ? 12
N 2? ? 10
N11 ? 3

N ?1 ? 11

N ? 2 ? 11

? 11 ?? 11 ? ? ?N ? ?? ?N ? ? 11 ?? 12 ? ? P?N11 ,12,11,22? ? ,这说明 ? 22? ? ? 12 ? ? ? ?

N11 服从超几何分布

? M ?? N ? M ? ? ?k ? ?? ? n?k ? ? ? ? ? ? , k ? 0,1,2,?, r , P( X ? k ) ? ?N? ? ?n? ? ? ? E( X ) ? n M N

r ? min{M , n}

设总体的 X和Y 的中位数分别为 mex和mey 原假设与备择假设为

H0 : mex ? mey

H1 : mex ? mey

在 H 0 成立的情况下, N11 服从超几何分布 h( N11 ,12,11,22) 这是一个单侧检验问题,拒绝域在左边. 检测值为 N11 ? 3 ,检测 P 值为

P( N11 ? 3) ? P( N11 ? 1) ? P( N11 ? 2) ? P( N11 ? 3) ? 1.7 ?10?5 ? 0.000936 ? 0.014034? 0.014987? ? ? 0.05
所以检测值 N11 ? 3 落入拒绝域, 故拒绝 H 0 ,接受 H1 ,即认为企业 1 的职工比企业 2 的职工的工资要高。

§5.2 Wilcoxon 秩和检验法 设有独立同分布的样本 x1 , x2 ,?, xN ,不妨设总体是连续的随机变量,从而可 以以概率为 1 保证样本单元 x1 , x2 ,?, xN 互不相等,则单个的秩

Ri (i ? 1,2,?, N ) 服从均匀分布:
P( Ri ? r ) ? 1 , r ? 1,2,?, N , N

由以上结论,我们可以得出

定理 5.1 对任意的 i ? 1,2,?, N , 都有

( N ? 1) , 2 ( N 2 ? 1) D( Ri ) ? . 12 E ( Ri ) ?
证明:对于任意的 i ? 1,2,?, N , ,都有

1 N ( N ? 1) E ( Ri ) ? ? rP( Ri ? r ) ? ? r ? , N r ?1 2 r ?1
N

E ( Ri ) ? ? r 2 P( Ri ? r ) ?
2 r ?1

N

1 N 2 ( N ? 1)(2 N ? 1) . ?r ? N r ?1 6
2

( N ? 1)(2 N ? 1) ? N ? 1 ? D( Ri ) ? E ( R ) ? ( E ( Ri )) ? ?? ? 6 ? 2 ?
2 i 2

N 2 ?1 ? . 12

定理 5.2 对于任意的 1 ? i ? j ? N ,都有

Cov( Ri , R j ) ? ?

( N ? 1) . 12

证明:对于任意的 1 ? i ? j ? N ,都有

E ( Ri R j ) ?

r1 ? r2

? r r P( R
1 2

i

? r1 , R j ? r2 ) ?

r1 ? r2

? N ( N ?1) .
2

r1r2

? ? ? N ( N ? 1) ? N ( N ? 1)(2 N ? 1) r1r2 ? ? ? r ? ? ? r 2 ? ? ? ? ? 2 6 ? ? r1 ? r2 r ? r ? N ( N ? 1)(3N ? 2)(N ? 1) ? , 12
于是 E ( Ri R j ) ? 所以
r1 ? r2

2

? N ( N ?1) ?

r1r2

( N ? 1)(3N ? 2) . 12

Cov( Ri , R j ) ? E ( Ri R j ) ? E ( Ri ) E ( R j ) ( N ? 1)(3N ? 2) ? N ? 1 ? ? ?? ? 12 ? 2 ? ( N ? 1) ?? . 12
5.22 Wilcoxon 秩和检验的求解过程 例 1.2 将两个企业 22 名职工合在一起,从小到大排序得到下表:
工资 秩 工资 秩
2

[3]
1

[ 4]
2

[5]
3

[ 6]
4

[7 ]
5

[8]
6

[9]
7

[10]
8

11
9

12
10

13
11

14
12

15
13

16
14

17
15

18
16

19
17

20
18

[30]
19

40
20

[50]
21

60
22

带 [ ] 表示企业 2 的工资,不带 [ ] 表示企业 1 的工资. 考虑到人数多的检验效果一样,所以一般我们选择人数少的企业的秩和作检验。 设公司 1 与公司 2 的中位数分别为 mex和mey 原假设与备择假设为

H0 : mex ? mey

H1 : mey ? mex

选取统计量 W2 ,这里 W2 代表公司 2 的员工工资的秩和。

W2 ? 1 ? 2 ? 3 ? 4 ? 5 ? 6 ? 7 ? 8 ? 19 ? 21 ? 66
这是一个单侧检验问题,拒绝域在左边. 查表得: P(W2 ? 76) ? 0.005 所以检测 p 值

P(W2 ? 66) ? P(W2 ? 76) ? 0.005? ? ? 0.05
故检测值在拒绝域,所以拒绝原假设 H 0 ,接受备择假设 H1 , 即认为企业 2 的工资比企业 1 要低.

§5.3 Wilcoxon 秩和检验统计量的性质 假设样本 x1 , x2 ,?, xm 和 y1 , y2 ,?, yn 分别来自相互独立的连续随机变量总体

X和 Y ,不妨设合样本 x1 , x2 ,?, xm , y1 , y2 ,?, yn
各元素互不相同,样本容量为 m ? n ,原假设 H 0 : X和Y同分布 . 记 y j ( j ? 1,2,?, n) 在合样本中的秩为 R j ( R j

? 1,2,?, N ) 。 在原假设 H 0 为真

的条件下, ( R1 , R2 ,? Rn ) 服从均匀分布:所以

P( R1 ? r1 , R2 ? r2 ,? Rn ? rn ) ?
记 Y 的样本 y1 , y2 ,?, yn 的秩和为

1 , N ( N ? 1) ?( N ? n ? 1)

Wy ? ? R j
j ?1

n

下面讨论 Wilcoxon 秩和统计量的分布性质

n(n ? 1) n(n ? 1) n(n ? 1) n(n ? 1) , ? 1 , ? 2 , ? ? mn 它依次取 2 2 2 2
由于 ( R1 , R2 ,? Rn ) 服从均匀分布:所以 Wy 具有以下性质 性质 5.1 设原假设 H 0 : X和Y同分布 成立, Wy 的概率分布和累积概率分别为

P(Wy ? d ) ? P(? Ri ? d ) ?
i ?1

n

t m,n (d ) ?N? ? ?n? ? ? ?

?N? ? ?n? ? ? ? n(n ? 1) n(n ? 1) n(n ? 1) n(n ? 1) d? , ? 1, ? 2, ? ? mn , 2 2 2 2 tm,n (d ) 为从 1,2,?, m ? n 取 n 数,其和恰好为 d 的取法数。
i ?1

P(Wy ? d ) ? P(? Ri ? d ) ?

n

?t
i?d

m,n

(i)

从 1,2, ? ,22 中任取 10 个数,其和恰好为 d 的取法

1 ? 2 ? ? ? 10 ? 55


t12,10 (55) ? 1

1 ? 2 ? ? ? 9 ? 11 ? 56
故 t12,10 (56) ? 1

1 ? 2 ? ?8 ? 10 ? 11 ? 57 1 ? 2 ? ? ? 9 ? 12 ? 57
故 t12,10 (57) ? 2

1 ? 2 ? ?7 ? 9 ? 10 ? 11 ? 58
1 ? 2 ? ?8 ? 10 ? 12 ? 58 1 ? 2 ? ? ? 9 ? 13 ? 58
故 t12,10 (58) ? 3

1 ? 2 ? ? ? 6 ? 8 ? 9 ? 10 ? 11 ? 59 1 ? 2 ? ? ? 6 ? 7 ? 9 ? 10 ? 12 ? 59 1 ? 2 ? ? ? 6 ? 7 ? 8 ? 11 ? 12 ? 59 1 ? 2 ? ? ? 6 ? 7 ? 8 ? 10 ? 13 ? 59 1 ? 2 ? ? ? 6 ? 7 ? 8 ? 9 ? 14 ? 59
故 t12,10 (59) ? 5 (2)对称性 假设从 1,2, ?, N 中取出 n 个数 a1 , a2 ,?, an ,其和为 d,则剩下的数,其和为

n( N ? 1) ? d ,故和为 d 的取法数与和为 n( N ? 1) ? d 的取法数一样多。

从而

P(Wy ? d ) ? P(Wy ? n( N ? 1) ? d ) P(Wy ? d ) ? P(Wy ? n( N ? 1) ? d )

d?

n(n ? 1) n(n ? 1) n(n ? 1) , ? 1, ? ? mn. 2 2 2
n( N ? 1) . 2

故 Wy 概率密度的对称轴为 从而有

P(Wy ?

n( N ? 1) n( N ? 1) ? d ) ? P(Wy ? ? d) 2 2 n( N ? 1) n( N ? 1) P(Wy ? ? d ) ? P(Wy ? ? d) 2 2

d ? 0,1,2,?

nm . 2
n( N ? 1) . 2

性质 5.2 在原假设 H 0 为真的条件下, Wy 概率密度的对称轴为 由定理 5.1 和 5.2 知

E (Wy ) ? E (? Ri ) ? nE( Ri ) ? n
i ?1

n

N ? 1 n( N ? 1) ? 2 2

D(Wy ) ? D(? Ri ) ? ? D( Ri ) ? 2
i ?1 i ?1

n

n

1?i ? j ? n

? Cov( R , R )
i j

? nD( Ri ) ? n(n ? 1)Cov( R1 , R2 ) N 2 ?1 ? ( N ? 1) ?n ? n(n ? 1) 12 12 n( N ? 1)(N ? n) nm( N ? 1) ? ? . 12 12
由于在原假设 H 0 为真的条件下,当 n, m ? ? 时, Wy 有渐进正态性.

由以上分析,有以下结论. 性质 5.4 在原假设 H 0 为真的条件下,当 n, m ? ? 时,有
Wy ? E (Wy ) D(Wy ) ? Wy ? n( N ? 1) 2 mn ( N ? 1) 2 ~ N (0,1)

§5.2.4 Wilcoxon 秩和检验的备择假设 原假设与备择假设为

1 2 1 H 0 : X和Y同分布 H1 : P( X ? Y ) ? 2 1 H 0 : X和Y同分布 H1 : P( X ? Y ) ? 2 1 H : P ( X ? Y ) ? W 在 1 2 成立的条件下, y 的值较小. 1 H : P ( X ? Y ) ? W 在 1 2 成立的条件下, y 的值较大. 1 H : P ( X ? Y ) ? W 在 1 2 成立的条件下, y 的值可能较小也可能较大. H 0 : X和Y同分布 H1 : P( X ? Y ) ?
§5.2.5 Wilcoxon 秩和检验的*均秩法 对于任意的记分函数,我们有

a( Ri ) ,则 定理 5.6 设有独立的随机变量 x1 , x2 ,?, xN , xi的得分定义为
对于任意的 1 ? i ? j ? N ,都有

E(a( Ri )) ? a

1 N D(a( Ri )) ? ? (a(i) ? a) N i ?1

2

N 1 Cov(a( Ri ), a(a j )) ? ? ? (a(i) ? a) N ( N ? 1) i ?1

2

证明:

Cov(a( Ri ), a( R j )) ? E (a( Ri )a( R j )) ? E (a( Ri ))E (a( R j )) ?
2 1 a ( i ) a ( j ) ? a ? N ( N ? 1) i ? j

??
2

N ? N ? ai a j ? ? ? ai ? ? ? ai2 ? i? j ? i ?1 ? i ?1



? ( N a ) ? ? ai2
2 i ?1

N



Cov(a( Ri ), a( R j )) ? E (a( Ri )a( R j )) ? E (a( Ri ))E (a( R j ))
N 2 1 1 ?( ? 1)a ? a 2 (i ) ? N ?1 N ( N ? 1) i ?1 N 1 ?? ? (a(i) ? a) N ( N ? 1) i ?1 2

定理 5.7 设样本 x1 , x2 ,?, xm 和 y1 , y2 ,?, yn 分别来自相互独立的连续型随机变 量总体 X 和 Y .令 N ? m ? n ,记 y j ( j ? 1,2,?, n) 在合样本中的秩为

R j ( R j ? 1,2,?, N ) 设有计分函数 a(r )(r ? 1,2,?, N ) ,则在 X 和 Y 同分布时,有

E (? a( Ri )) ? na
i ?1

n

N nm D(? a( Ri )) ? (a(i) ? a) ? N ( N ? 1 ) i ?1 i ?1
n n

n

2

利用 D(

? a( R )) ? ? D(a( R )) ? n(n ?1)Cov(a(R ), a(R )) 证明。
i ?1 i i ?1 i 1 2

D(? a( Ri )) ? ? D(a( Ri )) ? n(n ? 1)Cov(a( R1 ), a( R2 ))
i ?1 i ?1

n

n

n ? N

n(n ? 1) N (a(i ) ? a) ? (a(i ) ? a) 2 ? ? N ( N ? 1) i ?1 i ?1
N 2

nm N ? (a(i ) ? a) 2 ? N i ?1
针对有结的情况下,在 a( Ri ) ? Ri 下,由(4.13)(4.14)
N

1 a? N
N

? a(i) ?
i ?1

N ?1 2
N 2

? (a(i) ? a) ? ? a 2 (i) ? N a
i ?1 i ?1

2

2 3 N ( N ? 1)(2 N ? 1) g (? j ? ? j ) ? N ?1? ? ?? ? N? ? 6 12 2 ? ? j ?1 3 N ( N ? 1)(N ? 1) g (? j ? ? j ) ? ?? . 12 12 j ?1

于是

E (a( Ri )) ? a ?

N ?1 2

(5.4)

1 N D(a( Ri )) ? ? (a(i) ? a) 2 N i ?1
3 N 2 ? 1 g (? j ? ? j ) ? ?? 12 12N j ?1
N 1 Cov(a( Ri ), a( R j )) ? ? (a(i ) ? a) 2 ? N ( N ? 1) i ?1 3 N ? 1 g (? j ? ? j ) ?? ?? 12 j ?1 12N ( N ? 1)

(5.5)

(5.6)

在有结的情况下,wilcoxon 秩和检验统计量 Wy 的期望与方差分别为 由以上结论,有

Wy ? ? a( Ri )
i ?1

n

E (Wy ) ? na ? n

N ? 1 n( N ? 1) ? 2 2

N nm D(Wy ) ? (a(i) ? a) 2 ? N ( N ? 1) i ?1 g nm( N ? 1) nm ? ? (? 3 ? j ?? j ) 12 12N ( N ? 1) j ?1

Wy ~ N ( E (Wy ), D(Wy ) )

例 5.2.5 为了比较两种型号的汽车每加*偷男惺焕锍蹋涎局械闹燃 如下:

第一种型号汽油
汽车 行驶里程(英里) 秩序

第二种型号汽油
汽车 行驶里程(英里) 秩序

1 2 3 4 5 6 7 8 9 10 11 12

20.6 19.9 18.6 18.9 18.8 20.2 21.0 20.5 19.8 19.8 19.2 20.5

21 16 8 11 9.5 18 22 19.5 14.5 14.5 12 19.5

1 2 3 4 5 6 7 8 9 10 11 12

21.3 17.6 17.4 18.5 19.7 21.1 17.3 18.8 17.8 16.9 18.0 20.1

24 4 3 7 13 23 2 9.5 5 1 6 17

解;原假设与备择假设为

H 0 : X和Y同分布
选取统计量 W1 ?
12 i

H1 : P( X ? Y ) ?
12 i

1 2

? a( R ) ? ? R
i ?1 i ?1

,299.61) 则 W1 ~ N (E(W1 ), D(W1 ) ) ? N (150
检测值 W1 ?

?R
i ?1

12

i

? 185.5

这是一个双侧检验问题,拒绝域在两侧 检测 P 值

2P(W1 ? 185.5) ? 0.04 ? ? ? 0.05
故检测值落入拒绝域,所以拒绝原假设 H 0 ,接受备择假设 H1 , 即对于每加*推敌惺坏睦锍淌幌嗤胰衔杂诿考勇*停谝 种汽油行驶的里程数大。

§5.2.5 Wilcoxon 秩和处理位置参数差的检验问题 原假设与备择假设为

H0 : a ? ? H0 : a ? ? H0 : a ? ?

H1 : a ? ? H1 : a ? ? H1 : a ? ?

原假设与备择假设为

H0 : mex ? mey ? ? H0 : mex ? mey ? ? H0 : mex ? mey ? ?

H1 : mex ? mey ? ? H1 : mex ? mey ? ? H1 : mex ? mey ? ?

以上检测均可用 Wilcoxon 秩和处理. 注明:课本 74-77 的 Mann-Whitney U 统计量检验法与 Wilcoxon 检验法类似, 因为两种检测统计量只相差一个常数,故检测模式类似,这里就不做详细介绍.

§5.4 两样本尺度参数的秩检验法 设 X和Y 的分布函数分别为 F ( x)和G( y) , 则 G( y) ? F ( y b) ,成立的充分必要条件 证明:充分性证明.由 bX ? Y 知,对于任意的 y 都有
d

G( y) ? P(Y ? y) ? P(bX ? y) ? P( X ? y b) ? F ( y b)
必要性的证明.若对任意 y 都有 G( y) ? F ( y b) ,则由于 bX 的分布函数

P(bX ? x) ? P( X ? x b) ? F ( x b) ? G( x) ? P(Y ? x)
所以 bX ? Y . 当 b ? 1时
d

G ( x) F ( x)

c P(Y ? c) ? P(bX ? c) ? P( X ? ) ? P( X ? c), c ? 0 b c P(Y ? c) ? P(bX ? c) ? P( X ? ) ? P( X ? c), c ? 0 b

即 P(Y ? c) ? P( X ? c), c ? 0

P(Y ? c) ? P( X ? c), c ? 0 即 P(Y ? c) ? P( X ? c), c ? 0
由以上式子知: Y 在左右两边的尾部概率比 X 要大. 即样本 y1 , y2 ,?, yn 倾向于排两边,样本 x1 , x2 ,?, xm 倾向于排中间。 类似的 当 0 ? b ? 1 时,

c P(Y ? c) ? P(bX ? c) ? P( X ? ) ? P( X ? c), c ? 0 b c P(Y ? c) ? P(bX ? c) ? P( X ? ) ? P( X ? c), c ? 0 b
既有

P(Y ? c) ? P( X ? c), c ? 0 P(Y ? c) ? P( X ? c), c ? 0
由以上式子知: Y 在左右两边的尾部概率比 X 要小. 即样本 y1 , y2 ,?, yn 倾向于排中间,样本 x1 , x2 ,?, xm 倾向于排两边。 §5.4.2 尺度参数检验问题 (1)Mood 检验

N ?1? ? a ( r ) ? r ? ? ? , r ? 1,2,3,?, N a ( r ) 取计分函数 为单谷函数, 2 ? ?
(2)Ansari-Bradley 检验 取计分函数 a(r ) 为单峰函数, a(r ) ?

2

N ?1 N ?1 ? r? , r ? 1,2,3,?, N 2 2

r ? 1,2,?k , ? r a(r ) ? ? 即在 N ? 2 k 时, ? N ? 1 ? r r ? k ? 1, k ? 2,?, N ;

r ? 1,2,?k ? 1, ? r a( r ) ? ? 即在 N ? 2k ? 1 时, ? N ? 1 ? r r ? k ? 2, k ? 3,?, N ;
例如

N ? 8时

r
a(r )
N ?9

1 1

2 2

3 3

4 4

5 4

6 3

7 2

8 1

r
a(r )

1 1

2 2

3 3

4 4

5 5

6 4

7 3

8 2

9 1

记 Ar ? ? a( Ri )
i ?1

n

(3)siegel-Turkey 检验 取 a(r ) 为单谷函数,被减序列为 0 ,3, 4 7,8 例如 11,12 10,9 6.5 , 2,1

N ?9

r
a(r )

1 9
n

2 6

3 5

4 2

5 1

6 3

7 4

8 7

9 8

记 S y ? ? a( Ri )
i ?1

(4) Klotz 检验 取 a(r ) 为单谷函数 记 K y ? ? a( Ri )
i ?1 n

a(r ) ? ? ?1 (r N ? 1) , r ? 1,2,?, N .

?

?

2

表 5.14 尺度参数检验问题的解
原假设 H 0 被择假设 H1 何种情况拒绝原假设

b ?1
X和Y同分布

M y 比较大, Ay 比较小 S y 比较大, M y 比较大

b ?1

M y 比较小, Ay 比较大 S y 比较小, M y 比较小

b ?1

M y 比较大或比较小, Ay 比较大或比较小 S y 比较大或比较小, M y 比较大或比较小

尺度检验的引例:

尺度检验.ppt

第六章 多样本问题
§6.1 Kruskal-Waillis 检验 例 6.1 某公司的管理人员来自三所大学,年度评分如下: A 大学 84 72 75 95 72 90 75 B 大学 75 65 80 55 95 69 C 大学 58 78 80 62 65 72 42

表 6.3 各组秩的均值的计算 A 大学 17 9 12 19.5 9 18 12
R1? ? 96.5

B 大学 12 5.5 15.5 2 19.5 7

C 大学 3 14 15.5 4 5.5 9 1

R2? ? 61.5
R2 ? 10.25

R3? ? 52
R3 ? 7.43

R1 ? 13.79

设 X i 的分布函数 F ( x ? ? i ) 原假设与备择假设分别为

H0 : ?1 ? ?2 ? ? ? ?k ,
总的秩的均值为 组间*方和为
R?

H1 : ?1,?2 ,?,?k 不全相等
96 .5 ? 61 .5 ? 52 ? 10 .5 20

SSB ? ? ni ( Ri ? R)
i ?1

n

2

? 7(13.79 ? 10.5) 2 ? 6(10.25 ? 10.5) 2 ? 7(7.43 ? 10.5) 2 ? 142.118
引入统计量

H?

12 12 SSB ? ?142.118 ? 4.06 N ( N ? 1) 20? 21

由于 (n1 , n2 , n3 ) ? (7,6,7) 在 Kruskal-Waillis 检验临界值表中查不到,考虑到当
2 n 足够大的时候, H ~ ? (k ?1) ? ? (2) ,所以用 ? ? 检验

2

2

检验 P 值为 P( ? 2 (2) ? 4.06) ? 0.131336? 0.05 P 值很大,故检测值在正常的大概率区间,所以接受原假设,即认为三所大学人 员的管理水*无显著性差异。

§6.1.2 Kruskal-Wallis 检验 设样本各不相同。 原假设与备择假设分别为

H0 : ?1 ? ?2 ? ? ? ?k ,
总均值为

H1 : ?1,?2 ,?,?k 不全相等,我们用 ANOVA 方法处理

总偏差为

SST ? ?? ( Rij ? R) ? ?? R 2 ij ? N R
2 i ?1 j ?1 2 i ?1 j ?1 2 2 2 2

k

ni

k

ni

2

N ( N 2 ? 1) ? N ?1? ? 1 ? 2 ? 3 ??? N ? N? ? ? 12 ? 2 ?
组间*方和 SSB 与组内*方和 SSW 分别为

SSB ? ? ni ( Ri ? R) ? ? ni ( Ri ?
2 i ?1 i ?12

k

k

N ?1 2 ) 2

(6.1)

SSW ? ?? ( Rij ? Ri ) 2
i ?1 j ?1

k

ni

由于

N ( N 2 ? 1) SSW ? SST ? SSB ? ? SSB 12

所以只需计算组间差 SSB 。 选取统计量
k 12 12 N ?1 H? SSB ? n ( R ? ? i i 2 ) N ( N ? 1) N ( N ? 1) i ?1 k Ri2? N ( N ? 1) 2 12 ? [? ? ] N ( N ? 1) i ?1 ni 4 k Ri2? 12 ? ? ? 3( N ? 1),i ? 1,2?, k. N ( N ? 1) i ?1 ni 2

(6.2)

§6.1.3 Kruskal-wallis 检验统计量的渐进分布 由 5.3 知

E ( Ri ? ) ?

ni ( N ? 1) n ( N ? ni )( N ? 1) 与D( Ri ? ) ? i 2 12

于是 E ( R i ? ) ? 即 E ( Ri ? 所以

( N ? ni )(N ? 1) ( N ? 1) 与D( R i ) ? 2 12ni

( N ? ni )(N ? 1) N ?1 2 ) ? D( R i ) ? 2 12ni

E ( SSB) ? ? ni E ( Ri ?
i ?12

k

N ?1 2 ) 2

? ? ni
i ?1

k

( N ? ni )(N ? 1) N ? 1 k ? ? ( N ? ni ) 12ni 12 i ?1

?
E(H ) ?

N ( N ? 1)(k ? 1) . 12

12 12 N ( N ? 1)(k ? 1) E ( SSB) ? ? k ? 1. N ( N ? 1) N ( N ? 1) 12
ni ? ?i ? (0,1). 时 N

当 min{n1 , n2 , ?, nk } ? ?, 且

2 Kruskal-Waillis 统计量 H 渐进服从 ? (k ? 1) 。即

L H? ?? ? 2 (k ?1)

(6.3)

§6.1.4 有相等观察值时 Kruskal-wallis 检验统计量的修正

ni ( N ? 1) 2 g ni ( N ? ni )(N ? 1) D( Ri ? ) ? ? ni ( N ? ni )? (? i3 ? ? i ) /(12N ( N ? 1)) 12 i ?1 E ( Ri ? ) ?
E(Ri ) ? ( N ? 1) 2

g ( N ? ni )(N ? 1) D( Ri ) ? ? ( N ? ni )? (? i3 ? ? i ) /(12ni N ( N ? 1)) 12ni i ?1

D( Ri ) ? E ( Ri ?

N ?1 2 ) 2 g ( N ? ni )(N ? 1) ? ? ( N ? ni )? (? t3 ? ? t ) /(12ni N ( N ? 1)) 12ni t ?1

由 6.2 式
k 12 12 N ?1 E(H ) ? E ( SSB) ? ni E ( Ri ? ) ? N ( N ? 1) N ( N ? 1) i ?1 2 g ? ? ? ? (? i3 ? ? i ) ? ? ? (k ? 1)?1 ? i ?1 3 ? N ?N ? ? ? ? ? 2

所以 H 的修正 H ? 为:

H? ? 1?

H

? (?
t ?1

g

3 t

?? t )

N3 ? N

L H? ? ?? ? 2 (k ?1) .

在例 6.1 中 n1 ? 7, n2 ? 6, n3 ? 7, N ? n1 ? n2 ? n3 ? 20.

H ? 4.06 由于长度为 2 的结有 3 个,长度为 3 的结有 2 个。所以 H 的修正为
H? ? 1? H

? (?
t ?1

g

3 t

?? t )

=4.09

N3 ? N

检验 P 值为 2P( ? 2 (2) ? 4.09) ? 0.12938? 0.05 故不能拒绝原假设,所以认为三所大学的管理人员的水*无显著性差异。

§6.2 趋势的秩检验法 原假设与备择假设为

H0 : ?1 ? ?2 ? ??k H0 : ?1 ? ?2 ? ??k
单调升的理想状态是

H1 : ?1 ? ?2 ? ? ? ?k . H1 : ?1 ? ?2 ? ? ? ?k .

x11 ? x12 ? ? ? x1n1 ? x21 ? x22 ? ? ? x2n2 ? ? ? xk1 ? xk 2 ? ? ? xknk .
在理想的状态下 Rij ? ri ,其中
i ?1

ri ? ? nt ?
t ?1

ni ? 1 , i ? 1,2,?, k , j ? 1,2,?, ni . 2

若正相关,则数据有上升的趋势。若负相关,则数据有下降的趋势。 为此计算下列数据对

? Rk1 ? ? Rknk ? ? R11 ? ? R1n1 ? ? ? ? ? ? ? ? , ? , , ? , , ? , ? r ? ? r ? ?r ? ? r ? ?. ? 1 ? ? 1 ? ? k ? ? k ?

相关系数为

r?

?? ( R
i ?1 j ?1

k

ni

ij

? R )(ri ? r )
2

?? ( R
i ?1 j ?1

k

ni

ij

? R)

?? (r ? r )
i ?1 j ?1 i

k

ni

2

其中 R ? ??
i? j ?1

k

ni

Rij N

?

N ?1 2
2

N ( N 2 ? 1) ( Rij ? R) ? ?? 12 i ? j ?1
k ni

由(4.13)(4.14)

r ? ??
i ?1 j ?1
ni k

k

ni

ri N ? 1 ? , N 2
2 k ni 2

?? (r ? r ) ? ?? r
i? j ?1 i i ?1 j ?1

i

? Nr

2

N ( N ? 1)(2 N ? 1) k ni3 ? ni N ( N ? 1) 2 ? ?? ? 6 12 4 i ?1 N ( N 2 ? 1) k ni3 ? ni ? ?? . 12 12 i ?1
N ( N ? 1) 2 Rij ri ? ?? 4 i ?1 j ?1
k ni

r?

N ( N 2 ? 1) N ( N 2 ? 1) k ni3 ? ni ?? 12 12 12 i ?1

.

只需要选取统计量
k ni

?? R r
i ?1 j ?1

k

ni

ij i

由于

?? R r
i ?1 j ?1

ij i

由于
i 1 k Rij ri ? ? (2? ni ? ni ? 1) Ri ? ?? 2 i ?1 t ?1 i ?1 j ?1 i 1 k N ( N ? 1) ? ? (2? ni ? ni ) Ri ? ? 2 i ?1 t ?1 4 k ni

所以我们选取趋势统计量

T ? ? wi Ri ? , 其中 wi ? 2? ni ? ni , i ? 1,2,?, k.
i?
t ?1

k

i

(6.4)

在原假设为真的条件下,易证

N 2 ( N ? 1) E (T ) ? 2

(6.5) (6.6)

N ( N ? 1) k D(T ) ? [? ni wi2 ?N 3 ]. 12 i ?1
有重复观察值得修正为

g k 1 2 3 D(T ) ? ((N ( N ? 1) ? ? (? t ? ? t ))(? ni wi2 ?N 3 ). (6.7) 12( N ? 1) t ?1 i ?1

当样本数量足够大时, T ~ 正态分布. 例 6.2 表 6.4 不同年龄组的男性的 ? 脂蛋白的含量 第一组 260 200 240 170 270 第二组 310 310 190 225 170 第三组 320 260 360 310 270 第一组 205 190 200 250 200 第二组 210 280 210 280 240 第三组 380 240 295 260 250

表 6.5 不同年龄组的男性的 ? 脂蛋白的含量的秩
第一组 第二组 第三组

1.5

3.5

6

6

6

8

14 23.5

16.5 23.5 27

19 27 29

21.5 27 30

R1? ? 102
R2? ? 150.5

1.5 3.5 9.5 9.5 11.5 14 11.5 14 16.5 19 19

21.5 25

R3? ? 212.5

原假设与备择假设为:

H0 : ?1 ? ?2 ? ??k

H1 : ?1 ? ?2 ? ? ? ?k .
i t ?1

由于 n1 ? n2 ? n3 ? 10 由 wi ? 2? ni ? ni , i ? 1,2,?, k . 得

w1 ? 10, w2 ? 30, w3 ? 50,

T ? ? wi Ri ? , ? 16160
i?

3

由于长度为 2 的结有 7 个,长度为 3 的结有 4 个

N 2 ( N ? 1) 302 (30 ? 1) E (T ) ? ? ? 13950 2 2
g k 1 2 3 D(T ) ? ((N ( N ? 1) ? ? (? t ? ? t ))(? ni wi2 ?N 3 ) ? 616827 .586 12( N ? 1) t ?1 i ?1

检验 P 值为

p ? P( N (13950 ,616827 .586)) ? 16160 ) ? 0.002447? 0.05
P 值很小,故拒绝原假设。接受备择假设,认为数据时正相关, 即年龄越大的人 ? 脂蛋白的含量越高。



热文推荐
猜你喜欢
友情链接: