生物统计的抽样

如题所述

第1个回答  2016-05-27

为了估计总体的参数(如均数、率、标准差等)而从其中抽出一部分个体组成供分析的样本称为抽样。抽样方法应能防止主、客观因素造成偏性(即系统误差),保证样本对总体的代表性。简单随机抽样是以抽签或相当于抽签的方式从总体中抽取个体组成样本。其要点是:总体中每个个体被抽中的机会必须均等。系统抽样是将总体划分为时间或空间顺序相等的个部分,再机械地取每一部分的第个个体组成样本,是一次随机抽定的。例如,欲抽查十分之一学生的成绩,可从0到9这10个整数中随机地抽定一个数,假设为3,则凡学生证号最后一个数是 3者均为被抽中的对象。分层抽样是事先将总体分为不同的层次(如地区、年龄、性别等),再分别从各层次中按适当比例抽样。用此法可以从层间差异较大的总体中获取代表性较好的样本。整群抽样是以群体为单位进行抽样,凡抽中的单位就全面调查。此法便于实施,但抽样误差较大,一般不可沿用基于简单随机抽样的普通公式计算抽样误差。此外,还可以分阶段地、混合地使用上述方法。如两阶段抽样、多阶段抽样、分层整群抽样、多阶段等概率抽样等。
用样本统计量去估计总体参数难免会有抽样误差,它的大小与个体变异(标准差)的大小成正比;与样本含量的平方根成反比。表示抽样误差大小的统计指标是标准误 [1434-01]或代以统计量[1434-02] (7)相当于将每一个样本(设想有许多来自同一总体的样本)的均数(或率)看成为一个个体时的标准差,它反映了取自同一总体的不同样本之间的差异(7)式适用于简单随机抽样和系统抽样。其他几种抽样方法的算式较繁。
差异的显著性 两个或两组数据相比,总会有或大或小的差异。问题是这种差异仅仅是抽样误差的反映呢还是由于它们来自不同的总体?即是否存在着实质性差异?用统计学的术语来说,就是要判断数据间的差异是否“显著”。用统计方法来推断差异的性质称为差异的显著性检验。显著性检验的方法很多,基本步骤大体如下:先假定数据均来自同一总体,即假设要比较的数据并无实质性差异,称为零假设;根据原始数据计算因抽样误差而出现此种程度差异的概率;若甚小,则根据“小概率事件实际上不大可能发生”这一原理否定零假设,认为“差异显著”,即这种差异从统计学的角度来看是有意义的;反之,若不算小,就不否定零假设,认为“差异不显著”,即不能排除抽样误差范围内的波动。正确地运用显著性检验,可使实验或调查的结论建立在更科学、稳妥的基础之上,避免简单化和绝对化。
显著性水准 概率的大小只能相对而言,在生物学数据的差异显著性检验中,已习惯用=0.05为小概率的上限。有时,为严格起见,也规定=0.01。称为显著性水准,它是当零假设正确时却错误地将其否定(第Ⅰ类错误)的概率。但也不是 定得愈小愈好。倘若零假设是不对的却未能否定,它(第Ⅱ类错误)的概率将因规定得愈小而愈大。增大样本可以减小出现第Ⅰ或第Ⅱ类错误的概率。
两个计数数据的比较 最简单的差异显著性检验是比较按零假设系“来自同一总体”的两个计数与。
[1434-03] (8)服从标准正态分布。换言之,>1.96的概率<0.05(表1[标准正态分布尾部概率简表])。
例如,用“714”试治喘息型气管炎,与用氨茶碱进行比较:在每名患者身上交替使用这两种药各一疗程。半数患者先服甲药,另一半先服乙药。结果16名患者用氨茶碱效果较好(=16),5名用“714”较好(=5)。
将上述结果代入(8)式
[1434-03a]因>1.96,<0.05,故否定零假设,因此可以认为两药的疗效并不相同,即“714”的疗效不及氨茶碱。
凡用标准正态分布统计量进行的显著性检验,均可称为检验。
两个均数的比较 也可用检验:
[1434-04] (9)其中和分别表示第1个样本的均值标准和含量,余类推。为总体方差,通常是未知的,故常用右边的近似式。当两样本的含量 +=<25时,(9)式的近似程度欠佳,最好用检验。
检验是根据统计量的概率分布(称为分布,见表2[禾苗喷雾后净增长度(cm)])而进行的显著性检验。比较两个均数时,
[1434-05] (10)其中为合并的方差,即
[1434-06]
[1434-07] (11)其中表示第1个样本中的数据,表示第2个样本中的数据,其余符号意义同前自由度=+-2用[tav]表示显著性水准为、自由度为的临界值,可从表 3中查得。若按(10)式算得的的绝对值大于[tav],则<,有显著性差异。
例如,在一块小区田里选20兜长势均匀的禾苗作试验,随机抽取其中10兜喷以粗制“920”溶液,其余喷水作对照。三日后,测量禾苗净增长度,结果如表2[禾苗喷雾后净增长度(cm)]。
由(11)式
[1434-08]代入(10)式
[1434-09]查表3[值表]值表" class=image>,当=0.01,=10+10-2=18,0.01,18=2.88;此例=4.55>2.88,<0.01,有显著性差异。
结论:粗制“920”有加速禾苗生长的作用。
两个率的比较 当样本较大,以致两个样本的阳性数、阴性数都大于5时,可用检验:
[1434-10] (12)、和,分别表示第1组的阳性率、阴性率和含量,余类推。若应用检验的上述条件不能满足,可用近似程度较好的检验:
[1434-11] (13)其中[p-1]=(1+1)(+2),1是第 1组的阳性数,[q-1]=1-[p-1],余类推。自由度=+-2。
例如,甲组=23,其中两个呈“+”反应,乙组=77,全为“―”反应。现在来检验差异的显著性。[p-1]=(2+1)/(23+2)=0.120,[q-1]=1-0.120=0.880;[p-2]=(0+1)/(77+2)=0.013,[q-2]=1-0.013=0.987。代入(13) 式得=1.65,=23+77-2=98,接近100,由表3[值表]值表" class=image>知[1435-33],>0.05,故无显著性差异。
置信限 由样本估计总体,难免会有抽样误差,这就产生了统计量的可信程度和可信范围的问题。如果我们将统计量(或)看成为一个个体,的总体均数为,标准差为=/[1435-0];而且不论的分布是否正态,只要不是很小,就近似正态分布,亦即=(-)/近似标准正态分布。于是下式
[1435-01] (14)成立的概率为0.95。用代替其中的,稍作变换,即得由样本统计量 和来估计总体参数 的一个区间(范围):
[1435-02] (15)这一区间的实际计算值随样本而异,但它们覆盖[u1]的机会──称为置信水准──是95%,所以称(15)式为95%置信区间,它的上、下限就是置信限。
例如按表 4 [161名 7岁男孩身高的频数分布]中数据可算出161名7岁男孩的身高均值=115.01(厘米),标准差=4.63,标准误由(7)式得[1435-03]。由 (15)式得 7岁男孩身高总体均数的95%置信限为[114.95,115.73]。
两总体均数之差-的置信限可按下式计算:
[1435-04] (16)式中符号意义同前当置信水准(1-)为95%时,=0.05;=1+2-2;据此,从表2[禾苗喷雾后净增长度(cm)]中即可查出[tav]的值。
方差分析也是基本的统计分析方法之一,较常用于分析实验数据。用于检验多组均数间差异的显著性和多因素的单独效应与交互影响的显著性等。基本思路:正态分布数据的变差,可分为未能控制与未能解释的“误差”和来源明确与能够解释的“效应”这两大部分。后者还可以进一步划分成各种不同因素及其交互影响所引起的效应。
按一个因素的不同水平分组的数据结构:
观测值=平均效应+该水平(组)效应+误差 (17)当检验组数据间的差异显著性时,零假设相当于“各组效应均为零”;当零假设被否定时备选假设相当于“在种处理(水平)中至少有一种的效应不为零”。
一般用离均差平方和(记作)来衡量数据间的变异,再除以自由度()则称为均方,记作=/,它反映了平均的变异程度。设每组各有个数据,则组共有=个。它们的总变异[1435-05],表示第组的第个数据;各组之间的变异[1435-06],是第组的均数;组内变异(即误差)[1435-07]。三者之间有以下关系:
=+  (18)它们的自由度也同样可加:
(-1)=(-1)+(-) (19)组间均方 =/(-1)与组内均方 =/(-)之比
=/  (20)可用来检验组间差异的显著性。的界值可从值表中查得。用于方差分析的软件可以打印出包含 及相应的尾部概率值的表格(表6[表5中数据的方差分析表])。
例如将 30名收缩压在200毫米汞柱左右的高血压患者随机分为3组,每组各用一种药物,一个疗程后测血压,结果如表5[三组病人用药后的血压(mmHg)]。
利用现成的计算机软件打印的结果如表6[表5中数据的方差分析表]。表中<0.01,表明组间有显著性差异。即自由变。
按两个因素分组的数据结构:
观测值=均数+行效应+列效应
+交互影响+误差   (21)其中“均数”指平均效应,行效应指按第1因素分组的组效应,列效应指按第2因素分组的组效应。交互影响的含义:当数据按两个以上的因素分组时,如果这些因素的效应并不是彼此独立的,即一个因素的效应随另一因素的水平不同而异,则称这两个因素之间存在着交互影响。
例如在三种病型的患者身上试用 4种药物后的血压改变如表7 [原始数据]所示。其中每个数据代表一个病人的用药结果。
表8[方差分析表]是计算机给出的结果。
从 值可以看出:三种病型之间无显著性差异;药物间有显著性差异;药物与病型的交互影响无显著性。“均数”除非来源于配对数据之差或两均数之差,一般都是有显著性的,即不为零。
只有进行了重复实验,即两因素的各种不同水平的搭配均有两个以上数据,才有可能算出交互影响项的变异。这是在设计时应该想到的。
上述内容不难推广到三个以上因素的方差分析。
理论的验证──检验 生物科学注重实验、调查。归纳得来的理论、演绎得来的假说,还须经过实践来验证。由于个体差异大是生物学数据的固有特点,所以这种验证也只能是统计的。