不秃头的生物统计学1 - 假设检验

如题所述

第1个回答  2022-07-25

生物统计学研究包括 试验设计 统计分析 两大部分。

表现在以下4个方面:
1. 提供整理、描述数据资料的科学方法并确定其数量特征。(描述性统计)
2. 判断实验结果的可靠性。(统计推断)
3. 提供由样本推断总体的方法。(统计推断)
4. 提供试验设计的原则。(实验设计)

由于时间关系,先复习老师重点章节。(第一个ppt,第三页,标蓝的)

一图胜千言,请看 统计推断 内容包括什么?

不要觉得这张图不重要,瞥一眼就过去了
其实这是老师第一节课 PPT 的内容 (我填了一些内容)
当我们上完所有课后,重新回顾这张图时
我们应该对 (老师上课讲的) 生物统计学内容的脉络有一个基本的认识

也就是说,当我们看到以上的关键词,我们的脑海应该有一个大致的地图
知道应该往那个方向走
如果还十分模糊,那接下来我和大家一起重新捋一遍思路
如果感觉有点印象,那接下来就温故知新

先从字面开始, 假设 的是什么? 检验 的是什么?

假设,就是『猜』。

比如说《女士品茶》中,如下假设:

等价的说法是:

假设,是我们进行学术研究的第一步。我们看得每一篇文献,进行得每一个研究课题,都有一个假设。

一个 好的假设 应该有以下特征:
1. 陈述句
2. 提出变量间的预期关系 (如: 能分辨/不能分辨;促进/抑制)
3. 假设应基于已存在的理论或文献基础 (如: 有人已经研究过,先煮辣椒,再放豆腐;和先煮豆腐,再放辣椒,这两种烹饪方式做出的麻婆豆腐味道不一样) (我随便举个例子,我们研究中大多假设的基础,应该有文献)
4. 简短并切中要点 (不废话,有说服力)
5. 可检验 (意味着有可量化的方法判断这个假设是对还是不对)

一个好的假设是 可检验的

什么是可检验?
可检验就有判断命题真伪的普遍性量化标准。

比如说,在《女士品茶》里

我们再来说一个假设:『地球是圆球』

无效假设(零假设) H0:我们要 (间接) 检验的假设
备择假设(研究假设) Ha:无效假设(零假设)的对立命题 (非此即彼),我们想研究的假设。

假设检验的基本思想:

反证法 前面已经说过了,否认一个命题相对容易。

另外不知道有朋友发现没有,在上面的零假设中,我用了『间接』二字。

零假设的对象是 总体
如果你翻翻老师的课件,
你会发现,H0总是这样的形式:

H0 : μ = μ0

样本标准差是表示个体间变异大小的指标,反映了整个样本对样本平均数的 离散程度 ,是数据精密度的衡量指标 ;
而样本平均数的标准误(差),反映样本平均数对总体平均数的 变异程度 ,从而反映 抽样误差的大小 ,是量度结果精密度的指标

好的,我们再回到零假设
H0 : μ = μ0
总体我们一般无法获得,我们通常使用 抽样 获得一部分样本。
那我们是如何通过样本来间接验证总体的呢?

首先,总体的数据会服从某种分布,而抽取的样本构成的总体,会服从某种抽样分布。

老师上课讲的主要是:
总体分布:『正态分布』
抽样分布:『t 分布』,『卡方分布』,『F 分布』

为什么主要讲『正态分布』?
1. 因为自然状态下,大多数数据都服从正态分布。从正态总体中抽取样本, 样本均数 也服从正态分布。
2. 即使总体不是正态分布,只要样本数 n 足够大, 样本均数 的分布也近似服从正态分布。(中心极限定理)

不知道大家留意到没有,上面用的字眼是, 样本均数的分布 ,是样本平均数的分布。这意味着, 样本的平均数,不是唯一的值 (分布意味着是一系列的取值)。

为什么? (理解这一点很重要,比如会把总体,样本,样本总体搞混)

因为每次抽样,抽样的样本是不一样的(随机,样本差异)。所以每次抽取出来的样本的平均数,肯定不会是一样的。这样的所有样本均值会构成一个 新的总体 ,在这个总体里面,均值是 μ(x),标准差是 σ(x)。(记住这些符合,后面会用到)

虽然算出来的均值可能会不一样,但是总有个合理的范围。如果出现某个偏离很远的值,我们会觉得很不合理。这个就是 置信区间

好的,思路到这里已经越来越清晰了。

虽然老师说不用记这个图,但是我觉得还是有必要讲一下的。
1. x 轴是样本统计量。(如:样本的均值)
2. 概率不是 x 对应的 y 的值,而是曲线和两个 x 轴的垂线以及 x 轴围起来的面试,是概率。
3. N(μ,σ2),μ(总体均值) 是中心位置,σ (总体标准差) 代表数据的离散程度。但更重要的是 记住 离 均值μ 若干个 标准差σ 距离 代表的概率 。(如 1个 σ : 68.2%; 1.96 个 σ : 95%; 2.58 个 σ : 99%)
4. 对应到样本均值,『样本均值』偏离『样本总体均值』若干个『样本均值标准误』也对应着相应的概率。(觉得懵的往下看)

正态分布只需要两个参数 ( μ 和 σ ) 即可确定其曲线形状
当 μ = 0 ,σ = 1 时,称为标准正态分布,N(0,1)

然而,我们抽取的 样本的均值 构成的分布,μ(x) 不会都等于 0 ,σ (x) 也不会正好等于 1,因此我们需要一个 标准化正态变换

是不是有种熟悉的感觉,没错,这个就是 u 检验时,我们计算的 u 值
(看清楚,μ 和 u ,我也不知道为什么用这么相近的两个字符)
(对符号含义理解还比较模糊的话往前看,这里的 μ(x) 是指所有抽取的样本的均值构成的新总体的总体均值, σ(x)是指对应的总体标准差)

好了,到这里应该对 u 值有清晰的理解了,我们再来看看,『样本总体』怎么对应到『原总体』上。

到了这一步,我们看看我们还缺什么?
很明显,x̅ 和 n 来自样本,我们还缺 μ 和 σ

首先看看我们的零假设,在一个样本平均数的 u 检验时 :
H0 :μ = μ0 = ? ,我们是有应该理论研究总体均值μ0
也就是说 μ 可以获得,所以还缺 σ

所以 一个样本平均数的 u 检验 分为两种情况:

好的,这里理解的话,基于这个思路,两个样本均值u检验,均值t检验,(频数检验),应该也比较好理解了。

(考试看这个图套公式就好了,重要的是理解每个符号的含义)
(还有就是看懂题目,知道是 u检验 还是 t检验 ,知道是 成组 还是 配对 ,知道是用 单尾检验 还是 双尾检验 )
(这个图有点小,放大后还是清晰的)

这张表逐一去看,理解后每个字符的含义后,直接套公式就好了。

关于显著性水平

我怎么知道我研究的总体是不是服从正态分布的?
或者说,我怎么通过采集的样本推断总体是不是服从正态分布的?

因为我们现在的假设检验,基本都是基于总体服从正态分布的前提下做的,如果一开始这个前提就不成立,那不是白干了。

还记得老师让我们记得图吗?
鱼群

我们将数据画个一个频数分布直方图,看看它大致的形状是不是符合正态分布,如果符合钟型,那说明可以用正态分布,如果不废话,那可能需要做一定的转换,将数据变成正态分布(这个转换我就不懂了)。