不秃头的生物统计学1 - 假设检验

如题所述

举报该问题

其他回答

第1个回答 2022-07-25

生物统计学研究包括 试验设计 和 统计分析 两大部分。

表现在以下4个方面：
1. 提供整理、描述数据资料的科学方法并确定其数量特征。（描述性统计）
2. 判断实验结果的可靠性。(统计推断)
3. 提供由样本推断总体的方法。(统计推断)
4. 提供试验设计的原则。(实验设计)

由于时间关系，先复习老师重点章节。(第一个ppt，第三页，标蓝的)

一图胜千言，请看 统计推断 内容包括什么？

不要觉得这张图不重要，瞥一眼就过去了
其实这是老师第一节课 PPT 的内容 (我填了一些内容)
当我们上完所有课后，重新回顾这张图时
我们应该对 (老师上课讲的) 生物统计学内容的脉络有一个基本的认识

也就是说，当我们看到以上的关键词，我们的脑海应该有一个大致的地图
知道应该往那个方向走
如果还十分模糊，那接下来我和大家一起重新捋一遍思路
如果感觉有点印象，那接下来就温故知新

先从字面开始，假设的是什么？检验的是什么？

假设，就是『猜』。

比如说《女士品茶》中，如下假设：

等价的说法是：

假设，是我们进行学术研究的第一步。我们看得每一篇文献，进行得每一个研究课题，都有一个假设。

一个 好的假设 应该有以下特征：
1. 陈述句
2. 提出变量间的预期关系 (如: 能分辨/不能分辨；促进/抑制)
3. 假设应基于已存在的理论或文献基础 (如: 有人已经研究过，先煮辣椒，再放豆腐；和先煮豆腐，再放辣椒，这两种烹饪方式做出的麻婆豆腐味道不一样) (我随便举个例子，我们研究中大多假设的基础，应该有文献)
4. 简短并切中要点 (不废话，有说服力)
5. 可检验 (意味着有可量化的方法判断这个假设是对还是不对)

一个好的假设是 可检验的 。

什么是可检验？
可检验就有判断命题真伪的普遍性量化标准。

比如说，在《女士品茶》里

我们再来说一个假设：『地球是圆球』

无效假设(零假设) H0：我们要 （间接） 检验的假设
备择假设(研究假设) Ha：无效假设(零假设)的对立命题 (非此即彼)，我们想研究的假设。

假设检验的基本思想：

反证法 前面已经说过了，否认一个命题相对容易。

另外不知道有朋友发现没有，在上面的零假设中，我用了『间接』二字。

零假设的对象是总体，
如果你翻翻老师的课件，
你会发现，H0总是这样的形式：

H0 : μ = μ0

样本标准差是表示个体间变异大小的指标，反映了整个样本对样本平均数的 离散程度 ，是数据精密度的衡量指标 ;
而样本平均数的标准误(差)，反映样本平均数对总体平均数的 变异程度 ，从而反映 抽样误差的大小 ，是量度结果精密度的指标

好的，我们再回到零假设
H0 : μ = μ0
总体我们一般无法获得，我们通常使用抽样获得一部分样本。
那我们是如何通过样本来间接验证总体的呢？

首先，总体的数据会服从某种分布，而抽取的样本构成的总体，会服从某种抽样分布。

老师上课讲的主要是：
总体分布：『正态分布』
抽样分布：『t 分布』，『卡方分布』，『F 分布』

为什么主要讲『正态分布』？
1. 因为自然状态下，大多数数据都服从正态分布。从正态总体中抽取样本， 样本均数 也服从正态分布。
2. 即使总体不是正态分布，只要样本数 n 足够大， 样本均数 的分布也近似服从正态分布。(中心极限定理)

不知道大家留意到没有，上面用的字眼是， 样本均数的分布 ，是样本平均数的分布。这意味着， 样本的平均数，不是唯一的值 (分布意味着是一系列的取值)。

为什么？ (理解这一点很重要，比如会把总体，样本，样本总体搞混)

因为每次抽样，抽样的样本是不一样的(随机，样本差异)。所以每次抽取出来的样本的平均数，肯定不会是一样的。这样的所有样本均值会构成一个 新的总体 ，在这个总体里面，均值是 μ(x)，标准差是 σ(x)。（记住这些符合，后面会用到）

虽然算出来的均值可能会不一样，但是总有个合理的范围。如果出现某个偏离很远的值，我们会觉得很不合理。这个就是 置信区间 。

好的，思路到这里已经越来越清晰了。

虽然老师说不用记这个图，但是我觉得还是有必要讲一下的。
1. x 轴是样本统计量。(如：样本的均值)
2. 概率不是 x 对应的 y 的值，而是曲线和两个 x 轴的垂线以及 x 轴围起来的面试，是概率。
3. N(μ,σ2)，μ(总体均值) 是中心位置，σ (总体标准差) 代表数据的离散程度。但更重要的是记住： 离均值μ 若干个标准差σ 距离代表的概率 。(如 1个 σ : 68.2%; 1.96 个 σ : 95%; 2.58 个 σ : 99%)
4. 对应到样本均值，『样本均值』偏离『样本总体均值』若干个『样本均值标准误』也对应着相应的概率。(觉得懵的往下看)

正态分布只需要两个参数 ( μ 和 σ ) 即可确定其曲线形状
当 μ = 0 ，σ = 1 时，称为标准正态分布，N(0,1)

然而，我们抽取的 样本的均值 构成的分布，μ(x) 不会都等于 0 ，σ (x) 也不会正好等于 1，因此我们需要一个 标准化正态变换 。

是不是有种熟悉的感觉，没错，这个就是 u 检验时，我们计算的 u 值 。
(看清楚，μ 和 u ，我也不知道为什么用这么相近的两个字符)
(对符号含义理解还比较模糊的话往前看，这里的 μ(x) 是指所有抽取的样本的均值构成的新总体的总体均值， σ(x)是指对应的总体标准差)

好了，到这里应该对 u 值有清晰的理解了，我们再来看看，『样本总体』怎么对应到『原总体』上。

到了这一步，我们看看我们还缺什么？
很明显，x̅ 和 n 来自样本，我们还缺 μ 和 σ

首先看看我们的零假设，在一个样本平均数的 u 检验时：
H0 ：μ = μ0 = ？，我们是有应该理论研究总体均值μ0
也就是说 μ 可以获得，所以还缺 σ

所以一个样本平均数的 u 检验分为两种情况：

好的，这里理解的话，基于这个思路，两个样本均值u检验，均值t检验，(频数检验)，应该也比较好理解了。

(考试看这个图套公式就好了，重要的是理解每个符号的含义)
(还有就是看懂题目，知道是 u检验 还是 t检验 ，知道是成组还是配对，知道是用 单尾检验 还是 双尾检验 )
(这个图有点小，放大后还是清晰的)

这张表逐一去看，理解后每个字符的含义后，直接套公式就好了。

关于显著性水平

我怎么知道我研究的总体是不是服从正态分布的？
或者说，我怎么通过采集的样本推断总体是不是服从正态分布的？