当前位置：搜档网 › 生物统计学

生物统计学

生物统计学：生物统计学是一门探讨如何从不完整的信息中获取科学可靠的结论从而进一步进行生物学实验研究的设计,取样,分析,资料整理与推论的科学.

第一章

习题1.1

答：生物统计学是用数理统计的原理和方法来分析和解释生物界各种现象和实验调查资料，是研究生命过程中以样本来推断总体的一门科学。

生物统计学的主要内容包括实验设计和统计分析。基本作用有以下四个方面：①提供整理和描述数据资料的科学方法，确定某些数性状和特性的数理特征；②判断实验结果的可靠性;

③提供有样本推断总体的方法；③提供实验设计的一些重要原则。

习题1.2

总体：总体是具有相同性质的个体所组成的集合，是研究对象的全体。

样本：是从总体中抽出来的若干个体所组成的集合。

样本容量：样本中所含个体总数。

变量：相同性质的事物间表现的差异性的某些特征。

参数：是描述总体特征的数量。

统计数：是描述样本特征的数量。

效应：是由因素而引起的实验差异的作用。

互作：是指两个或两个处理因素间的相互作用产生的效应。

实验误差：实验中不可控因素所引起的观测值和真实值之间的差异。

习题1.3

答：随机误差：它是由实验中许多无法控制的因素所造成的实验结果和真实值之间的误差，是不可避免的。

系统误差：是由于实验处理以外的其他条件明显不一致所造成的带有倾向性的或定向的偏差，是可控的。

习题1.4

答：准确性指在调查和实验中某一实验指标或性状的观测值和真实值接近程度。精确性指调查和实验中同一实验指标或性状的重复观察值彼此接近的程度。

准确性是说明测定值和真实值之间符合程度的大小；精确性是反映多次测定值的变异程度。

第二章

习题2.3

答：平均数的用处：①平均数指出了一组数据的中心位置，标志着资料所代表性状的数量水平和质量水平； ②作为样本或资料的代表数据与其他资料进行比较。

平均数的特征：①离均差之和为零； ②离均差平方和为最小。

标准差的用处： ①标准差的大小，受实验后调查资料中的多个观测值的影响，如果观测值之间的差异大，离均差就越大； ②在计算标准差是如果对观察值加上一个或减去一个a ，标准差不变；如果给各观测值乘以或除以一个常数a ，所得的标准差就扩大或缩小a 倍； ③在正态分布中，X+-S 内的观测值个数占总个数的68.26%，X-+2s 内的观测值个数占总个数的95.49%，x-+3s 内的观测值个数占总个数的99.73%。

标准差的特征： ①表示变量分布的离散程度； ②标准差的大小可以估计出变量的次数分布及各类观测值在总体中所占的比例； ③估计平均数的标准差； ④进行平均数区间估计和变异数的计算。

习题2.4

答：总体平均数μ=∑x/N,式中分母为总体观察个数N ；样本平均数x=∑x/n ，公式中n 是样本容量；样本平均数是总体平均数的无偏估计值。

总体和样本标准差都等于离均差的平方和除以样本容量；而总体标准差σ= ,分母上是总体观测值个数N; 而样本标准差是s= ，分母上是样本自由度n-1. 样本标准差s 是总体标准差σ的无偏估计值。

习题2.5

解：（1）极差：

R=7.22—2.70=4.52

（2）样本容量n=100，组数为10组，则：

组距=4.52/10=0.452≈0.5

（3）列次表如下表。

习题2.9

解：单养平均数为：

x =n

∑=5046...4545+++=42.70（kg ）

单养极差为： R=55-25=30（kg ）

单养标准差为：

1n x x 2-∑-）

（=7.078（kg ）

单养系数为：

CV=x s 3100％=16.58％

混养平均数为：

x =∑x ／n=52.10（kg ）

混养极差为：

R=69-39=30（kg ）

混养标准差为：

1n x x 2-∑-）

（=6.335（kg ）

混养变异系数为：

CV=x s 3100％=12.16％

从单养和混养的贻贝重量数据可以看出，混养贻贝平均重量大于单养。二者稽查相等，说明最大值、最小值差距相等。但单养的标准差和变异系数都打与混养，说明单养贻贝的重量的整齐度没有与海带混养整齐度高。以上结果表明，贻贝与海带混养效果较好。

第三章

习题3.1

答：在一定条件下必然出现的时间叫必然事件;相反，在一定条件下必然不出现的事件叫不可能事件；而在某些确定条件下可能出现，也可能不出现的事件，叫随机事件。例如，发育正常的鸡蛋，在39°C 下21天会孵出小鸡，这是必然事件；太阳从西边出来，这是不可能事件；给病人做血样化验，结果可能为阳性，也可能为阴性，这是随机事件。

习题3.2

答：事件A 和事件B 不能同时发生，即A 2B=V ，那么称事件A 和事件B 为互斥事件，如人的ABO 血型中，某个人血型可能是A 型、B 型、O 型、AB 型4中血型之一，但不可能既是A 型又是B 型。事件A 和事件B 必有一个发生，但二者不能同时发生即A+B=U,A 3B=V,则称事件A 与事件B 为对立事件，如抛硬币时向上的一面不是正面就是反面。事件A 与事件B 的发生毫无关系。反之事件B 的发生与事件A 的发生毫无关系，则称事件A 与事件B 为独立事件，如第二胎生男生女与第一台生男生女毫无关系。

习题3.3

答：事件A 在n 次重复试验中发生了m 次，则比值m ／n 称为事件A 发生的频率，记为W(A)；事件A 在n 次重复试验中发生了m 次，当试验次数n 不断增加时，事件A 发生的频率W(A)就越来越接近某一确定值p ，则p 即为事件A 发生的概率。二者的关系是：当试验次数n 充分大时，频率转化为概率。

习题3.4

答：正态分布是一种连续型随机变量的概率分布，它的分布特征是大多数变量围绕在平均数左右，由平均数到分布的两侧，变量数减小，即中间多，两头少，两侧对称。

U=0，σ2=1的正态分布为标准正态分布。

正态分布具有以下特点：标准正态分布具有以下特点：①、正态分布曲线是以平均数μ为峰

值的曲线，当x=μ时，f(x)取最大值πσ

；②、正态分布是以μ为中心向左右两侧对称

的分布 ③、σu x -的绝对值越大，f(x)值就越小，但f(x)永远不会等于0，所以正态分布以x 轴为渐近线，x 的取值区间为（-∞，+∞）； ④、正态分布曲线完全由参数μ和σ来决定 ⑤、正态分布曲线在x=μ±σ处各有一个拐点；⑥、正态分布曲线与x 轴所围成的面积必定等于1。

正态分布具有两个参数μ和σ，μ决定正态分布曲线在x 轴上的中心位置，μ减小曲线左移，增大则曲线右移；σ决定正态分布曲线的展开程度，σ越小曲线展开程度越小，曲线越陡，σ越大曲线展开程度越大，曲线越矮宽。

习题3.7

解：（1）F1代非糯杂合体Ww 与糯稻亲本ww 回交，后代非糯杂合体Ww 与糯稻纯合体ww 各占一半，即概率均为0.5，故在后代N=200株中预期糯稻和非糯稻均为0.53200=100（株）。

（2）F1代非糯杂合体Ww 自交，后代非糯杂合体WW ：非糯杂合体Ww ：糯稻杂合体ww=1:2:1，但表型非糯：糯稻=3:1，即非糯和糯稻的概率分别为0.75和0.25，故在后代N=2000株中，糯稻应为0.2532000=500（株），非糯稻应为0.7532000=1500（株）。

习题3.8

解: 根据研究的目的基因，可将F2代分为纯合正常抗绣植株和非纯合正常抗绣植株，且不同大麦出现该目的基因为独立的，同时出现纯合正常抗绣植株的概率p=0.0036,非常小，故该题可用二项分布或泊松分布的概率函数公式计算。

（1）λ= np=200*0.0036=0.72，代入泊松分布概率函数公式：

P （X ）=！x *72.0e

x 72.0-X=0，1，2 (200)

F2代出现纯合正常抗锈植株的各种可能株数的概率分别为：

P （0）=0.487

P （1）=0.350

P （2）=0.126

P （3）=0.030

P （4）=0.005

P （5）=0.001

P （X ≥6）=1- P （0）- P （1）- P （2）- P （3）- P （4）-P （5）

=1-0.487-0.350-0.126-0.030-0.005-0.001=0.001

出现6或6株以上纯合正常抗锈植株的概率总共为0.001，已经非常小了，不必再一一计算。

（2）欲求P （X ≥1）=0.99.则P （0）=0.01，即

P （X ）=！00e λ

λ-=0.01，

对两边求对数，则有：

n =4.605／0.0036=1279株

因此，希望有0.99的概率保证获得1株或1株以上纯合正常抗锈植株，则F2代至少应种1279株。

习题3.9

解：小白鼠接种病菌后，要么生存要么死亡，个体间又相互独立，故服从二项分布。设时间A为接种病菌后生存，由已知得ρ=0.425，n=5，x=4，则“四生一死”的概率为：

Ρ（4）=

C=53425

.043（1-0.425）1=0.0938

第四章

习题4.1

答：统计推断是根据理论分布由一个样本或一系列样本所得的结果来推断总体特征的过程。统计推断主要包括参数统计和假设检验两个方面。假设检验是根据总体的理论分布和小概率原理，对未知或不完全知道的总体提出两种彼此对立的假设，然后由样本的实际结果，进过一定的计算，作出在一定概率水平（或显著水平）上应该接受或否定的那种假设的推断。参数估计则是由丫根本结果对总体参数在一定概率水平下所做出的估计。参数估计包括点估计和区间估计。

习题4.2

答：小概率原理是指概率很小的事件再一次试验中被认为是几乎不可能会发生的，一般统计学中常把概率概率小于0.05或0.01的时间作为小概率事件。他是假设检验的依据，如果在无效假设H0成立的条件，某事件的概率大于0.05或0.01，说明无效假设成立，则接受H0，否定HA;，如果某时间的概率小于0.05或0.01，说明无效假设不成立，则否定H0，接受HA。

习题4.3

答：：在假设检验中如果H。是真实的，检验后却否定了它，就犯了第一类错误，即α错误或弃真错误；如果H。不是真实的，检验后却接受了它，就犯了第二类错误，即β错误或纳伪错误。为了减少犯两类错误的概率，要做到以下两点：一是显著水平α的取值不可太高也不可太低，一般取0.05作为小概率比较合适，这样可使得犯两类错误的概率都比较小；二是尽量增加样本容量，并选择合理的实验设计和正确的实验技术，以减少标准误，减少两类错误。

假设检验中的两类错误是取证错误和取伪错误。为了减少犯两类错误的概率要做到：①显著水平a的取值不可以太高也不可太低，一般去0.05作为小概率比较合适，这样可以使犯两类错误的概率都比较小；②尽量增加样本容量，并选择合理的实验设计和正确的实验技术，

以减小标准误，减少两类错误。

习题4.4

答：区间估计指根据一个样本的观测值给出总体参数的估计范围给出总体参数落在这一区间的概率。点估计是指从总体中抽取一个样本，根据样本的统计量对总体的未知参数作出一个数值点的估计。置信度与区间估计的关系为;对于同一总体，置信度越大，置信区间就越小，置信度越小，置信区间越大。

第五章

习题5.1

答：x2检验主要有三种用途：一个样本方差的同质性检验，适合性检验和独立性检验。一个样本方差的同质性检验用于检验一个样本所属总体方差和给定总体方差是否差异显著，适合性检验是比较观测值与理论值是否符合的假设检验；独立性检验是判断两个或两个以上因素间是否具有关联关系的假设检验。

习题5.2

答：x2检验的步骤为：

（1）提出无效假设H0:观测值与理论值的差异由抽样误差引起即观测值=理论值

备择假设HA：观测值与理论值的差值不等于0，即观测值≠理论值

（2）确定显著水平a.一般可确定为0.05或0.01

（3）计算样本的x2，求得各个理论次数Ei,并根据各实际次数Oi，代入公式，计算出样本的x2。

（4）进行统计推断

第六章

习题6.1

答：（1）方差分析是对两个或多个样本平均数差异显著性检验的方法。

（2）方差分析的基本思想是将测量数据的总变异按照变异来源分为处理效应和误差效应，并作出数量估计，在一定显著水平下进行比较，从而检验处理效应是否显著。

（3）方差分析的基本步骤如下：

a.将样本数据的总平方和与自由度分解为各变异因素的平方和与自由度。

b.列方差分析表进行F检验，分析各变异因素在总变异中的重要程度。

c.若F检验显著，对个处理平均数进行多重比较。

习题6.2

答：（1）多个平均数两两间的相互比较称为多重比较。

（2）多重比较常用的方法有最小显著差数法和最小显著极差法，其中最小显著极差法又有新复极差检验和q检验法。

（3）多重比较的结果常以标记字母法和梯形法表示。标记字母法是将全部平均数从大到小依次排列，然后再最大的平均数上标字母a，将该平均数与以下各平均数相比，凡相差不显著的都标上字母a,直至某个与之相差显著的则标以字母b。再以该标有b的平均数为标准，与各个比它大的平均数比较，凡差数差异不显著的在字母a的右边加标字母b。然后再以标b的最大平均数为标准与以下未曾标有字母的平均数比较，凡差数不显著的继续标以字母b，直至差异显著的平均数标以字母c，再与上面的平均数比较。如此重复进行，直至最小的平均数有了标记字母，并与上面的平均数比较后为止。这样各平均数间，凡有一个相同标记的字母即为差异不显著，凡具不同标记的字母即为差异显著。差异极显著标记方法同上，用大写字母标记。

梯形法是将各处理的平均数差数按梯形列于表中，并将这些差数进行比较。差数>LSD(LSR)0.05说明处理平均数间的差异达到显著水平，在差数的右上角标上“*”号；差数>LSD(LSR)0.01说明处理平均数间的差异达到极显著水平，在差数的右上角标上“**”号。差数< LSD(LSR)0.05,说明差异不显著。

习题6.3

答：方差分析有3个基本假定，即正态性、可加性和方差同质性。方差分析有效性是建立在3个基本假定的基础上的。

第七章

习题7.1

答：回归分析是用来研究呈因果关系的相关变量间的关系的统计分析方法，其中表示原因的变量为自变量，表示结果的变量为因变量。回归截距是当自变量为零时，因变量的取值，即回归线在y轴上的截距；回归系数是回归直线的斜率，其含义是自变量改变一个单位，因变量y平均增加或减少的单位数。

习题7.3

答：相关分析是用来研究呈平行关系的相关变量之间的关系的统计方法。相关系数表示变量x与变量y相关的程度和性质，决定系数是相关系数的平方，表示变量x引起y变异的回归平方和和占y变异总平方和的比率，它只能表示相关的程度而不能表示相关的性质。

第九章

习题9.1

答：抽样调查是一种非全面调查，它是从全部调查研究对象中，抽选一部分单位进行调查，并对全部调查研究对象作出估计和推断的一种调查方法。

常用的抽样调查方法有随机抽样，顺序抽样和典型抽样。

随机抽样是指在抽样过程中，总体内所有个体都具有相同的被抽取的概率。由于抽样的随机性，可以正确的估计试验误差，从而推出科学合理的结论。随机抽样可分为以下几种方法：简单随机抽样，分层随机抽样，整体抽样和双重抽样。

⑴简单随机抽样的结果可用统计方进行分析，从而对总体作出推断，并对推断的可靠性作出度量。适用于个体间差异较小，所需抽取的样本单位数较小的情况。对于那些具有某种趋向或差异明显和点片式差异的总体不宜使用。

⑵分层随机抽样是一种混合抽样。其特点是将总体按变异原因或程度划分成若干区层，然后再用简单随机抽样方法，从各区层按一定的抽样分数抽选抽样单位。分层随机抽样具有以下优点：①若总体内各抽样单位间的差异比较明显，可以把总体分为几个比较同质的区层，从而提高抽样的准确度；②分层随机抽样类似于随机区组设计，既运用了随机原来，也运用了局部控制原理，这样不仅可以降低抽样误差，也可以运用统计方法来估算抽样误差。

⑶整体抽样是把总体分成若干群，以群为单位，进行随机抽样，对抽到的样本作全面调查，因此也称为整群抽样。整体抽样具有以下优点：①一个群只要一个编号，因而减少了抽样单位编号数，且因调查单位数减少，工作方便；②与简单随机抽样相比较，它常常提供较为准确的总体估计值，特别是害虫危害作物这类不均匀的研究对象，采用整体抽样更为有利；③只要各群抽选单位相等，整体抽样也可提供总体平均数的无偏估计。

⑷双重抽样是在抽样调查时要求随机抽出两个样本，涉及两个变量。双重抽样具有以下两个优点：①对于复杂性状的调查研究可以通过仅测量少量抽样单位而获得相应于大量抽样单位的精确度；②当复杂性状必须通过破坏性测定才能调查时，则仅有这种双重抽样方法可用。顺序抽样是按某种既定顺序从总体中抽取一定数量的个体构成样本。抽样顺序的优点表现在：①可避免抽样时受人们主观偏见的影响，而简便易行；②容易得到一个按比例分配的样本；③如果样本的观察单位在总体分布均匀，其取样个体在总体内分布较均匀，这时采用顺序抽样的抽样误差较小。其缺点表现在：①如果总体内存在周期性变异或单调增﹙减﹚趋势时，则很可能会得到一个偏差很大的样本，产生明显的系统误差；②顺序抽样得到的样本并不是彼此独立的，因此，对抽样误差的估计只是近似的。通过顺序抽样的方法，不能计算抽样误差，估计总体平均数的置信区间。

典型抽样是根据初步资料或经验判断，有意识，有目的的选取一个典型群体作为样本进行调查记载，以估计整个总体。这种抽样方法完全依赖于调查工作者的经验和技能，结果不稳定，且没有运用随机原理，因而无法估计抽样误差。典型抽样多用于大规模社会经济调查，而在总体相对较小或要求估算抽样误差时，一般不采用这种方法。

习题9.2 解：L 222

05.0s

t =L 22s 4=5.02.322*4=174.24≈174(头)

该结果表明，随机调查174头仔猪，就有95％的概率保证体重误差不超过0.5kg 。

9.3为研究某地区鸡的球虫感染率，预测感病率为 15% ，希望调查的感染率与该地区普查的感染率相差不超过 3% ，且置信概率为 95% ，问应调查多少只鸡才能达到目的 ? 习题9.3

解：根据题意，p=15％=0.15，则q=1-0.15=0.85.，允许误差L=3％=0.03。

计算样本容量：

n=L

2pq

4=03.0285.0*15.0*4=566.67≈567（只）结果表明，需要调查567只鸡，才有95％的可靠性达到允许误差为3％的要求。

习题9.4

解： n=d

t 22d 2

05.0=365.322*4=5.92≈6（对）以n=6，自由度df=6-1=5，t 5,05.0）（=2.571，计算得： n=d

t 22

d 25,05.0）（=365.3571.2222*=9.78≈10 以n=10，自由度df=10-1=9，t 9,05.0）

（=2.262，计算得： n=d s t 22d

29,05.0）（=3

65.3262.2222*=7.57≈8 以n=8，自由度df=8-1=7，t 7,05.0）

（=2.,365，计算得： n=d

s t 22d

7,05.0）（=365.3365.2222*=8.27≈8 因此，需要8对实验鸡，才有95％的可靠度使平均数d 在3枚以内。

习题9.5 解：以a=0.05，n ＞30，t 05.0≈2计算，则：

n=）（x x s t 21222205.0-=）（x x s 21822-=5.14

22*8=56.89≈57

结果表明，每组实验需要57尾鱼，才有95％的把握使两组增重差值在1.5kg 内能测出差异显著性。

第十章

习题10.1

答：试验设计包括广义的试验设计和狭义的试验设计。广义的试验设计是指整个研究课题的设计，包括试验方案的拟订，试验单位的选择，分组的排列，试验过程中试验指标的观察记载，试验资料的整理，分析等内容；而狭义的试验设计则仅是指试验单位的选择，分组与排列方法。生物统计学中的试验设计主要指狭义的试验设计。

生物学试验的基本要求是：①试验目的要明确；②试验条件要有代表性；③试验结果要可靠；④试验结果要重演。

习题10.2

答：处理是指对受试对象给予的某种外部干预，是试验中实施的因子水平的一个组合，又称为处理因素。处理因素是指处理因素作用于受试对象的反应，是研究结果的最终体现。主效应是指由于因素水平的改变而造成因素效应的改变。互作是指两个或两个以上处理因素间的相互作用产生的效应。

试验误差的来源主要有：①试验材料固有的差异；②试验条件不一致；③操作技术不一致；④偶然性因素的影响。针对试验误差来源，控制试验误差的途径主要有：①选择纯合一一致的试验材料；②改进操作管理制度，使之标准化；③精心选择试验单位；④采用合适的试验设计。

习题10.3

答：试验设计有3项基本原则：重复，随机和局部控制。重复原则的主要作用是估计试验误差，降低试验误差；随机原则的主要作用是提供无偏的试验误差估计。局部控制原则的主要作用是降低试验误差。总之，只有遵循重复，随机，局部控制3项基本原则的试验设计，才能由试验获得真实的处理效应和无偏的，最小的试验误差估计，从而对各处理间的比较得出可靠的结论来。

第十一章

习题11.1

答：协方差分析是将乘积和与平方和同时按照变异来源进行分解，从而将直线回归于方差分析结合应用的一种统计方法。它用于比较一个变量y在一个或几个因素不同水平上的差异，但y在受这些因素影响的同时，还受到另一个变量x的影响，而且x变量的取值难以人为控制，不能作为方差分析中的一个因素处理。此时，如果x与y之间可以建立回归关系，则可以用回归分析的方法对y值进行矫正，在排除x对y的影响后用方差分析的方法对各因素的影响作出统计推断。

协方差分析的主要作用表现在3个方面：①利用协变量可以降低试验误差，矫正处理平均数，实现统计控制;②分析不同变异来源的相关关系；③对缺失数据进行估计。

生物统计学

相关文档

最新文档