实验设计

数据因为统计研究是通过实验或调查得到的。实验设计是统计学的一个分支,研究实验的设计和分析。实验设计的方法广泛应用于农业领域,医学生物学市场研究和工业生产。

在一项实验研究中,有趣的变量识别。这些变量中的一个或多个,称为研究因素,都是被控制的数据这些因素是如何影响另一个变量的反应变量,或者仅仅是反应。作为一个恰当的例子,请考虑一个实验,该实验旨在确定三种不同的锻炼计划对身体的影响胆固醇患者胆固醇水平升高。每个病人都被称为实验装置,反应变量为计划完成时患者的胆固醇水平,运动计划是正在调查的影响胆固醇水平的因素。这三种锻炼计划中的每一种都被称为治疗

三种应用比较广泛的实验设计是完全随机化设计,随机分组设计,和阶乘设计。在完全随机的实验设计中,处理被随机分配给实验单元。例如,将这种设计方法应用于胆固醇水平研究,将三种类型的运动计划(治疗)随机分配给实验单位(患者)。

使用完全随机的设计将产生不太精确的结果时,因素不被实验者解释影响响应变量。考虑,例如,一个实验,旨在研究两个不同的影响汽油燃料上的添加剂效率这是三家制造商生产的全尺寸汽车的油耗标准。假设有30辆汽车可供实验,每家制造商各10辆。在完全随机的设计中,这两种汽油添加剂(处理)将被随机分配给30辆汽车,每种添加剂被分配给15辆不同的汽车。假设制造商1开发了一种发动机,使其全尺寸汽车的燃油效率高于制造商2和制造商3生产的发动机。完全随机化的设计可以机会,将汽油添加剂1分配到制造商1的较大比例的汽车上。在这种情况下,汽油添加剂1可能被认为更省油,但实际上观察到的差异实际上是由于制造商1生产的汽车的发动机设计更好。为了防止这种情况发生,统计学家可以设计一个实验,用各制造商生产的五辆汽车来测试这两种汽油添加剂;这样,由于制造商造成的任何影响都不会影响到由于汽油添加剂造成的显著差异的测试。在这个修改后的实验中,每个制造商被称为一个块,实验被称为一个随机分组设计。一般来说,使用块是为了使处理之间能够在块内进行比较均匀试验单位。

析因实验旨在得出关于多个因素或变量的结论。术语阶乘用于表示考虑了所有可能的因素组合。例如,如果有两个因子一个因子1和b因子2的水平,实验将涉及收集数据一个b治疗组合。析因设计可推广到涉及两个以上因素的实验和涉及部分析因设计的实验。

方差分析以及显著性检验

一种经常用于分析实验研究数据的计算程序采用了一种被称为方差分析的统计程序。对于单因素实验,本程序使用假设关于待遇平等的检验是指确定该因素对反应变量是否有统计学上的显著影响。对于涉及多因素的实验设计,可以对单个因素的显著性进行检验,也可以对一个或多个因素共同作用引起的相互作用效果进行检验。对方差分析程序的进一步讨论将包含在后面的部分中。

回归和相关分析

回归分析包括确定一个因变量和一个或多个独立变量.一个模型的关系是假设,并估计参数值用于开发一个估计回归方程.然后采用各种测试来确定模型是否令人满意。如果认为模型令人满意,则可以使用估计的回归方程来预测自变量给定的因变量的值。

回归模型

简单线性回归,用来描述单个因变量之间关系的模型y和一个独立变量xy01x+ε。β0和β1被称为其中,ε为a概率误差项,用于解释在y这不能用线性关系来解释x.如果错误项不存在时,模型将是确定性的;在这种情况下,知识的价值x是否足以确定的价值y

多元回归分析,对简单线性回归模型进行了扩展,以考虑因变量之间的关系y而且p独立变量x1x2……xp.多元回归模型的一般形式为y01x12x2+……+βpxp+ε。的参数模型中包含β01,…,βpε为误差项。

最小二乘法

一个简单或多元回归模型最初被提出作为假设关于因变量和自变量之间的关系。最小二乘法是应用最广泛的估计模型参数的方法。对于简单线性回归,模型参数β的最小二乘估计0和β1是表示b0而且b1.利用这些估计值,可以构造一个估计值回归方程:ŷb0+b1x.的对回归方程的估计为简单线性回归是一条直线之间关系的近似y而且x

为了说明回归分析和最小二乘法,假设一所大学医疗中心正在调查压力和死亡率之间的关系血压.假设已经记录了20名患者样本的压力测试分数和血压读数。数据以图形方式显示在图4,称为散点图.自变量(压力测试分数)的值在横轴上,因变量(血压)的值在纵轴上。经过数据点的直线是估计回归方程的图形:ŷ= 42.3 + 0.49x.参数估计,b0= 42.3和b1= 0.49,用最小二乘法得到。

估计回归方程的一个主要用途是在自变量值给定时预测因变量的值。例如,假设一个病人的压力测试得分为60分,预测血压为42.3 + 0.49(60)= 71.7。由估计的回归方程预测的值是在直线上的点图4,实际的血压读数由分布在这条线上的点表示。两者之间的差异价值y而价值y由估计的回归方程所预测的称为a剩余.最小二乘法选择的参数估计使残差平方和最小。

方差分析和拟合优度

由估计回归方程提供的拟合优度的常用度量是决定系数.该系数的计算基于方差分析程序,该方法将因变量的总变差(记为SST)分为两部分:由估计回归方程解释的部分(记为SSR)和未解释的部分(记为SSE)。

总变差的度量,SST,是它们的平方和偏差关于其均值的因变量:Σ(yȳ2.这个量被称为总平方和。无法解释的变化的度量,SSE,被称为残差平方和。的数据图4, SSE是散点图中每个点距离平方和的总和(参见图4)到估计回归线:Σ(yŷ2.SSE通常也被称为误差平方和。方差分析的一个关键结果是SSR + SSE = SST。

r2= SSR/SST称为决定系数。如果数据点在估计的回归线附近紧密聚集,则SSE值较小,SSR/SST接近于1。使用r2,其值介于0和1之间,提供了拟合优度的度量;值越接近1,表示拟合越好。值为r2= 0表示因变量和自变量之间没有线性关系。

当表示为百分比,决定系数可以解释为可以用估计的回归方程解释的总平方和的百分比。对于压力水平研究,的价值r2是0.583;因此,总平方和的58.3%可以用估计的回归方程解释ŷ= 42.3 + 0.49x.对于社会科学中的典型数据,r2低至0.25通常被认为是有用的。对于物理科学的数据,r2通常会发现0.60或更大的值。

测试的意义

在回归研究中,通常进行假设检验,以评估回归模型所代表的整体关系的统计显著性,并检验单个参数的统计显著性。所使用的统计检验基于以下关于误差项的假设:(1)ε为a随机变量与一个期望值对于0,(2)ε的方差对于的所有值是相同的x, (3) ε的值相互独立,(4)ε是正态分布随机变量。

均方由于回归,表示MSR是通过SSR除以一个称为其的数字来计算的自由度;以类似的方式,误差均方,MSE,是用SSE除以它的自由度来计算的。一个基于MSR/MSE比值的f检验可用于检验因变量与的整体关系的统计显著性自变量的。总的来说,较大的F = MSR/MSE值支持总体关系具有统计学意义的结论。如果整体模型被认为具有统计学意义,统计学家通常会进行假设对单个参数进行测试,以确定每个自变量是否对模型有显著贡献。