数值的措施
各种数值的措施被用来总结数据。比例,或者百分比的,数据值在每个类别的主要数值衡量定性数据。均值、中值、模式、百分位数、范围,方差,标准差是定量数据的最常用的数值方法。的的意思是计算,通常被称为平均,通过添加一个变量的所有数据值和之和除以数据值的数量。意思是一个中央位置的测量数据。的中位数是另一个衡量的中心位置,与的意思是,不是影响非常大或非常小的数据值。首先确定值时,数据值排名从最小的价值最大的价值。如果有奇数个数据值,中位数是中间值;如果有偶数个数据值,中值是两个中间值的平均值。第三集中趋势的指标模式,发生的数据值和最大频率。
百分位数提供一个数据值是如何分布在区间最小值最大的价值。约p数据值的百分比低于pth百分位,大约100−p上面的数据值的百分比p百分位。百分位数报告,例如,在大多数标准化测试。四分位数划分数据值分为四个部分;第一四分位数第25百分位,第二个四分位数是50百分位(中位数),第三个四分位数是第75百分位。
的范围的区别,最大的价值和最小的值,是最简单的测量数据的可变性。范围是由只有两种极端数据值。的方差(年代2)和标准偏差(年代),另一方面,变异性的措施是基于所有的数据和更常用。方程1显示了一个样本的方差计算公式组成的n物品。在应用方程1,偏差(差异)的每个数据值计算样本均值和的平方。然后总结并除以平方偏差n−1提供样本方差。
标准差是平方根的方差。因为标准偏差的测量单位的度量单位是一样的数据,许多人喜欢用标准差的描述性指标变化。
离群值
有时一个变量的数据将包括一个或多个值出现异常大或小,相比与其他的数据值。这些值被称为离群值,往往被错误地包含在数据集。经验丰富的统计学家采取措施来识别异常值,然后仔细审查每一个准确和恰当的数据集。如果一个包容错误,纠正措施,如拒绝数据值的问题,可以采取。平均值和标准偏差是用来识别离群值。一个z分数为每个数据值可以计算。与x代表数据值,x̄样本均值年代样本标准差,z分数是由z= (x−x̄)/年代。的z分数代表了相对位置的数据值的标准差是表示数量的意思。一个经验法则,任何值z得分大于或小于−3 + 3应该被认为是一个异类。
探索性数据分析
探索性数据分析提供了各种工具快速总结并对一组数据获得的洞察力。两个这样的方法是five-number总结和箱线图。一个five-number总结仅仅由最小的数据值,第一个四分位数,中值,第三四分位数,最大的数据值。一个箱线图是一个图形化的设备基于five-number总结。一个矩形(即。箱)的结束画矩形位于第一和第三个四分位数。矩形代表中间50%的数据。一个垂直行绘制的矩形定位中值。最后,被称为矩形的胡须,从一端延伸到最小的数据值,从另一端的矩形最大的数据值。如果存在异常值,胡须一般只扩展的最小和最大数据值并不是离群值。点,或星号,然后放置在胡须表示异常值的存在。