的中心极限定理
所期望的有用近似由中心极限定理的特殊情况下二项分布最先被发现的是亚伯拉罕·德·莫弗约1730人。让X1、……Xn是具有共同分布的独立随机变量期望μ和方差σ2.的大数定律的分布随机变量X̄n=n−1(X1+⋯+Xn)本质上就是简并分布常数μ,因为E(X̄n) = μ和Var(X =n) = σ2/n→0 asn→∞。的标准化随机变量(X)n−μ)/(σ/的平方根√n)的均值为0,方差为1。中心极限定理给出了一个显著的结果,对于任何实数一个而且b,因为n→∞,在哪里
因此,如果n是大的,标准化平均有一个分布是大致相同的,不管原始分布的X年代。方程也清楚地说明了平方根定律:X的准确度n作为估计量,μ与。成反比平方根样本量n.
利用式(12)近似求概率式(11)的左边,通过设b=−一个=ε的平方根√n/σ,得到近似G(ε的平方根√n/σ)−G(−ε的平方根√n/σ)。自G(2)−G(−2)约为0.95,n大概是4σ2/ε2使之差|Xn−μ|小于ε,概率为0.95。对于二项分布的特殊情况,可以再次使用不平等σ2=p(1−p)≤1/4,现在得出结论,必须从瓮中取出大约1100个球才能使经验抽取的红球比例将在实际红球比例的0.03以内,概率约为0.95。经常出现在报纸上的声明美国这是已知的民意调查涉及约1100人的样本有抽样错误不超过3%是基于这种计算的。在大约5%的情况下,可能会超过这3%的抽样误差,这一限定条件经常被忽略。(民意调查或抽样调查的实际情况一般比较复杂。样本是没有替换的,因此,严格来说,二项分布是不适用的。然而,“瓮”——即。,的population from which the sample is drawn—is extremely large, in many cases infinitely large for practical purposes. Hence, the作文在整个取样过程中,骨灰盒的数值实际上是相同的,二项分布适用于近似值。此外,人口通常被划分为相对的均匀群体,而调查的目的就是利用这种分层。追求类比在瓮模型中,人们可以想象球以不同的比例在几个瓮中,并且必须决定如何分配的n从不同的瓮中抽取,以便有效地估计红球的总体比例。)
在推广大数定律和中心极限定理方面已经作了相当大的努力,这样就不需要变量是独立的或同分布的。
的泊松近似
弱大数定律和中心极限定理给出了当每次试验成功的概率为时,大量独立试验中成功比例的分布信息p.在这些结果的数学公式中,假定p是区间(0,1)和中的任意但固定的数字吗n→∞,使成功的预期次数在n试用np,也向+∞方向增加n.一种相当不同的近似是有趣的n是大还是概率p对一次试验的成功率是成反比的n,所以np= μ是一个固定的数字,即使n→∞。的简单模型就是一个例子放射性衰变一种由大量相互独立的原子组成的源衰变通过自发释放一个粒子。时间尺度被划分为大量等长的非常小的间隔,在每个间隔中,与其他间隔中发生的情况无关,源概率地发射一个或不发射粒子p或问= 1−p分别。假设间隔是如此之小,以至于在单个间隔中发射两个或多个粒子的概率可以忽略不计。现在可以想象,间隔的大小缩小到0,所以试验的数量到任何固定的时间t变得无限。可以合理地假设在短时间间隔内发射的概率与间隔的长度成正比。结果是二项分布的另一种近似,称为泊松分布(以这位法国数学家命名Simeon-Denis泊松)或小数定律。
假设a有偏见的硬币有概率p= μδ个正面在长度为δ的时间间隔内抛1次,使时间t投掷的总次数是一个整数n大约等于t/δ。将这些值引入二项式方程,并传递到δ→0的极限,得到的分布N(t)即在一定时间内释放出的放射性粒子的数量t:
这个方程的右边是泊松分布.均值和方差都等于μt.尽管泊松近似在重要性上不能与中心极限定理相提并论,但它仍然提供了理论的基本构建块之一随机过程.
无限样本空间和公理化概率
无限样本空间
前面讨论中描述的实验大部分涉及有限的样本空间,尽管中心极限定理和泊松近似涉及极限操作,因此导致积分而且无穷级数.在有限样本空间内,计算某一事件发生的概率一个在概念上很简单,因为可加性原理告诉人们,计算一个复杂事件的概率是各个实验结果的概率之和,这些结果的联合定义了该事件。
有一个实验连续体可能的结果——例如,从区间[中随机选择一个数r,年代——其中涉及到一些微妙的数学难题,这些难题直到20世纪才得到圆满解决。如果一个人从[]中随机选择一个数字r,年代],表示该数字在任意区间内下降的概率[x,y]必须与间隔的长度成比例;由于整个样本空间的概率[r,年代= 1,的常数比例= 1 / (年代−r).因此,在区间[中获得一个数的概率x,y= = (y−x) / (年代−r).根据这一点和可加性原理,我们可以确定任何可以表示为a的事件的概率有限的区间并集。然而,有一些非常复杂的集合与区间没有简单的关系。,的r一个t我onal numbers—and it is not immediately clear what the probabilities of these sets should be. Also, the probability of selecting exactly the numberx必须是0,因为集组成的xAlone包含在区间[中x,x+ 1 /n为所有人n因此概率不大于1/[n(年代−r)],无论大小n是多少。因此,试图通过将组成该事件的各个结果的概率“相加”来计算事件的概率是没有意义的,因为每个结果的概率都为0。
一个密切相关的实验,虽然一开始似乎没有联系,出现如下。假设抛硬币n时代,让Xk的结果= 1或0k掷硬币是正面还是反面。上面给出的弱大数定律说,一个特定的数字序列——即公式(11)中给出的概率序列,并根据这些概率来定义nXs收敛于1n→∞。为了阐明这个结果,只需要想象一个人可以抛硬币n乘以,这个有限的投掷次数可以任意大。换句话说,有一系列的实验,但每一个都涉及有限的样本空间。也很自然地要问是否顺序的随机变量(X1+⋯+Xn)/n收敛,n→∞。然而,这个问题甚至不能用数学来表述,除非有无穷多个XS可以定义在相同的样本空间上,这反过来要求基础实验涉及一个实际的∞掷硬币。
为概念上的投掷一枚均匀硬币无限次的实验,0和1的序列,(X1,X2,…),可以与之相一致实数这是XS为以2为底的展开式系数,即X1/ 21+X2/ 22+X3./ 23.+⋯。例如,前两次抛掷得到正面,之后得到反面的结果对应于实数1/2 + 1/4 + 0/8 +⋯⋯= 3/4。(由于某些数字有两种表示形式,因此存在一些技术上的数学难题。显然,1/2 = 1/2 + 0/4 +⋯,以及an的和的公式无限几何级数表明它也等于0/2 + 1/4 + 1/8 +⋯。可以看出,这些困难并不构成严重的问题,在随后的讨论中它们被忽略了。对于任何特定的规格我1,我2、……我n0和1,事件{X1=我1,X2=我2、……Xn=我n}的概率是1/2n为了与抛硬币的实验一致n次了。而且,该事件对应于实数区间[我1/ 21+我2/ 22+⋯+我n/ 2n,我1/ 21+我2/ 22+⋯+我n/ 2n+ 1/2n长度为1/2的]n,因为任何延续Xn+ 1,Xn+ 2,…对应一个至少为0,最多为1/2的数字n+ 1+ 1/2n+ 2+⋯= 1/2n通过无穷几何级数的公式。由此可见数学模型从[0,1]中随机选择一个数字和无限次投掷一枚均匀硬币时,将相同的概率分配给形式[的所有区间k/ 2n1/2n].