概率论与数理统计(3)——参数估计

概率论与数理统计第七章——参数估计

第七章 参数估计

  • 参数估计与非参数估计

参数估计:总体分布类型已知,通过样本估计其中的未知参数;

非参数估计:总体分布类型未知,通过样本估计总体的分布。

7.1 点估计

7.1.1 问题的引入

设$X_1,X_2,\cdots,X_n$是总体$X$中的一批样本,$X$服从正态分布,但是不知道期望。该如何估计期望呢?我们就从这一批样本出发,建立一个统计量,或者说寻求一个样本的函数,用它的值来近似估计期望,这就是点估计。

  • 定义

对未知参数进行定值估计的问题就是点估计问题。

  • 估计量与估计值

构造一个统计量$\hat \theta (X_1,X_2,…,X_n)$,把样本的观察值代入,得到这个统计量的观察值$\hat \theta (x_1,x_2,…,x_n)$,用这个观察值来估计未知参数$\theta$,称前者为估计量,后者为估计值。

  • 常用构造估计值的方法

矩估计法、最大似然估计法、Bayes估计法

7.1.2 矩估计法

先看一道题目,直接看解法,体会一下方法。

例1 设总体$X$服从参数为$a,b$的均匀分布,即$X\sim U[a,b]$,参数$a,b$未知。从中得到一批样本$X_1,X_2,…,X_n$,求$a,b$的矩估计量。

:总体的$l$阶矩为:

\[\mu _l=E[X^l]\]

于是

\[\mu _1=E[X]=\frac{a+b}{2}\] \[\mu _2=E[X^2]=\frac{(b-a)^2}{12}+\frac{(a+b)^2}{4}(为什么?)\]

令样本的各阶矩与总体的各阶矩相等,不妨设样本的$l$阶矩为$A_l$,则

\[A_1=\frac{a+b}{2}\] \[A_2=\frac{(b-a)^2}{12}+\frac{(a+b)^2}{4}\]

解得

\[\hat a=A_1-\sqrt{3(A_2-A_1^2)}=\bar{X}-\sqrt{\frac{3}{n}\sum_{i=1}^n(X_i-\bar X)^2}\] \[\hat b=A_1+\sqrt{3(A_2-A_1^2)}=\bar{X}+\sqrt{\frac{3}{n}\sum_{i=1}^n(X_i-\bar X)^2}\]

注:这里用到了对样本方差的有偏估计,即$A_2-A_1^2=\frac{1}{n}\sum_{i=1}^n(X_i-\bar X)^2$。

总结: 矩估计法求估计量的步骤:

  1. 求$\mu_i=E[X^i],i=1,2,…$;
  2. 设$A_i=\mu_i$;
  3. 解上面的方程组,得各参数的矩估计。

7.1.3 极大似然估计法

对于一次随机试验,假设它有$A_1,A_2,…,A_m$种可能的结果,若在某次试验中$A_k$出现,则认为它出现的概率最高。怎么做到最高?就是把这个事件出现的概率表达式写出来,然后把观察值代入,就只剩未知参数。对未知参数求导(多个未知参数就求偏导),极大值处就是它的最高概率。

例2 设总体$X\sim B(1,p)$(那么未知参数就是$p$),从中抽取样本$X_1,X_2,…,X_n$,求参数$p$的极大似然估计。

:$X$的分布律为,

\[P\{X=x\}=p^x+(1-p)^{1-x},x=0,1\]

设样本观察值为$x_1,x_2,…,x_n$,则它发生的概率为:

\[L(p)=\prod_{i=1}^np^{x_i}(1-p)^{1-x_i},x_i=0,1\]

因此

\[\ln L(p)=\ln p\sum_{i=1}^nx_i+\ln (1-p)\bigg(n-\sum_{i=1}^nx_i\bigg)\]

认为这时概率$L(p)$极大,求极大值

\[\frac{d\ln L(p)}{dp}=0\]

解得

\[\hat p=\frac{1}{n}\sum_{i=1}^nx_i=\bar x\]

因此$p$的极大似然估计量为

\[\hat p=\frac{1}{n}\sum_{i=1}^nX_i=\bar X\]

注:可以发现它与矩估计量是相同的。

总结

  1. 写出总体概率,根据样本观察值得到样本概率$L(x_1,x_2,…,x_n;\theta_1,\theta_2,…,\theta_m)$;
  2. 对各参数求偏导得到极大值点,即为极大似然估计。

7.2 估计量的评选标准

对于同一个参数,不同估计方法得出的估计量可能不同(而且原则上任何统计量都可以作为未知参数的估计量)。因此我们要评价某种方法下的估计量到底好不好。考虑估计的性质:无偏性,有效性,相合性(一致性)。

7.2.1 无偏性

用估计量$\hat \theta =\theta (X_1,X_2,…,X_n)$来估计参数$\theta$,如果该估计量的数学期望$E(\hat \theta)$存在,且$\forall \theta$,$E(\hat \theta )=\theta$,则称$\hat \theta $为$\theta$的无偏估计量

用下面这道例题来说明无偏估计的概念,同时也说明为什么前面样本方差表达式的分母是$n-1$而不是$n$。

例3 设总体$X$均值为$\mu$,方差为$\sigma^2$,均未知。证明$\sigma^2$的估计量$\hat \sigma^2=\frac{1}{n}\sum_{i=1}^n(X_i-\bar X)^2$是有偏的,并给出其无偏估计。

证明:$\hat \sigma^2=\frac{1}{n}\sum_{i=1}^nX_i^2-\bar X^2=A_2-\bar X^2$,因此求$E(A_2)$与$E(\bar X^2)$

\[E(A_2)=\sigma^2+\mu^2\] \[E(\bar X^2)=D(\bar X)+E^2(\bar X)=\frac{\sigma^2}{n}+\mu^2\]

\[E(\hat \sigma^2)=E(A_2)-E(\bar X^2)=\frac{n-1}{n}\sigma^2\neq \sigma^2\]

因此该估计是有偏的。将其无偏化

\[E(\frac{n}{n-1}\hat \sigma^2)=\sigma^2\]

因此定义

\[S^2=\frac{n}{n-1}\hat \sigma^2=\frac{1}{n-1}\sum_{i=1}^n(X_i-\bar X)^2\]

作为方差$\sigma^2$的估计量。

7.2.2 有效性

设$\hat \theta_1=\hat \theta_1(X_1,X_2,…,X_n)$和$\hat \theta_2=\hat \theta_2(X_1,X_2,…,X_n)$是对$\theta$的两个无偏估计量。如果$D(\hat \theta_1)\leq D(\hat \theta_2)$(意为$\hat \theta_1$的观察值在真值$\theta$的附近更密集),则称$\hat \theta_1$较$\hat \theta_2$有效

7.2.3 相合性(一致性)

设$\hat \theta=\hat \theta(X_1,X_2,…,X_n)$是对$\theta$的估计量,如果$\forall \theta$,当$n\to \infty$时$\hat \theta_n\stackrel{P}{\to}\theta$,则称$\hat \theta$是$\theta$的一致估计。

7.3 区间估计

区间估计就是根据样本给出未知参数的一个范围,并希望知道这个范围包含该参数的可信程度。

7.3.1 置信区间的定义

总体$X$的分布函数$F(x;\theta)$含有一个未知参数$\theta$,给一个值$\alpha$,它很小。确定两个统计量$\bar \theta=\bar \theta(X_1,X_2,…,X_n)$和$\underline{\theta}=\underline{\theta}(X_1,X_2,…,X_n)$。若满足

\[P\{\bar \theta(X_1,X_2,...,X_n)<\theta<\underline{\theta}(X_1,X_2,...,X_n)\}=1-\alpha\]

那么随机区间$(\bar \theta,\underline{\theta})$是$\theta$的置信度为$1-\alpha$的置信区间。区间的上下限称为置信上限置信下限

7.3.2 置信区间的计算

例14 设总体$X\sim N(\mu,\sigma^2)$,其中$\sigma^2$已知,$\mu$未知,$X_1,X_2,…,X_n$是来自总体的样本。求$\mu$的一个置信水平为$1-\alpha$的置信区间。

:易知

\[\frac{\bar X-\mu}{\sigma/\sqrt{n}}\sim N(0,1)\]

因此

\[P\bigg\{\bigg|\frac{\bar X-\mu}{\sigma/\sqrt{n}}\bigg|<z_{\alpha/2}\bigg\}=1-\alpha\]

于是得到$\mu$的一个置信水平为$1-\alpha$的置信区间

\[\bigg(\bar X-\frac{\sigma}{\sqrt{n}}z_{\alpha/2},\bar X+\frac{\sigma}{\sqrt{n}}z_{\alpha/2}\bigg)\]

注:

1. 这样的置信区间也常记为$\bigg(\bar X\pm\frac{\sigma}{\sqrt{n}}z_{\alpha/2}\bigg)$;

2. 这样得到的置信区间只是一个符合题意的区间。但可以证明,对于单缝对称的分布情况,当所取的$a,b$关于对称轴对称时,能使置信区间长度最小。置信区间短表示估计精度高。

总结:求置信区间的一般步骤

  1. 求一个包含样本的函数$Z=Z(X_1,X_2,…,X_n;\theta)$,其中$Z$的分布完全确定(比如上例中的标准正态分布);
  2. 求两个常数$a,b$使得$P{a<Z(X_1,X_2,…,X_n;\theta)<b}=1-\alpha$;
  3. 从上面的不等式中解出$\bar \theta(X_1,X_2,…,X_n)<\theta<\underline{\theta}(X_1,X_2,…,X_n)$,$(\underline{\theta},\bar \theta)$即为所求的置信区间。

7.4 正态总体均值与方差的区间估计

7.4.1 单个正态总体参数的区间估计

设给定的置信水平为$1-\alpha$,$X_1,X_2,…,X_n$为总体$N(\mu,\sigma^2)$的样本,$\bar X,S^2$分别为样本均值和样本方差。

由抽样定理可导出下面的结论:

单个正态总体参数的区间估计

待估参数 其他参数 随机变量 随机变量的分布 双侧置信区间的上下限
$\mu$ $\sigma^2$已知 $\frac{\bar X-\mu}{\sigma/\sqrt{n}}$ $N(0,1)$ $\bar X\pm\frac{\sigma}{\sqrt{n}}z_{\frac{\alpha}{2}}$
$\mu$ $\sigma^2$未知 $\frac{\bar X-\mu}{S/\sqrt{n}}$ $t(n-1)$ $\bar X\pm t_{\frac{\alpha}{2}}(n-1)$
$\sigma^2$ $\mu$已知 $\sum_{i=1}^n\frac{(X_i-\mu)^2}{\sigma^2}$ $\chi^2(n)$ \(\frac{\sum_{i=1}^n(X_i-\mu)^2}{\chi^2_{\frac{\alpha}{2}}(n)},\frac{\sum_{i=1}^n(X_i-\mu)^2}{\chi^2_{1-\frac{\alpha}{2}}(n)}\)
$\sigma^2$ $\mu$未知 $\frac{(n-1)S^2}{\sigma^2}$ $\chi^2(n-1)$ \(\frac{(n-1)S^2}{\chi^2_{\frac{\alpha}{2}}(n-1)},\frac{(n-1)S^2}{\chi^2_{1-\frac{\alpha}{2}}(n-1)}\)

7.4.2 两个正态总体未知参数的置信区间

设给定的置信水平为$1-\alpha$,$X_1,X_2,…,X_{n_1}$为第一个总体$N(\mu_1,\sigma_1^2)$的样本,$Y_1,Y_2,…,Y_{n_2}$为第二个总体$N(\mu_2,\sigma_2^2)$的样本,$\bar X,\bar Y,S_1^2,S_2^2$分别为样本均值和样本方差。

注:

\[S_w^2=\frac{(n_1-1)S_1^2+(n_2-1)S_2^2}{n_1+n_2-2}\] \[S_z^2=\frac{1}{n-1}\sum_{i=1}^n(Z_i-\bar Z)^2\]

两个正态总体未知参数的置信区间

待估参数 其他参数 随机变量 随机变量的分布 双侧置信区间的上下限
$\mu_1-\mu_2$ $\sigma_1^2,\sigma_2^2$均已知 $\frac{(\bar X-\bar Y)-(\mu_1-\mu_2)}{\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}}$ $N(0,1)$ $\bar X-\bar Y\pm z_{\alpha/2}\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}$
$\mu_1-\mu_2$ $\sigma_1^2=\sigma_2^2$但未知 $\frac{(\bar X-\bar Y)-(\mu_1-\mu_2)}{S_w\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}}$ $t_{\alpha/2}(n_1+n_2-2)$ $\bar X-\bar Y\pm t_{\alpha/2}(n_1+n_2-2)S_w\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}$
$\mu_1-\mu_2$ $\sigma_1^2\neq \sigma_2^2$均未知,但$n_1=n_2=n$ $\frac{(\bar X-\bar Y)-(\mu_1-\mu_2)}{S_z/\sqrt{n}}$ $t_{\alpha/2}(n-1)$ \(\bar X-\bar Y\pm \frac{t_{\alpha/2}(n-1)S_z}{\sqrt{n}}\)
$\frac{\sigma_1^2}{\sigma_2^2}$ $\mu_1,\mu_2$均未知 $\frac{S_1^2/\sigma_1^2}{S_2^2/\sigma_2^2}$ $F(n_1-1,n_2-1)$ \(\frac{S_1^2}{S_2^2}\frac{1}{F_{\alpha/2}(n_1-1,n_2-1)},\frac{S_1^2}{S_2^2}\frac{1}{F_{1-\alpha/2}(n_1-1,n_2-1)}\)

7.5 (0-1)分布参数的区间估计

设有一容量$n>50$的大样本,来自遵从(0-1)分布的总体$X$,即$X$的分布律为$f(x;p)=p^x(1-p)^{1-x},x=0,1$,p为未知参数。

$p$的置信度为$1-\alpha$的置信区间为:

\[\bigg(\frac{-b-\sqrt{b^2-4ac}}{2a},\frac{-b+\sqrt{b^2-4ac}}{2a}\bigg)\]

其中,$a=n+z_{\alpha/2}^2,b=-(2n\bar X+z_{\alpha/2}^2),c=n\bar X^2$。

为何具有一元二次方程根的形式?这是因为大样本近似服从中心极限定理,因此可以用标准正态分布的分位点近似计算,可以得到下式:

\[(n+z_{\alpha/2}^2)p^2-(2n\bar X+z_{\alpha/2}^2)p+n\bar X^2<0\]

求解即得到结论。

7.6 单侧置信区间

上面的问题我们都是关心双侧置信区间,也就是说对未知参数$\theta$我们给出了上下界$\underline{\theta},\bar \theta$,但有些问题中的参数我们希望它“越高/低越好”,或者说我们只关心它的“上限/下限是什么”。比如对于元件的寿命,我们关心的是平均寿命的“下限”,对于产品的废品率,我们关心的是废品率的“上限”。这些都是单侧的,因此有单侧置信区间的概念。

置信下限:满足

\[P\{\theta>\underline{\theta}(X_1,X_2,...,X_n)\}\geq 1-\alpha\]

的随机区间是$\theta$的置信度为$1-\alpha$的单侧置信区间,$\underline{\theta}$称为置信下限。

置信上限:满足

\[P\{\theta<\overline{\theta}(X_1,X_2,...,X_n)\}\geq 1-\alpha\]

的随机区间是$\theta$的置信度为$1-\alpha$的单侧置信区间,$\overline{\theta}$称为置信上限。

正态总体均值与方差的单侧置信区间

设$X\sim N(\mu,\sigma^2)$,$X_1,X_2,…,X_n$是一个样本。

(1) 由

\[\frac{\bar X-\mu}{S/\sqrt{n}}\sim t(n-1)\]

得到$\mu$的置信水平为$1-\alpha$的置信下限:

\[\underline{\mu}=\bar X-\frac{S}{\sqrt{n}}t_\alpha(n-1)\]

(2) 由

\[\frac{(n-1)S^2}{\sigma^2}\sim \chi^2(n-1)\]

得到$\sigma^2$的置信水平为$1-\alpha$的置信上限(注意方差恒大于零,因此单侧置信区间为$(0,\bar \sigma^2)$):

\[\bar \sigma^2=\frac{(n-1)S^2}{\chi_{1-\alpha}^2(n-1)}\]