概率论与数理统计(2)——样本与抽样分布

概率论与数理统计第六章——样本与抽样分布

第六章 样本与抽样分布

6.1 随机样本

  • 总体:试验的全部可能观察值,如一批灯泡(的寿命)。对应一个随机变量$X$。

  • 个体:总体中的每个观察值,如每一个灯泡。

  • 容量:总体中包含个体的数量。如一批灯泡的数量。

  • 总体分布:数量指标取不同数值的比率。考虑一批灯泡的寿命,不同寿命的灯泡占比列表就是总体分布。

  • 样本:独立同分布的随机变量$X_1,X_2,\cdots,X_n$与$X$有相同分布,就称其为从总体$X$得到的容量为n的简单随机样本。考虑某一批灯泡,寿命为随机变量$X$,那么其中的灯泡A的寿命$X_1$,B的寿命$X_2$……就是样本。

  • 样本容量:样本中的个体数量。

例1 设总体$X$服从参数为$\lambda$的指数分布,求其中的样本$(X_1,X_2,\cdots,X_n)$的概率密度。

总体与样本,独立同分布

总体$X$的概率密度:

\[f(x)= \left\{ \begin{aligned} &\lambda e^{-\lambda x},&x>0\\ &0, &x\leq 0 \end{aligned} \right.\]

由独立同分布,

\[f_n(x_1,x_2,\cdots,x_n)=\prod_{i=1}^n f(x_i)\\= \left\{ \begin{aligned} &\lambda^n e^{-\lambda \sum_{i=1}^nx_i},&x_i>0\\ &0, &otherwise \end{aligned} \right.\]

6.2 直方图,分位数与箱线图

6.2.1 直方图

就是以前学的。

6.2.2 分位数

样本的$p$分位数:记为$x_p(0<p<1>)$。设有n个观察值。则:

(1)至少有$np$个观察值$\leq x_p$;

(2)至少有$n(1-p)$个观察值$\geq x_p$。

\[x_p= \left\{ \begin{aligned} &x_{(\lfloor np\rfloor)},&np \notin \mathbb{Z}\\ &\frac{1}{2}[x_{(np)}+x_{(np+1)}], &np \in \mathbb{Z} \end{aligned} \right.\]

$x_{0.5}$:样本中位数,又记为$Q_2$或$M$;

$x_{0.25}$:第一四分位数,又记为$Q_1$;

$x_{0.75}$:第三四分位数,又记为$Q_3$。

6.2.3 箱线图

长这样:

箱线图

四分位数间距:$Q_1$与$Q_3$间距。记为IQR。


异常数据修正:如果数据小于$Q_1-1.5IQR$或大于$Q_1+1.5IQR$,认为异常。先去掉这样的值,画出图来,再用*标记异常值。修正箱线图大概长这样:

修正箱线图

6.3 抽样分布

6.3.1 统计量

  • 统计量:$X_1,X_2,\cdots,X_n$是总体$X$的一个样本,若$g(X_1,X_2,\cdots,X_n)$不含未知参数,就称为统计量。

常用统计量:

  • 样本均值
\[\bar X=\frac{1}{n}\sum_{i=1}^nX_i\]
  • 样本方差
\[S^2=\frac{1}{n-1}\sum_{i=1}^n(X_i-\bar X)^2=\frac{1}{n-1}(\sum_{i=1}^nX_i^2-n\bar X^2)\]
  • 样本标准差
\[S=\sqrt{S^2}\]
  • 样本k阶原点矩
\[A_k = \frac{1}{n} \sum_{i=1}^{n}X_i^k,\quad k=1,2,\cdots\]
  • 样本k阶中心矩
\[B_k=\frac{1}{n}\sum_{i=1}^n(X_i-\bar X)^k,\quad k=1,2,\cdots\]

6.3.2 经验分布函数

对样本观察值作出的分布函数。

严格定义:

\[F_n(x)=\frac{1}{n}S(x),-\infty<x<+\infty\]

其中$S(x)$为$X_1,X_2,\cdots,X_n$中不大于$x$的随机变量个数。

有个叫格里汶科的,证明了$n\to \infty$时,经验分布以概率1收敛于总体分布。

\[F_n(x)\stackrel{P=1}{\longrightarrow}F(x)\]

6.3.3 三个重要的统计学分布

$\chi^2$分布,$t$分布,$F$分布。以后学用处。

1、$\chi^2$分布

  • 定义

设$X_1,X_2,\cdots,X_n \stackrel{i.i.d}{\sim}N(0,1)$,称统计量

\[\chi^2=\sum_{i=1}^nX_i^2\]

服从的分布为自由度$n$的$\chi^2$分布。

  • $\Gamma$分布与$\chi^2$分布

以前学的看这里

$\Gamma$分布有可加性:对于相互独立的$X_1\sim \Gamma(\alpha, \lambda ),X_2\sim \Gamma(\beta, \lambda )$,若$Z=X_1+X_2$,则$Z\sim \Gamma(\alpha+\beta,\lambda)$。

  • 性质
  1. 设$\chi^2$分布自由度为$n$,则其均值$\mu=n$,方差$\sigma^2=2n$。
  2. $\chi^2$分布的可加性:对于相互独立的$\chi^2_1\sim \chi^2(m),\chi^2_2\sim \chi^2(n)$,则$\chi^2_1+\chi^2_2\sim \chi^2(m+n)$。
  • 上$\alpha$分位点

对于分布$X\sim f(x)$,若

\[P\{X>f_{\alpha}\}=\int_{f_{\alpha}}^{+\infty}f(x)dx=\alpha\]

则称$f_{\alpha}$为分布密度$f(x)$的上$\alpha$分位点。

特别地,称满足条件

\[P\{\chi^2>\chi^2_{\alpha}(n)\}=\alpha\]

的点$\chi^2_{\alpha}(n)$为$\chi^2$分布的上$\alpha$分位点。

2、$t$分布

  • 定义

设$X\sim N(0,1)$,$Y\sim \chi^2(n)$,且两者相互独立,称随机变量

\[t=\frac{X}{\sqrt{Y/n}}\]

服从自由度为$n$的$t$分布,记作$t\sim t(n)$。

$t$分布的概率密度函数(恐怕背不过):

\[h(t)=\frac{\Gamma[\frac{n+1}{2}]}{\sqrt{n\pi}\Gamma(\frac{n}{2})}\Bigg(1+\frac{t^2}{n}\Bigg)^{-\frac{n+1}{2}}, -\infty<t<+\infty\]
  • 性质

t分布

  1. 对称性:$t$分布关于$y$轴对称。
  2. 分位点:$t_{1-\alpha}(n)=-t_{\alpha}(n)。$
  3. 期望:$n=1$时,$E(t)$不存在;$n\geq 2$时,$E(t)=0$。
  4. $n\to \infty$时,$t$分布趋向于标准正态分布。
  • 推论

如果$X_1,X_2,\cdots,X_n\stackrel{i.i.d}{\sim}N(\mu,\sigma^2)$,则随机变量

\[T=\frac{\bar X-\mu}{S/\sqrt{n}}\]

为自由度为$n-1$的$t$分布。

3、$F$分布

  • 定义

设$U\sim \chi^2(n_1)$,$V\sim \chi^2(n_2)$,且两者相互独立,则称随机变量

\[F=\frac{U/n_1}{V/n_2}\]

服从自由度为$(n_1,n_2)$的$F$分布,记为$F\sim F(n_1,n_2)$。

$F$分布的密度函数(恐怕也背不过):

\[\psi (x)= \left\{ \begin{aligned} &\frac{\Gamma (\frac{n_1+n_2}{2})(\frac{n_1}{n_2})^{\frac{n}{2}}y^{\frac{n}{2}-1}}{\Gamma(\frac{n_1}{2})\Gamma(\frac{n_2}{2})(1+\frac{n_1}{n_2}y)^{\frac{n_1+n_2}{2}}},&y>0\\ &0, &otherwise \end{aligned} \right.\]
  • 性质
  1. 若$F\sim F(n_1,n_2)$,则$\frac{1}{F}\sim F(n_2,n_1)$。
  2. 分位点:$F_{1-\alpha}(n_1,n_2)=\frac{1}{F_{\alpha}(n_2,n_1)}$。

6.3.4 正态总体的抽样定理

定理1 设$X_1,X_2,\cdots,X_n$是来自总体$X\sim N(\mu,\sigma^2)$的样本,则

\[\bar X\sim N(\mu,\frac{\sigma^2}{n})\]

定理2 设$X_1,X_2,\cdots,X_n$是来自总体$X\sim N(\mu,\sigma^2)$的样本,则

(1)

\[\frac{(n-1)S^2}{\sigma^2}\sim \chi^2(n-1)\]

(2)$\bar X$与$S^2$相互独立

定理3 设$X_1,X_2,\cdots,X_n$是来自总体$X\sim N(\mu,\sigma^2)$的样本,则

\[\frac{\bar X-\mu}{S/\sqrt{n}}\sim t(n-1)\]

定理4 设$X_1,X_2,\cdots,X_n$是来自总体$X\sim N(\mu_1,\sigma_1^2)$的样本,设$Y_1,Y_2,\cdots,Y_n$是来自总体$Y\sim N(\mu_2,\sigma_2^2)$的样本,两样本分别独立,均值与方差分别为$\bar X,\bar Y,S_1^2,S_2^2$,则

\[\frac{S_1^2/\sigma_1^2}{S_2^2/\sigma_2^2}\sim F(n_1-1,n_2-1)\]