概率论与数理统计第六章——样本与抽样分布
第六章 样本与抽样分布
6.1 随机样本
-
总体:试验的全部可能观察值,如一批灯泡(的寿命)。对应一个随机变量$X$。
-
个体:总体中的每个观察值,如每一个灯泡。
-
容量:总体中包含个体的数量。如一批灯泡的数量。
-
总体分布:数量指标取不同数值的比率。考虑一批灯泡的寿命,不同寿命的灯泡占比列表就是总体分布。
-
样本:独立同分布的随机变量$X_1,X_2,\cdots,X_n$与$X$有相同分布,就称其为从总体$X$得到的容量为n的简单随机样本。考虑某一批灯泡,寿命为随机变量$X$,那么其中的灯泡A的寿命$X_1$,B的寿命$X_2$……就是样本。
-
样本容量:样本中的个体数量。
例1 设总体$X$服从参数为$\lambda$的指数分布,求其中的样本$(X_1,X_2,\cdots,X_n)$的概率密度。
总体与样本,独立同分布
解 总体$X$的概率密度:
\[f(x)= \left\{ \begin{aligned} &\lambda e^{-\lambda x},&x>0\\ &0, &x\leq 0 \end{aligned} \right.\]由独立同分布,
\[f_n(x_1,x_2,\cdots,x_n)=\prod_{i=1}^n f(x_i)\\= \left\{ \begin{aligned} &\lambda^n e^{-\lambda \sum_{i=1}^nx_i},&x_i>0\\ &0, &otherwise \end{aligned} \right.\]6.2 直方图,分位数与箱线图
6.2.1 直方图
就是以前学的。
6.2.2 分位数
样本的$p$分位数:记为$x_p(0<p<1>)$。设有n个观察值。则:
(1)至少有$np$个观察值$\leq x_p$;
(2)至少有$n(1-p)$个观察值$\geq x_p$。
\[x_p= \left\{ \begin{aligned} &x_{(\lfloor np\rfloor)},&np \notin \mathbb{Z}\\ &\frac{1}{2}[x_{(np)}+x_{(np+1)}], &np \in \mathbb{Z} \end{aligned} \right.\]$x_{0.5}$:样本中位数,又记为$Q_2$或$M$;
$x_{0.25}$:第一四分位数,又记为$Q_1$;
$x_{0.75}$:第三四分位数,又记为$Q_3$。
6.2.3 箱线图
长这样:
四分位数间距:$Q_1$与$Q_3$间距。记为IQR。
异常数据修正:如果数据小于$Q_1-1.5IQR$或大于$Q_1+1.5IQR$,认为异常。先去掉这样的值,画出图来,再用*标记异常值。修正箱线图大概长这样:
6.3 抽样分布
6.3.1 统计量
- 统计量:$X_1,X_2,\cdots,X_n$是总体$X$的一个样本,若$g(X_1,X_2,\cdots,X_n)$不含未知参数,就称为统计量。
常用统计量:
- 样本均值:
- 样本方差:
- 样本标准差:
- 样本k阶原点矩:
- 样本k阶中心矩:
6.3.2 经验分布函数
对样本观察值作出的分布函数。
严格定义:
\[F_n(x)=\frac{1}{n}S(x),-\infty<x<+\infty\]其中$S(x)$为$X_1,X_2,\cdots,X_n$中不大于$x$的随机变量个数。
有个叫格里汶科的,证明了$n\to \infty$时,经验分布以概率1收敛于总体分布。
\[F_n(x)\stackrel{P=1}{\longrightarrow}F(x)\]6.3.3 三个重要的统计学分布
$\chi^2$分布,$t$分布,$F$分布。以后学用处。
1、$\chi^2$分布
- 定义
设$X_1,X_2,\cdots,X_n \stackrel{i.i.d}{\sim}N(0,1)$,称统计量
\[\chi^2=\sum_{i=1}^nX_i^2\]服从的分布为自由度$n$的$\chi^2$分布。
- $\Gamma$分布与$\chi^2$分布
以前学的看这里。
$\Gamma$分布有可加性:对于相互独立的$X_1\sim \Gamma(\alpha, \lambda ),X_2\sim \Gamma(\beta, \lambda )$,若$Z=X_1+X_2$,则$Z\sim \Gamma(\alpha+\beta,\lambda)$。
- 性质
- 设$\chi^2$分布自由度为$n$,则其均值$\mu=n$,方差$\sigma^2=2n$。
- $\chi^2$分布的可加性:对于相互独立的$\chi^2_1\sim \chi^2(m),\chi^2_2\sim \chi^2(n)$,则$\chi^2_1+\chi^2_2\sim \chi^2(m+n)$。
- 上$\alpha$分位点
对于分布$X\sim f(x)$,若
\[P\{X>f_{\alpha}\}=\int_{f_{\alpha}}^{+\infty}f(x)dx=\alpha\]则称$f_{\alpha}$为分布密度$f(x)$的上$\alpha$分位点。
特别地,称满足条件
\[P\{\chi^2>\chi^2_{\alpha}(n)\}=\alpha\]的点$\chi^2_{\alpha}(n)$为$\chi^2$分布的上$\alpha$分位点。
2、$t$分布
- 定义
设$X\sim N(0,1)$,$Y\sim \chi^2(n)$,且两者相互独立,称随机变量
\[t=\frac{X}{\sqrt{Y/n}}\]服从自由度为$n$的$t$分布,记作$t\sim t(n)$。
$t$分布的概率密度函数(恐怕背不过):
\[h(t)=\frac{\Gamma[\frac{n+1}{2}]}{\sqrt{n\pi}\Gamma(\frac{n}{2})}\Bigg(1+\frac{t^2}{n}\Bigg)^{-\frac{n+1}{2}}, -\infty<t<+\infty\]- 性质
- 对称性:$t$分布关于$y$轴对称。
- 分位点:$t_{1-\alpha}(n)=-t_{\alpha}(n)。$
- 期望:$n=1$时,$E(t)$不存在;$n\geq 2$时,$E(t)=0$。
- $n\to \infty$时,$t$分布趋向于标准正态分布。
- 推论
如果$X_1,X_2,\cdots,X_n\stackrel{i.i.d}{\sim}N(\mu,\sigma^2)$,则随机变量
\[T=\frac{\bar X-\mu}{S/\sqrt{n}}\]为自由度为$n-1$的$t$分布。
3、$F$分布
- 定义
设$U\sim \chi^2(n_1)$,$V\sim \chi^2(n_2)$,且两者相互独立,则称随机变量
\[F=\frac{U/n_1}{V/n_2}\]服从自由度为$(n_1,n_2)$的$F$分布,记为$F\sim F(n_1,n_2)$。
$F$分布的密度函数(恐怕也背不过):
\[\psi (x)= \left\{ \begin{aligned} &\frac{\Gamma (\frac{n_1+n_2}{2})(\frac{n_1}{n_2})^{\frac{n}{2}}y^{\frac{n}{2}-1}}{\Gamma(\frac{n_1}{2})\Gamma(\frac{n_2}{2})(1+\frac{n_1}{n_2}y)^{\frac{n_1+n_2}{2}}},&y>0\\ &0, &otherwise \end{aligned} \right.\]- 性质
- 若$F\sim F(n_1,n_2)$,则$\frac{1}{F}\sim F(n_2,n_1)$。
- 分位点:$F_{1-\alpha}(n_1,n_2)=\frac{1}{F_{\alpha}(n_2,n_1)}$。
6.3.4 正态总体的抽样定理
定理1 设$X_1,X_2,\cdots,X_n$是来自总体$X\sim N(\mu,\sigma^2)$的样本,则
\[\bar X\sim N(\mu,\frac{\sigma^2}{n})\]定理2 设$X_1,X_2,\cdots,X_n$是来自总体$X\sim N(\mu,\sigma^2)$的样本,则
(1)
\[\frac{(n-1)S^2}{\sigma^2}\sim \chi^2(n-1)\](2)$\bar X$与$S^2$相互独立
定理3 设$X_1,X_2,\cdots,X_n$是来自总体$X\sim N(\mu,\sigma^2)$的样本,则
\[\frac{\bar X-\mu}{S/\sqrt{n}}\sim t(n-1)\]定理4 设$X_1,X_2,\cdots,X_n$是来自总体$X\sim N(\mu_1,\sigma_1^2)$的样本,设$Y_1,Y_2,\cdots,Y_n$是来自总体$Y\sim N(\mu_2,\sigma_2^2)$的样本,两样本分别独立,均值与方差分别为$\bar X,\bar Y,S_1^2,S_2^2$,则
\[\frac{S_1^2/\sigma_1^2}{S_2^2/\sigma_2^2}\sim F(n_1-1,n_2-1)\]