概率论与数理统计第九章——方差分析及回归分析
注:提纲式内容,因此具体数学模型等理论性内容省略。
第九章 方差分析及回归分析
9.1 单因素试验的方差分析
-
因素:影响试验结果的条件。
-
单因素试验:为了考察某个因素$A$对所考察的随机变量$X$的影响,在试验中让其它因素保持不变,仅让$A$改变。(类似于控制变量)
-
水平:因素$A$所处的状态称为水平。
9.1.1 相关参数与表达式
设所考察的因素A有s个水平,每个水平$A_j$下进行$n_j$次独立试验,得到结果:
水平 | $A_1$ | $A_2$ | … | $A_s$ |
---|---|---|---|---|
样本观测 | $X_{11},X_{21},…,X_{n_11}$ | $X_{12},X_{22},…,X_{n_22}$ | … | $X_{1s},X_{2s},…,X_{n_ss}$ |
样本总和 | $T_{\cdot 1}$ | $T_{\cdot 2}$ | … | $T_{\cdot s}$ |
样本均值 | $\bar X_{\cdot 1}$ | $\bar X_{\cdot 2}$ | … | $\bar X_{\cdot s}$ |
总体均值 | $\mu_1$ | $\mu_2$ | … | $\mu_s$ |
其中
\[T_{\cdot j}=\sum_{i=1}^{n_j}X_{ij}\] \[\bar X_{\cdot j}=\frac{1}{n_j}\sum_{i=1}^{n_j}X_{ij}\]数学模型及检验假设请见PPT C26 第6页
三种平方和:
- 总偏差平方和:
- 误差平方和:
- 效应平方和:
记$n=\sum_{j=1}^sn_j,\delta_j=\mu_j-\mu$,上述平方和具有如下性质:
(1) $S_E/\sigma^2\sim \chi^2(n-s)$
(2) $E(S_E)=(n-s)\sigma^2$
(3) $E(S_A)=\sum_{j=1}^sn_j\delta_j^2+(s-1)\sigma^2$
(4) $S_E$与$S_A$相互独立
(5) 当$H_0$为真时,
\[\frac{S_A}{\sigma^2}\sim \chi^2(s-1)\](6) 当$H_0$为真时,
\[F=\frac{S_A/(s-1)}{S_E/(n-s)}\sim F(s-1,n-s)\]单因素试验方差分析表:
方差来源 | 平方和 | 自由度 | 均方 | F比 |
---|---|---|---|---|
因素A | $S_A$ | $s-1$ | $\bar S_A=\frac{S_A}{s-1}$ | $\bar S_A/\bar S_E$ |
误差 | $S_E$ | $n-s$ | $\bar S_E=\frac{S_E}{n-s}$ | $\bar S_A/\bar S_E$ |
总和 | $S_T$ | $n-1$ |
9.1.2 检验方法
- 检验假设:
$H_0:\delta_1=\delta_2=\cdots=\delta_s=0$
$H_1:\delta_1,\delta_2,\cdots,\delta_s$不全为0
- 拒绝域:
通过检验样本的F比是否落在拒绝域中来决定是否拒绝原假设。
下面是计算$S_T,S_A,S_E$的简便公式:
\[S_T=\sum_{j=1}^s\sum_{i=1}^{n_j}X_{ij}^2-\frac{T_{\cdot \cdot }^2}{n}\] \[S_A=\sum_{j=1}^s\frac{T_{\cdot j}^2}{n_j}-\frac{T_{\cdot \cdot }^2}{n}\] \[S_E=S_T-S_A\]9.1.3 未知参数的估计
相关参数及其无偏估计如下:
参数$\theta$ | 无偏估计$\widehat{\theta}$ |
---|---|
$\sigma^2$ | $\frac{S_E}{n-s}$ |
$\mu$ | $\bar X$ |
$\mu_j$ | $\bar X_{\cdot j}$ |
$\delta_j$ | $\bar X_{\cdot j}-\bar X$ |
当拒绝$H_0$时,需要作出总体$N(\mu_j,\delta^2)$和$N(\mu_k,\delta^2)$的均值差$\mu_j=\mu_k=\delta_j-\delta_k$的区间估计,其置信区间为:
\[\Bigg(\bar X_{\cdot j}-\bar X_{\cdot k}\pm t_{\alpha/2}(n-s)\sqrt{\bar S_E\bigg(\frac{1}{n_j}+\frac{1}{n_k}\bigg)}\Bigg)\]9.2 双因素试验的方差分析
有两个因素作用于试验指标,因素A有r个水平,因素B有s个水平,对每对组合$(A_i,B_j)$做t次试验,记水平$A_i,B_j$下第k次试验指标为$X_{ijk}$,$X_{ijk}\sim N(\mu_{ij},\sigma^2)$,称为双因素等重复试验。所有试验相互独立。
9.2.1 相关参数
\[\mu=\frac{1}{rs}\sum_{i=1}^r\sum_{j=1}^s\mu_{ij}\] \[\mu_{i\cdot}=\frac{1}{s}\sum_{j=1}^s\mu_{ij} \quad ,i=1,...,r\] \[\mu_{j\cdot}=\frac{1}{r}\sum_{i=1}^r\mu_{ij} \quad ,j=1,...,s\]水平$A_i$的效应:$\alpha_i=\mu_{i\cdot}-\mu$
水平$B_j$的效应:$\beta_j=\mu_{\cdot j}-\mu$
于是有
\[\mu_{ij}=\mu+\alpha_i+\beta_j+\gamma_{ij}\]其中$\gamma_{ij}=\mu_{ij}-\mu_{i\cdot}-\mu_{\cdot j}+\mu$称为水平$A_i,B_j$的交互效应。
平方和分解:
\[S_T=S_E+S_A+S_B+S_{A\times B}\]总偏差平方和:
\[S_T=\sum_{i=1}^r\sum_{j=1}^s\sum_{k=1}^t(X_{ijk}-\bar X)^2\]误差平方和:
\[S_E=\sum_{i=1}^r\sum_{j=1}^s\sum_{k=1}^t(X_{ijk}-\bar X_{ij\cdot})^2\]效应平方和:
\[S_A=st\sum_{i=1}^r(\bar X_{i\cdot \cdot}-\bar X)^2,S_B=rt\sum_{j=1}^s(\bar X_{\cdot j\cdot}-\bar X)^2\]交互效应平方和:
\[S_{A\times B}=t\sum_{i=1}^r\sum_{j=1}^s(\bar X_{ij\cdot}-\bar X_{i\cdot \cdot}-\bar X_{\cdot j\cdot}+\bar X)^2\]双因素等重复试验方差分析表
方差来源 | 平方和 | 自由度 | 均方 | F比 |
---|---|---|---|---|
因素A | $S_A$ | $r-1$ | $\bar S_A=\frac{S_A}{r-1}$ | $F_A=\frac{\bar S_A}{\bar S_E}$ |
因素B | $S_B$ | $s-1$ | $\bar S_B=\frac{S_B}{s-1}$ | $F_B=\frac{\bar S_B}{\bar S_E}$ |
交互作用 | $S_{A\times B}$ | $(r-1)(s-1)$ | $\bar S_{A\times B}=\frac{S_{A\times B}}{(r-1)(s-1)}$ | $F_{A\times B}=\frac{\bar S_{A\times B}}{\bar S_E}$ |
误差 | $S_E$ | $rs(t-1)$ | $\bar S_E=\frac{S_E}{rs(t-1)}$ | |
总和 | $S_T$ | $rst-1$ |
9.2.2 数学模型与检验假设
有数学模型
\[\left\{ \begin{aligned} & X_{ijk}=\mu+\alpha_i+\beta_j+\gamma_{ij}+\epsilon_{ijk}\\ & \epsilon_{ijk}\sim N(0,\sigma^2) & ,各\epsilon_{ijk}独立\\ & \sum_{i=1}^r\alpha_i=\sum_{j=1}^s\beta_j=\sum_{i=1}^r\gamma_{ij}=\sum_{j=1}^s\gamma_{ij}=0\\ \end{aligned} \right.\]其中$\mu,\alpha_i,\beta_j,\gamma_{ij},\sigma^2$均为未知参数,$\gamma_{ij}$称为水平$A_i$和$B_j$的交互效应。
检验假设
\[\left\{ \begin{aligned} & H_{01}:\alpha_1=\alpha_2=\cdots=\alpha_r=0\\ & H_{11}:\alpha_1,\alpha_2,\cdots,\alpha_r不全为0\\ \end{aligned} \right.\] \[\left\{ \begin{aligned} & H_{02}:\beta_1=\beta_2=\cdots=\beta_s=0\\ & H_{12}:\beta_1,\beta_2,\cdots,\beta_s不全为0\\ \end{aligned} \right.\] \[\left\{ \begin{aligned} & H_{03}:\gamma_{11}=\gamma_{12}=\cdots=\gamma_{rs}=0\\ & H_{13}:\gamma_{11},\gamma_{12},\cdots,\gamma_{rs}不全为0\\ \end{aligned} \right.\]9.2.3 检验方法
$H_{01}$的拒绝域
\[F_A=\frac{S_A/(r-1)}{S_E/\big(rs(t-1)\big)}\geq F_{\alpha}\big(r-1,rs(t-1)\big)\]$H_{02}$的拒绝域
\[F_B=\frac{S_B/(s-1)}{S_E/\big(rs(t-1)\big)}\geq F_{\alpha}\big(s-1,rs(t-1)\big)\]$H_{03}$的拒绝域
\[F_{A\times B}=\frac{S_{A\times B}/\big((r-1)(s-1)\big)}{S_E/\big(rs(t-1)\big)}\geq F_{\alpha}\big((r-1)(s-1),rs(t-1)\big)\]9.2.3 双因素无重复试验的方差分析
无重复试验是指对每对水平组合只做一次试验,因素之间的交互作用不存在或可以忽略。
数学模型
\[\left\{ \begin{aligned} & X_{ij}=\mu+\alpha_i+\beta_j+\epsilon_{ij}\\ & \epsilon_{ij}\sim N(0,\sigma^2) & ,各\epsilon_{ij}独立\\ & \sum_{i=1}^r\alpha_i=\sum_{j=1}^s\beta_j=0 \end{aligned} \right.\]检验假设
\[\left\{ \begin{aligned} & H_{01}:\alpha_1=\alpha_2=\cdots=\alpha_r=0\\ & H_{11}:\alpha_1,\alpha_2,\cdots,\alpha_r不全为0 \end{aligned} \right.\] \[\left\{ \begin{aligned} & H_{02}:\beta_1=\beta_2=\cdots=\beta_s=0\\ & H_{12}:\beta_1,\beta_2,\cdots,\beta_s不全为0 \end{aligned} \right.\]双因素无重复试验方差分析表
方差来源 | 平方和 | 自由度 | 均方 | F比 |
---|---|---|---|---|
因素A | $S_A$ | $r-1$ | $\bar S_A=\frac{S_A}{r-1}$ | $F_A=\frac{\bar S_A}{\bar S_E}$ |
因素B | $S_B$ | $s-1$ | $\bar S_B=\frac{S_B}{s-1}$ | $F_B=\frac{\bar S_B}{\bar S_E}$ |
误差 | $S_E$ | $(r-1)(s-1)$ | $\bar S_E=\frac{S_E}{(r-1)(s-1)}$ | |
总和 | $S_T$ | $rs-1$ |
假设$H_{01}$的拒绝域为
\[F_B=\frac{S_B/(s-1)}{S_E/\big((r-1)(s-1)\big)}\geq F_{\alpha}\big(s-1,(r-1)(s-1)\big)\]9.3 一元线性回归
9.3.1 相关参数与记号约定
为方便描述和计算,引入下述记号
\[S_{xx}=\sum_{i=1}^n(x_i-\bar x)^2\] \[S_{yy}=\sum_{i=1}^n(y_i-\bar y)^2\] \[S_{xy}=\sum_{i=1}^n(x_i-\bar x)(y_i-\bar y)\]9.3.2 一元线性回归模型
假设对于x的每个值,$Y\sim N(a+bx,\sigma^2)$。记$\epsilon=Y-(a+bx)$,则有
\[Y=a+bx+\epsilon \quad ,\epsilon\sim N(0,\sigma^2)\]上式称为一元线性回归模型。b称为回归系数。计算得
\[\left\{ \begin{aligned} & \hat a=\bar y-\hat b\bar x\\ & \hat b=\frac{S_{xy}}{S_{xx}} \end{aligned} \right.\]如果Y不是正态变量,可以令残差的平方和最小来估计a,b,与上面得到的结果相同(实际上这就是高中学的方法)。
9.3.3 相关参数的估计与检验
- $\sigma^2$的估计
记残差平方和$Q_e=\sum_{i=1}^n(y_i-\hat y_i)^2$,计算得
\[Q_e=S_{yy}-\hat bS_{xy}\]可以证明,
\[\frac{Q_e}{\sigma^2}\sim \chi^2(n-2)\]因此得到$\hat \sigma ^2$的无偏估计
\[\hat \sigma^2=\frac{1}{n-2}(S_{yy}-\hat bS_{xy})\]- 线性假设的显著性检验
即询问:$\mu(x)$是否具有形式$a+bx$?
检验假设
\[H_0:b=0 \quad \quad H_1:b\neq 0\]可以证明
\[\hat b\sim N\bigg(b,\frac{\sigma^2}{S_{xx}}\bigg)\]$H_0$的拒绝域为
\[|t|=\frac{|\hat b|}{\hat \sigma}\sqrt{S_{xx}}\geq t_{\frac{\alpha}{2}}(n-2)\]当拒绝$H_0$时,认为回归效果是显著的。
- 系数$b$的置信区间
回归效果显著时,由上面推导得出的
\[\frac{\hat b-b}{\hat \sigma}\sqrt{S_{xx}}\sim t(n-2)\]可以得到$b$的置信水平为$1-\alpha$的置信区间:
\[\Bigg(\hat b\pm t_{\frac{\alpha}{2}}(n-2)\times \frac{\hat \sigma }{\sqrt{S_{xx}}}\Bigg)\]- 回归函数值的点估计和置信区间
$\mu(x_0)=a+bx_0$的点估计即为
\[\hat \mu(x_0)=\hat a+\hat bx_0\]一元回归模型中Y服从正态分布,由此可得出$\mu(x_0)=a+bx_0$的置信水平为$1-\alpha$的置信区间为
\[\Bigg(\hat a+\hat bx_0\pm t_{\frac{\alpha}{2}}(n-2)\hat \sigma\sqrt{\frac{1}{n}+\frac{(x_0-\bar x)^2}{S_{xx}}}\Bigg)\]置信区间随$\mid x_0-\bar x\mid $的增加而增加,当$x_0=\bar x$时最短。
- Y的观察值的点预测和预测区间
$Y_0$的点预测:
\[\hat Y_0=\hat \mu(x_0)=\hat a+\hat bx_0\]$Y_0$的置信水平为$1-\alpha$的预测区间为
\[\Bigg(\hat a+\hat b x_0\pm t_{\frac{\alpha}{2}}(n-2)\hat \sigma \sqrt{1+\frac{1}{n}+\frac{(x_0-\bar x)^2}{S_{xx}}}\Bigg)\]预测区间随$\mid x_0-\bar x\mid $的增加而增加,当$x_0=\bar x$时最短。
注意到在相同的置信水平下,回归函数值的置信区间$\mu(x_0)$要比$Y_0$的预测区间短,这是因为$Y_0=a+bx_0+\epsilon_0$比$\mu(x_0)=a+bx_0$多了一项$\epsilon_0$。
注:通过适当的变量变换,可以把非线性问题转换为线性回归问题进行研究。
9.4 多元线性回归
设
\[Y=b_0+b_1x_1+\cdots+b_px_p+\epsilon \quad \quad ,\epsilon \sim N(0,\sigma^2)\]一组样本
\[(x_{11},x_{12},...,x_{1p},y_1),\cdots,(x_{n1},x_{n2},...,x_{np},y_n)\]引入矩阵表示
\[X= \left( \begin{aligned} & 1 & x_{11} & \cdots & x_{1p}\\ & 1 & x_{21} & \cdots & x_{2p}\\ & \vdots & \vdots & \ddots & \vdots\\ & 1 & x_{n1} & \cdots & x_{np} \end{aligned} \right)\] \[Y=[y_1,y_2,...,y_n]\] \[B=[b_0,b_1,...,b_p]\]通过极大似然估计法可以得到正规方程组
\[X^TXB=X^TY\]得到各系数的极大似然估计
\[\widehat B=[\hat b_0,\hat b_1,...,\hat b_p]=(X^TX)^{-1}X^TY\]得到p元经验回归函数
\[\hat y=\hat b_0+\hat b_1x_1+\cdots+\hat b_px_p\]