概率论与数理统计(5)——方差分析及回归分析

概率论与数理统计第九章——方差分析及回归分析

注:提纲式内容,因此具体数学模型等理论性内容省略。

第九章 方差分析及回归分析

9.1 单因素试验的方差分析

  • 因素:影响试验结果的条件。

  • 单因素试验:为了考察某个因素$A$对所考察的随机变量$X$的影响,在试验中让其它因素保持不变,仅让$A$改变。(类似于控制变量)

  • 水平:因素$A$所处的状态称为水平

9.1.1 相关参数与表达式

设所考察的因素A有s个水平,每个水平$A_j$下进行$n_j$次独立试验,得到结果:

水平 $A_1$ $A_2$ $A_s$
样本观测 $X_{11},X_{21},…,X_{n_11}$ $X_{12},X_{22},…,X_{n_22}$ $X_{1s},X_{2s},…,X_{n_ss}$
样本总和 $T_{\cdot 1}$ $T_{\cdot 2}$ $T_{\cdot s}$
样本均值 $\bar X_{\cdot 1}$ $\bar X_{\cdot 2}$ $\bar X_{\cdot s}$
总体均值 $\mu_1$ $\mu_2$ $\mu_s$

其中

\[T_{\cdot j}=\sum_{i=1}^{n_j}X_{ij}\] \[\bar X_{\cdot j}=\frac{1}{n_j}\sum_{i=1}^{n_j}X_{ij}\]

数学模型及检验假设请见PPT C26 第6页

三种平方和:

  • 总偏差平方和
\[S_T=S_E+S_A\]
  • 误差平方和
\[S_E=\sum_{j=1}^s\sum_{i=1}^{n_j}(X_{ij}-\bar X_{\cdot j}^2)^2\]
  • 效应平方和
\[S_A=\sum_{j=1}^s\sum_{i=1}^{n_j}(\bar X_{\cdot j}-\bar X)^2\]

记$n=\sum_{j=1}^sn_j,\delta_j=\mu_j-\mu$,上述平方和具有如下性质

(1) $S_E/\sigma^2\sim \chi^2(n-s)$

(2) $E(S_E)=(n-s)\sigma^2$

(3) $E(S_A)=\sum_{j=1}^sn_j\delta_j^2+(s-1)\sigma^2$

(4) $S_E$与$S_A$相互独立

(5) 当$H_0$为真时,

\[\frac{S_A}{\sigma^2}\sim \chi^2(s-1)\]

(6) 当$H_0$为真时,

\[F=\frac{S_A/(s-1)}{S_E/(n-s)}\sim F(s-1,n-s)\]

单因素试验方差分析表:

方差来源 平方和 自由度 均方 F比
因素A $S_A$ $s-1$ $\bar S_A=\frac{S_A}{s-1}$ $\bar S_A/\bar S_E$
误差 $S_E$ $n-s$ $\bar S_E=\frac{S_E}{n-s}$ $\bar S_A/\bar S_E$
总和 $S_T$ $n-1$    

9.1.2 检验方法

  • 检验假设

$H_0:\delta_1=\delta_2=\cdots=\delta_s=0$

$H_1:\delta_1,\delta_2,\cdots,\delta_s$不全为0

  • 拒绝域
\[F=\frac{S_A/(s-1)}{S_E/(n-s)}\geq F_{\alpha}(s-1,n-s)\]

通过检验样本的F比是否落在拒绝域中来决定是否拒绝原假设。

下面是计算$S_T,S_A,S_E$的简便公式:

\[S_T=\sum_{j=1}^s\sum_{i=1}^{n_j}X_{ij}^2-\frac{T_{\cdot \cdot }^2}{n}\] \[S_A=\sum_{j=1}^s\frac{T_{\cdot j}^2}{n_j}-\frac{T_{\cdot \cdot }^2}{n}\] \[S_E=S_T-S_A\]

9.1.3 未知参数的估计

相关参数及其无偏估计如下:

参数$\theta$ 无偏估计$\widehat{\theta}$
$\sigma^2$ $\frac{S_E}{n-s}$
$\mu$ $\bar X$
$\mu_j$ $\bar X_{\cdot j}$
$\delta_j$ $\bar X_{\cdot j}-\bar X$

当拒绝$H_0$时,需要作出总体$N(\mu_j,\delta^2)$和$N(\mu_k,\delta^2)$的均值差$\mu_j=\mu_k=\delta_j-\delta_k$的区间估计,其置信区间为:

\[\Bigg(\bar X_{\cdot j}-\bar X_{\cdot k}\pm t_{\alpha/2}(n-s)\sqrt{\bar S_E\bigg(\frac{1}{n_j}+\frac{1}{n_k}\bigg)}\Bigg)\]

9.2 双因素试验的方差分析

有两个因素作用于试验指标,因素A有r个水平,因素B有s个水平,对每对组合$(A_i,B_j)$做t次试验,记水平$A_i,B_j$下第k次试验指标为$X_{ijk}$,$X_{ijk}\sim N(\mu_{ij},\sigma^2)$,称为双因素等重复试验。所有试验相互独立。

9.2.1 相关参数

\[\mu=\frac{1}{rs}\sum_{i=1}^r\sum_{j=1}^s\mu_{ij}\] \[\mu_{i\cdot}=\frac{1}{s}\sum_{j=1}^s\mu_{ij} \quad ,i=1,...,r\] \[\mu_{j\cdot}=\frac{1}{r}\sum_{i=1}^r\mu_{ij} \quad ,j=1,...,s\]

水平$A_i$的效应:$\alpha_i=\mu_{i\cdot}-\mu$

水平$B_j$的效应:$\beta_j=\mu_{\cdot j}-\mu$

于是有

\[\mu_{ij}=\mu+\alpha_i+\beta_j+\gamma_{ij}\]

其中$\gamma_{ij}=\mu_{ij}-\mu_{i\cdot}-\mu_{\cdot j}+\mu$称为水平$A_i,B_j$的交互效应。

平方和分解:

\[S_T=S_E+S_A+S_B+S_{A\times B}\]

总偏差平方和:

\[S_T=\sum_{i=1}^r\sum_{j=1}^s\sum_{k=1}^t(X_{ijk}-\bar X)^2\]

误差平方和:

\[S_E=\sum_{i=1}^r\sum_{j=1}^s\sum_{k=1}^t(X_{ijk}-\bar X_{ij\cdot})^2\]

效应平方和:

\[S_A=st\sum_{i=1}^r(\bar X_{i\cdot \cdot}-\bar X)^2,S_B=rt\sum_{j=1}^s(\bar X_{\cdot j\cdot}-\bar X)^2\]

交互效应平方和:

\[S_{A\times B}=t\sum_{i=1}^r\sum_{j=1}^s(\bar X_{ij\cdot}-\bar X_{i\cdot \cdot}-\bar X_{\cdot j\cdot}+\bar X)^2\]

双因素等重复试验方差分析表

方差来源 平方和 自由度 均方 F比
因素A $S_A$ $r-1$ $\bar S_A=\frac{S_A}{r-1}$ $F_A=\frac{\bar S_A}{\bar S_E}$
因素B $S_B$ $s-1$ $\bar S_B=\frac{S_B}{s-1}$ $F_B=\frac{\bar S_B}{\bar S_E}$
交互作用 $S_{A\times B}$ $(r-1)(s-1)$ $\bar S_{A\times B}=\frac{S_{A\times B}}{(r-1)(s-1)}$ $F_{A\times B}=\frac{\bar S_{A\times B}}{\bar S_E}$
误差 $S_E$ $rs(t-1)$ $\bar S_E=\frac{S_E}{rs(t-1)}$  
总和 $S_T$ $rst-1$    

9.2.2 数学模型与检验假设

有数学模型

\[\left\{ \begin{aligned} & X_{ijk}=\mu+\alpha_i+\beta_j+\gamma_{ij}+\epsilon_{ijk}\\ & \epsilon_{ijk}\sim N(0,\sigma^2) & ,各\epsilon_{ijk}独立\\ & \sum_{i=1}^r\alpha_i=\sum_{j=1}^s\beta_j=\sum_{i=1}^r\gamma_{ij}=\sum_{j=1}^s\gamma_{ij}=0\\ \end{aligned} \right.\]

其中$\mu,\alpha_i,\beta_j,\gamma_{ij},\sigma^2$均为未知参数,$\gamma_{ij}$称为水平$A_i$和$B_j$的交互效应。

检验假设

\[\left\{ \begin{aligned} & H_{01}:\alpha_1=\alpha_2=\cdots=\alpha_r=0\\ & H_{11}:\alpha_1,\alpha_2,\cdots,\alpha_r不全为0\\ \end{aligned} \right.\] \[\left\{ \begin{aligned} & H_{02}:\beta_1=\beta_2=\cdots=\beta_s=0\\ & H_{12}:\beta_1,\beta_2,\cdots,\beta_s不全为0\\ \end{aligned} \right.\] \[\left\{ \begin{aligned} & H_{03}:\gamma_{11}=\gamma_{12}=\cdots=\gamma_{rs}=0\\ & H_{13}:\gamma_{11},\gamma_{12},\cdots,\gamma_{rs}不全为0\\ \end{aligned} \right.\]

9.2.3 检验方法

$H_{01}$的拒绝域

\[F_A=\frac{S_A/(r-1)}{S_E/\big(rs(t-1)\big)}\geq F_{\alpha}\big(r-1,rs(t-1)\big)\]

$H_{02}$的拒绝域

\[F_B=\frac{S_B/(s-1)}{S_E/\big(rs(t-1)\big)}\geq F_{\alpha}\big(s-1,rs(t-1)\big)\]

$H_{03}$的拒绝域

\[F_{A\times B}=\frac{S_{A\times B}/\big((r-1)(s-1)\big)}{S_E/\big(rs(t-1)\big)}\geq F_{\alpha}\big((r-1)(s-1),rs(t-1)\big)\]

9.2.3 双因素无重复试验的方差分析

无重复试验是指对每对水平组合只做一次试验,因素之间的交互作用不存在或可以忽略。

数学模型

\[\left\{ \begin{aligned} & X_{ij}=\mu+\alpha_i+\beta_j+\epsilon_{ij}\\ & \epsilon_{ij}\sim N(0,\sigma^2) & ,各\epsilon_{ij}独立\\ & \sum_{i=1}^r\alpha_i=\sum_{j=1}^s\beta_j=0 \end{aligned} \right.\]

检验假设

\[\left\{ \begin{aligned} & H_{01}:\alpha_1=\alpha_2=\cdots=\alpha_r=0\\ & H_{11}:\alpha_1,\alpha_2,\cdots,\alpha_r不全为0 \end{aligned} \right.\] \[\left\{ \begin{aligned} & H_{02}:\beta_1=\beta_2=\cdots=\beta_s=0\\ & H_{12}:\beta_1,\beta_2,\cdots,\beta_s不全为0 \end{aligned} \right.\]

双因素无重复试验方差分析表

方差来源 平方和 自由度 均方 F比
因素A $S_A$ $r-1$ $\bar S_A=\frac{S_A}{r-1}$ $F_A=\frac{\bar S_A}{\bar S_E}$
因素B $S_B$ $s-1$ $\bar S_B=\frac{S_B}{s-1}$ $F_B=\frac{\bar S_B}{\bar S_E}$
误差 $S_E$ $(r-1)(s-1)$ $\bar S_E=\frac{S_E}{(r-1)(s-1)}$  
总和 $S_T$ $rs-1$    

假设$H_{01}$的拒绝域为

\[F_B=\frac{S_B/(s-1)}{S_E/\big((r-1)(s-1)\big)}\geq F_{\alpha}\big(s-1,(r-1)(s-1)\big)\]

9.3 一元线性回归

9.3.1 相关参数与记号约定

为方便描述和计算,引入下述记号

\[S_{xx}=\sum_{i=1}^n(x_i-\bar x)^2\] \[S_{yy}=\sum_{i=1}^n(y_i-\bar y)^2\] \[S_{xy}=\sum_{i=1}^n(x_i-\bar x)(y_i-\bar y)\]

9.3.2 一元线性回归模型

假设对于x的每个值,$Y\sim N(a+bx,\sigma^2)$。记$\epsilon=Y-(a+bx)$,则有

\[Y=a+bx+\epsilon \quad ,\epsilon\sim N(0,\sigma^2)\]

上式称为一元线性回归模型。b称为回归系数。计算得

\[\left\{ \begin{aligned} & \hat a=\bar y-\hat b\bar x\\ & \hat b=\frac{S_{xy}}{S_{xx}} \end{aligned} \right.\]

如果Y不是正态变量,可以令残差的平方和最小来估计a,b,与上面得到的结果相同(实际上这就是高中学的方法)。

9.3.3 相关参数的估计与检验

  • $\sigma^2$的估计

记残差平方和$Q_e=\sum_{i=1}^n(y_i-\hat y_i)^2$,计算得

\[Q_e=S_{yy}-\hat bS_{xy}\]

可以证明,

\[\frac{Q_e}{\sigma^2}\sim \chi^2(n-2)\]

因此得到$\hat \sigma ^2$的无偏估计

\[\hat \sigma^2=\frac{1}{n-2}(S_{yy}-\hat bS_{xy})\]
  • 线性假设的显著性检验

即询问:$\mu(x)$是否具有形式$a+bx$?

检验假设

\[H_0:b=0 \quad \quad H_1:b\neq 0\]

可以证明

\[\hat b\sim N\bigg(b,\frac{\sigma^2}{S_{xx}}\bigg)\]

$H_0$的拒绝域为

\[|t|=\frac{|\hat b|}{\hat \sigma}\sqrt{S_{xx}}\geq t_{\frac{\alpha}{2}}(n-2)\]

当拒绝$H_0$时,认为回归效果是显著的。

  • 系数$b$的置信区间

回归效果显著时,由上面推导得出的

\[\frac{\hat b-b}{\hat \sigma}\sqrt{S_{xx}}\sim t(n-2)\]

可以得到$b$的置信水平为$1-\alpha$的置信区间:

\[\Bigg(\hat b\pm t_{\frac{\alpha}{2}}(n-2)\times \frac{\hat \sigma }{\sqrt{S_{xx}}}\Bigg)\]
  • 回归函数值的点估计和置信区间

$\mu(x_0)=a+bx_0$的点估计即为

\[\hat \mu(x_0)=\hat a+\hat bx_0\]

一元回归模型中Y服从正态分布,由此可得出$\mu(x_0)=a+bx_0$的置信水平为$1-\alpha$的置信区间为

\[\Bigg(\hat a+\hat bx_0\pm t_{\frac{\alpha}{2}}(n-2)\hat \sigma\sqrt{\frac{1}{n}+\frac{(x_0-\bar x)^2}{S_{xx}}}\Bigg)\]

置信区间随$\mid x_0-\bar x\mid $的增加而增加,当$x_0=\bar x$时最短。

  • Y的观察值的点预测和预测区间

$Y_0$的点预测:

\[\hat Y_0=\hat \mu(x_0)=\hat a+\hat bx_0\]

$Y_0$的置信水平为$1-\alpha$的预测区间为

\[\Bigg(\hat a+\hat b x_0\pm t_{\frac{\alpha}{2}}(n-2)\hat \sigma \sqrt{1+\frac{1}{n}+\frac{(x_0-\bar x)^2}{S_{xx}}}\Bigg)\]

预测区间随$\mid x_0-\bar x\mid $的增加而增加,当$x_0=\bar x$时最短。

注意到在相同的置信水平下,回归函数值的置信区间$\mu(x_0)$要比$Y_0$的预测区间短,这是因为$Y_0=a+bx_0+\epsilon_0$比$\mu(x_0)=a+bx_0$多了一项$\epsilon_0$。

:通过适当的变量变换,可以把非线性问题转换为线性回归问题进行研究。

9.4 多元线性回归

\[Y=b_0+b_1x_1+\cdots+b_px_p+\epsilon \quad \quad ,\epsilon \sim N(0,\sigma^2)\]

一组样本

\[(x_{11},x_{12},...,x_{1p},y_1),\cdots,(x_{n1},x_{n2},...,x_{np},y_n)\]

引入矩阵表示

\[X= \left( \begin{aligned} & 1 & x_{11} & \cdots & x_{1p}\\ & 1 & x_{21} & \cdots & x_{2p}\\ & \vdots & \vdots & \ddots & \vdots\\ & 1 & x_{n1} & \cdots & x_{np} \end{aligned} \right)\] \[Y=[y_1,y_2,...,y_n]\] \[B=[b_0,b_1,...,b_p]\]

通过极大似然估计法可以得到正规方程组

\[X^TXB=X^TY\]

得到各系数的极大似然估计

\[\widehat B=[\hat b_0,\hat b_1,...,\hat b_p]=(X^TX)^{-1}X^TY\]

得到p元经验回归函数

\[\hat y=\hat b_0+\hat b_1x_1+\cdots+\hat b_px_p\]