- 式(6.4.3)の導出
- 式(6.4.6)の導出
- \(D\)が半正定値行列であること
- p.171:説明変数同士が強い相関を持っていると\((X^TX)^{-1}\)の計算が不安定になること
- 式(6.4.17)の計算
- p.175:定理(6.5.1)の導出
- 式(6.5.11)の式変形の導出
- p.181中段:偏差平方和\(S_T\)の分解の導出
- p.182上:\(\eta^2\)の式変形の導出
統計学基礎の行間埋め 第6章
\(\S\)6.4 重回帰分析
最小二乗法を用いる。\(|\varepsilon|^2\)を最小にするためには、\(|\varepsilon|^2\)を\(\beta\)で微分して\(0\)になるときの\(\hat{\beta}\)を用いればよい。
ベクトル、行列の微分(こちらやパターン認識と機械学習(上)など参考)を用いると \begin{eqnarray} \frac{\partial}{\partial\beta}|\varepsilon|^2 &=& \frac{\partial}{\partial\beta}|\boldsymbol{y}-X\beta|^2 \\ \\ &=& \frac{\partial}{\partial\beta}(\boldsymbol{y}-X\beta)^T(\boldsymbol{y}-X\beta) \\ \\ &=& \frac{\partial}{\partial\beta}(X\beta-\boldsymbol{y})^T(X\beta-\boldsymbol{y}) \\ \\ &=& 2X^T(X\beta-\boldsymbol{y}) \end{eqnarray} が得られる。これが\(0\)になるとき、 \begin{eqnarray} &&\left.\frac{\partial}{\partial\beta}|\varepsilon|^2\right|_{\beta=\hat{\beta}}&=&0 \\ \\ &\Leftrightarrow&2X^T(X\hat{\beta}-\boldsymbol{y})&=&0 \\ \\ &\Leftrightarrow& X^TX\hat{\beta}&=&X^T\boldsymbol{y} \\ \\ &\Leftrightarrow& (X^TX)^{-1}X^TX\hat{\beta}&=&(X^TX)^{-1}X^T\boldsymbol{y} \\ \\ &\Leftrightarrow& \hat{\beta}&=&(X^TX)^{-1}X^T\boldsymbol{y} \\ \\ \end{eqnarray} と導出できる。
ベクトル、行列の微分(こちらやパターン認識と機械学習(上)など参考)を用いると \begin{eqnarray} \frac{\partial}{\partial\beta}|\varepsilon|^2 &=& \frac{\partial}{\partial\beta}|\boldsymbol{y}-X\beta|^2 \\ \\ &=& \frac{\partial}{\partial\beta}(\boldsymbol{y}-X\beta)^T(\boldsymbol{y}-X\beta) \\ \\ &=& \frac{\partial}{\partial\beta}(X\beta-\boldsymbol{y})^T(X\beta-\boldsymbol{y}) \\ \\ &=& 2X^T(X\beta-\boldsymbol{y}) \end{eqnarray} が得られる。これが\(0\)になるとき、 \begin{eqnarray} &&\left.\frac{\partial}{\partial\beta}|\varepsilon|^2\right|_{\beta=\hat{\beta}}&=&0 \\ \\ &\Leftrightarrow&2X^T(X\hat{\beta}-\boldsymbol{y})&=&0 \\ \\ &\Leftrightarrow& X^TX\hat{\beta}&=&X^T\boldsymbol{y} \\ \\ &\Leftrightarrow& (X^TX)^{-1}X^TX\hat{\beta}&=&(X^TX)^{-1}X^T\boldsymbol{y} \\ \\ &\Leftrightarrow& \hat{\beta}&=&(X^TX)^{-1}X^T\boldsymbol{y} \\ \\ \end{eqnarray} と導出できる。
\begin{eqnarray}
\text{Var}[A\boldsymbol{y}]
&=&
E[(A\boldsymbol{y}-E[A\boldsymbol{y}])(A\boldsymbol{y}-E[A\boldsymbol{y}])^{T}]&...&\text{定理(6.4.3)の分散共分散行列の表し方より} \\ \\
&=&
E[(A\boldsymbol{y}-E[A\boldsymbol{y}])(\boldsymbol{y}^{T}A^{T}-E[\boldsymbol{y}^{T}A^{T}])]& \\ \\
&=&
E[A(\boldsymbol{y}-E[\boldsymbol{y}])(\boldsymbol{y}^{T}-E[\boldsymbol{y}^{T}])A^{T}]& \\ \\
&=&
AE[(\boldsymbol{y}-E[\boldsymbol{y}])(\boldsymbol{y}^{T}-E[\boldsymbol{y}^{T}])]A^{T}& \\ \\
&=&
AE[(\boldsymbol{y}-E[\boldsymbol{y}])(\boldsymbol{y}-E[\boldsymbol{y}])^{T}]A^{T}& \\ \\
&=&
AE[(\boldsymbol{y}-E[\boldsymbol{y}])^2]A^{T}& \\ \\
&=&
A\text{Var}[\boldsymbol{y}]A^{T}
\end{eqnarray}
となることから、
\begin{eqnarray}
\text{Var}[(X^TX)^{-1}X^{T}\boldsymbol{y}]
&=&
(X^TX)^{-1}X^{T}\text{Var}[\boldsymbol{y}]((X^TX)^{-1}X^{T})^{T} \\ \\
&=&
(X^TX)^{-1}X^{T}\text{Var}[\boldsymbol{y}](X^{T})^{T}((X^TX)^{-1})^{T} \\ \\
&=&
(X^TX)^{-1}X^{T}\text{Var}[\boldsymbol{y}]X((X^TX)^T)^{-1} \\ \\
&=&
(X^TX)^{-1}X^{T}\text{Var}[\boldsymbol{y}]X(X^TX)^{-1} \\ \\
&=&
(X^TX)^{-1}X^{T}\text{Var}[X\beta+\varepsilon]X(X^TX)^{-1}&...&\text{式(6.4.2)より} \\ \\
&=&
(X^TX)^{-1}X^{T}\text{Var}[\varepsilon]X(X^TX)^{-1}&...&X\beta\text{は定数であり、p.19定理より定数は分散に影響しないため} \\ \\
&=&
(X^TX)^{-1}X^{T}\sigma^2X(X^TX)^{-1}&\\ \\
&=&
\sigma^2(X^TX)^{-1}X^{T}X(X^TX)^{-1}&...&\sigma\text{は定数であるため}\\ \\
&=&
\sigma^2(X^TX)^{-1}(X^{T}X)(X^TX)^{-1}\\ \\
&=&
\sigma^2(X^TX)^{-1}\\ \\
\end{eqnarray}
と導出できる。
p.168より
\begin{eqnarray}
C=(X^TX)^{-1}X^T
\end{eqnarray}
であることを用いると、p.169より
\begin{eqnarray}
D&=&C-(X^TX)^{-1}X^T \\ \\
&=&
(X^TX)^{-1}X^T-(X^TX)^{-1}X^T \\ \\
&=&
O
\end{eqnarray}
が得られる。零行列の固有値は全て0であることから、全ての固有値が\(0\)以上であるという半正定値行列の条件を満たしている。
こちらの解説など参考
p.173より\(Q\)は直交行列であるため
\begin{eqnarray}
QQ^T=Q^TQ=I_n
\end{eqnarray}
となる。これを用いると
\begin{eqnarray}
\text{Var}[\varepsilon^\ast]
&=&
P\Omega P^T \\ \\
&=&
(\Lambda^{-\frac12}Q^T)(Q\Lambda Q^T)(\Lambda^{-\frac12}Q^T)^T \\ \\
&=&
(\Lambda^{-\frac12}Q^T)(Q\Lambda Q^T)(Q\Lambda^{-\frac12}) \\ \\
&=&
\Lambda^{-\frac12}(Q^TQ)\Lambda (Q^TQ)\Lambda^{-\frac12} \\ \\
&=&
\Lambda^{-\frac12}I_n\Lambda I_n\Lambda^{-\frac12} \\ \\
&=&
\Lambda^{-\frac12}\Lambda\Lambda^{-\frac12} \\ \\
&=&
I_n&...&\text{(1)}
\end{eqnarray}
ここで、(1)では
\begin{eqnarray}
\Lambda&=&\left(
\begin{array}{cccc}
\lambda_1&0&\ldots &0 \\
0&\lambda_2&0\ldots&0 \\
&\vdots&\ddots& \\
0&0&\ldots&\lambda_n
\end{array}
\right)
\end{eqnarray}
とすると
\begin{eqnarray}
\Lambda^{-1}&=&\left(
\begin{array}{cccc}
\lambda_1^{-1}&0&\ldots &0 \\
0&\lambda_2^{-1}&0\ldots&0 \\
&\vdots&\ddots& \\
0&0&\ldots&\lambda_n^{-1}
\end{array}
\right) \\ \\
\Lambda^{-\frac12}&=&\left(
\begin{array}{cccc}
\lambda_1^{-\frac12}&0&\ldots &0 \\
0&\lambda_2^{-\frac12}&0\ldots&0 \\
&\vdots&\ddots& \\
0&0&\ldots&\lambda_n^{-\frac12}
\end{array}
\right) \\ \\
\Lambda^{-\frac12}\Lambda \Lambda^{-\frac12}
&=&
\left(
\begin{array}{cccc}
\lambda_1^{-\frac12}&0&\ldots &0 \\
0&\lambda_2^{-\frac12}&0\ldots&0 \\
&\vdots&\ddots& \\
0&0&\ldots&\lambda_n^{-\frac12}
\end{array}
\right)
\left(
\begin{array}{cccc}
\lambda_1&0&\ldots &0 \\
0&\lambda_2&0\ldots&0 \\
&\vdots&\ddots& \\
0&0&\ldots&\lambda_n
\end{array}
\right)\left(
\begin{array}{cccc}
\lambda_1^{-\frac12}&0&\ldots &0 \\
0&\lambda_2^{-\frac12}&0\ldots&0 \\
&\vdots&\ddots& \\
0&0&\ldots&\lambda_n^{-\frac12}
\end{array}
\right) \\ \\
&=&
\left(
\begin{array}{cccc}
\lambda_1^{\frac12}&0&\ldots &0 \\
0&\lambda_2^{\frac12}&0\ldots&0 \\
&\vdots&\ddots& \\
0&0&\ldots&\lambda_n^{\frac12}
\end{array}
\right)
\left(
\begin{array}{cccc}
\lambda_1^{-\frac12}&0&\ldots &0 \\
0&\lambda_2^{-\frac12}&0\ldots&0 \\
&\vdots&\ddots& \\
0&0&\ldots&\lambda_n^{-\frac12}
\end{array}
\right) \\ \\
&=&
\left(
\begin{array}{cccc}
1&0&\ldots &0 \\
0&1&0\ldots&0 \\
&\vdots&\ddots& \\
0&0&\ldots&1
\end{array}
\right) \\ \\
&=&
I_n
\end{eqnarray}
と導出できる。
\(\S\)6.5 各種多変量解析法
特に\(\omega^TV\omega\)の最大値が\(\lambda_1\)になることを示す。
\(\omega^TV\omega\)が最大値をとるとき、\(V\omega=\lambda_1\omega\)となる\(\omega\)になる(参考)。
このとき、 \begin{eqnarray} \omega^TV\omega &=& \omega^T(V\omega) \\ \\ &=& \omega^T(\lambda_1\omega) \\ \\ &=& \lambda_1\omega^T\omega \\ \\ &=& \lambda_1&...&\sqrt{\omega^T\omega}=1\text{より} \\ \\ \end{eqnarray} と導出できる。
\(\omega^TV\omega\)が最大値をとるとき、\(V\omega=\lambda_1\omega\)となる\(\omega\)になる(参考)。
このとき、 \begin{eqnarray} \omega^TV\omega &=& \omega^T(V\omega) \\ \\ &=& \omega^T(\lambda_1\omega) \\ \\ &=& \lambda_1\omega^T\omega \\ \\ &=& \lambda_1&...&\sqrt{\omega^T\omega}=1\text{より} \\ \\ \end{eqnarray} と導出できる。
\begin{eqnarray}
\text{tr}\{(S-\Sigma)^2\}
&=&
\text{tr}\{(S-\Sigma)^{T}(S-\Sigma)\} \\ \\
&=&
\text{tr}\left\{
\left(
\begin{array}{cccc}
s_{11}-\sigma_{11} & s_{12}-\sigma_{12} & s_{13}-\sigma_{13} & \ldots & s_{1p}-\sigma_{1p} \\
s_{21}-\sigma_{21} & s_{22}-\sigma_{22} & s_{23}-\sigma_{23} & \ldots & s_{2p}-\sigma_{2p} \\
\vdots & \vdots & \ddots & \vdots \\
s_{p1}-\sigma_{p1} & s_{p2}-\sigma_{p2} & s_{p3}-\sigma_{p3} & \ldots & s_{pp}-\sigma_{pp} \\
\end{array}
\right)^T
\left(
\begin{array}{cccc}
s_{11}-\sigma_{11} & s_{12}-\sigma_{12} & s_{13}-\sigma_{13} & \ldots & s_{1p}-\sigma_{1p} \\
s_{21}-\sigma_{21} & s_{22}-\sigma_{22} & s_{23}-\sigma_{23} & \ldots & s_{2p}-\sigma_{2p} \\
\vdots & \vdots & \ddots & \vdots \\
s_{p1}-\sigma_{p1} & s_{p2}-\sigma_{p2} & s_{p3}-\sigma_{p3} & \ldots & s_{pp}-\sigma_{pp} \\
\end{array}
\right)\right\} \\ \\
&=&
\text{tr}\left\{
\left(
\begin{array}{cccc}
s_{11}-\sigma_{11} & s_{21}-\sigma_{21} & \ldots & s_{p1}-\sigma_{p1} \\
s_{12}-\sigma_{12} & s_{22}-\sigma_{22} & \ldots & s_{p2}-\sigma_{p2} \\
s_{13}-\sigma_{13} & s_{23}-\sigma_{23} & \ldots & s_{p3}-\sigma_{p3} \\
\vdots & \vdots & \ddots & \vdots \\
s_{1p}-\sigma_{1p} & s_{2p}-\sigma_{2p} & \ldots & s_{pp}-\sigma_{pp} \\
\end{array}
\right)
\left(
\begin{array}{cccc}
s_{11}-\sigma_{11} & s_{12}-\sigma_{12} & s_{13}-\sigma_{13} & \ldots & s_{1p}-\sigma_{1p} \\
s_{21}-\sigma_{21} & s_{22}-\sigma_{22} & s_{23}-\sigma_{23} & \ldots & s_{2p}-\sigma_{2p} \\
\vdots & \vdots & \ddots & \vdots \\
s_{p1}-\sigma_{p1} & s_{p2}-\sigma_{p2} & s_{p3}-\sigma_{p3} & \ldots & s_{pp}-\sigma_{pp} \\
\end{array}
\right)\right\} \\ \\
&=&
\text{tr}\left\{
\left(
\begin{array}{cccc}
(s_{11}-\sigma_{11})^2+(s_{12}-\sigma_{12})^2+\ldots+(s_{p1}-\sigma_{p1})^2 & \ldots & \ldots & \ldots \\
\ldots & (s_{12}-\sigma_{12})^2+(s_{22}-\sigma_{22})^2+\ldots+(s_{p2}-\sigma_{p2})^2 & \ldots & \ldots \\
\vdots & \vdots & \ddots & \vdots \\
\ldots & \ldots & \ldots &(s_{1p}-\sigma_{1p})^2+(s_{2p}-\sigma_{2p})^2+\ldots+ (s_{pp}-\sigma_{pp})^2 \\
\end{array}
\right)\right\} \\ \\
&=&
(s_{11}-\sigma_{11})^2+(s_{12}-\sigma_{12})^2+\ldots+(s_{p1}-\sigma_{p1})^2+(s_{12}-\sigma_{12})^2+(s_{22}-\sigma_{22})^2+\ldots+(s_{p2}-\sigma_{p2})^2+\ldots+(s_{1p}-\sigma_{1p})^2+(s_{2p}-\sigma_{2p})^2+\ldots+ (s_{pp}-\sigma_{pp})^2 \\ \\
&=&
\displaystyle\sum_{r=1}^{p}\sum_{r^{\prime}=1}^{p}(s_{rr^{\prime}}-\sigma_{rr^{\prime}})^2
\end{eqnarray}
と導出できる。
\begin{eqnarray}
\displaystyle\sum_{k=1}^2\sum_{i=1}^{n_k}(y_{i}^{(k)}-\overline{y})^2
&=&
\displaystyle\sum_{k=1}^2\sum_{i=1}^{n_k}(y_{i}^{(k)}+{\color{red}\overline{y}^{(k)}}-{\color{red}\overline{y}^{(k)}}-\overline{y})^2 \\ \\
&=&
\displaystyle\sum_{k=1}^2\sum_{i=1}^{n_k}((y_{i}^{(k)}-\overline{y}^{(k)})+(\overline{y}^{(k)}-\overline{y}))^2 \\ \\
&=&
\displaystyle\sum_{k=1}^2\sum_{i=1}^{n_k}\left[(y_{i}^{(k)}-\overline{y}^{(k)})^2+2(y_{i}^{(k)}-\overline{y}^{(k)})(\overline{y}^{(k)}-\overline{y})+(\overline{y}^{(k)}-\overline{y})^2\right] \\ \\
&=&
\displaystyle\sum_{k=1}^2\sum_{i=1}^{n_k}(y_{i}^{(k)}-\overline{y}^{(k)})^2+\displaystyle\sum_{k=1}^2\sum_{i=1}^{n_k}2(y_{i}^{(k)}-\overline{y}^{(k)})(\overline{y}^{(k)}-\overline{y})+\displaystyle\sum_{k=1}^2\sum_{i=1}^{n_k}(\overline{y}^{(k)}-\overline{y})^2 \\ \\
&=&
\displaystyle\sum_{k=1}^2\sum_{i=1}^{n_k}(y_{i}^{(k)}-\overline{y}^{(k)})^2+\displaystyle\sum_{k=1}^22(\sum_{i=1}^{n_k}y_{i}^{(k)}-n_k\overline{y}^{(k)})\underbrace{(\overline{y}^{(k)}-\overline{y})}_{i\text{に依存しないため}}+\underbrace{n_k\displaystyle\sum_{k=1}^2(\overline{y}^{(k)}-\overline{y})^2}_{i\text{に依存しないため}} \\ \\
&=&
\displaystyle\sum_{k=1}^2\sum_{i=1}^{n_k}(y_{i}^{(k)}-\overline{y}^{(k)})^2+\displaystyle\sum_{k=1}^22(\underbrace{n_k\overline{y}^{(k)}}_{(1)}-n_k\overline{y}^{(k)})(\overline{y}^{(k)}-\overline{y})+n_k\displaystyle\sum_{k=1}^2(\overline{y}^{(k)}-\overline{y})^2&...&\text{p.181上より}\displaystyle\sum_{i=1}^{n_k}y_i^{(k)}=n_k\overline{y}^{(k)} \\ \\
&=&
\displaystyle\sum_{k=1}^2\sum_{i=1}^{n_k}(y_{i}^{(k)}-\overline{y}^{(k)})^2+n_k\displaystyle\sum_{k=1}^2(\overline{y}^{(k)}-\overline{y})^2 \\ \\
\end{eqnarray}
と導出できる。
p.181中段より\(S_T=S_B+S_W\)であるから、p.181下の式より
\begin{eqnarray}
\eta^2
&=&
\frac{S_B}{S_T} \\ \\
&=&
\frac{S_B}{S_B+S_W} \\ \\
&=&
\frac{1}{1+S_W/S_B} \\ \\
\end{eqnarray}
が得られる。