PRMLの行間埋め 第1章
1.2 確率論
- 式(1.12)の導出
- 式(1.13)の導出
- p.17上:\(p(Y|X)=p(Y)\)の導出
- 式(1.27)の導出
- 式(1.39)の導出
- 式(1.41)の導出
- 式(1.48)の導出
- 式(1.49)の導出
- 式(1.50)の導出
- 式(1.54)の導出
- 式(1.55)の導出
- 式(1.56)の導出
- 式(1.57)の導出
- 式(1.58)の導出
- 式(1.62)の導出
- 式(1.63)の導出
- 式(1.66)の導出(要:議論)
- 式(1.67)の導出
- 式(1.68)の導出
- 式(1.69)の導出
- (1)の式変形について
- (2)の式変形について
- (3)の式変形\(\textbf{S}_1^{\text{T}}=\textbf{S}_1\)の導出
- (4)の式変形\(\boldsymbol{\phi}(x_i)^{\text{T}}\textbf{S}_1\boldsymbol{\phi}(x)=\boldsymbol{\phi}(x)^{\text{T}}\textbf{S}_1\boldsymbol{\phi}(x_i)\)の導出
- (5)\(\beta-\beta^2\boldsymbol{\phi}(x)^{\text{T}}\textbf{S}_1\boldsymbol{\phi}(x)\)の計算の導出
- (6)\((\beta^{-1}+\boldsymbol{\phi}^{\text{T}}\textbf{S}\boldsymbol{\phi})\beta^2\boldsymbol{\phi}(x)^{\text{T}}\textbf{S}_1\displaystyle\sum_{n=1}^Nt_n\boldsymbol{\phi}(x_n)\)の計算の導出
式(1.11)の乗法定理より
\begin{align*}
p(X,Y)=p(X|Y)p(Y)
\end{align*}
となることから、同様に式(1.11)より
\begin{align*}
p(X,Y)=p(X|Y)p(Y)=p(Y|X)p(X)
\end{align*}
が得られるため
\begin{align*}
&&p(X|Y)p(Y)&=p(Y|X)p(X) \\ \\
&\Leftrightarrow&
p(Y|X)&=\frac{p(X|Y)p(Y)}{p(X)}
\end{align*}
が得られる。
式(1.10)に式(1.11)を代入すると
\begin{align*}
p(X)
&=
\displaystyle\sum_Yp(X,Y) \\ \\
&=
\displaystyle\sum_Yp(X|Y)p(Y) \\ \\
\end{align*}
となる。
式(1.11)と、\(X,Y\)が独立であるとき、
\begin{align*}
&&
p(X,Y)&=p(Y|X)p(X) \\ \\
&\Leftrightarrow&
p(X)p(Y)&=p(Y|X)p(X)&&...X,Y\text{が独立であるとした} \\ \\
&\Leftrightarrow&
p(Y)&=p(Y|X)& \\ \\
\end{align*}
と導出できる。
こちらの記事など参考。
ただし、一般的に用いられている変数変換\(Y=g(X)\)と異なり、\(X=g(Y)\)で変換しているため、\(g^{-1}(y)\)で書かれる個所が\(g(y)\)になっている。
ただし、一般的に用いられている変数変換\(Y=g(X)\)と異なり、\(X=g(Y)\)で変換しているため、\(g^{-1}(y)\)で書かれる個所が\(g(y)\)になっている。
\begin{align*}
\text{var}[f]
&=
\mathbb{E}\left[(f(x)-\mathbb{E}[f(x)])^2\right] \\ \\
&=
\int p(x)\left((f(x)-\mathbb{E}[f(x)])^2\right)\text{d}x \\ \\
&=
\int p(x)\left(f(x)^2-2(f(x)\mathbb{E}[f(x)])^2+(\mathbb{E}[f(x)])^2\right)\text{d}x \\ \\
&=
\int p(x)f(x)^2\text{d}x+\int p(x)\left(-2(f(x)\mathbb{E}[f(x)])\right)\text{d}x+\int p(x)(\mathbb{E}[f(x)])^2\text{d}x \\ \\
&=
\int p(x)f(x)^2\text{d}x-2\mathbb{E}[f(x)]\int p(x)(f(x))\text{d}x+\mathbb{E}[f(x)]^2\int p(x)\text{d}x&&...\mathbb{E}[f(x)]\text{は定数であるため積分の外に出した} \\ \\
&=
\mathbb{E}[f(x)^2]-2\mathbb{E}[f(x)]\cdot\mathbb{E}[f(x)]+\mathbb{E}[f(x)]^2\cdot 1&&...\text{式(1.26)(1.34)より} \\ \\
&=
\mathbb{E}[f(x)^2]-\mathbb{E}[f(x)]^2& \\ \\
\end{align*}
と導出できる。
\begin{align*}
\text{cov}[x,y]
&=
\mathbb{E}_{x,y}[\{x-\mathbb{E}[x]\}\{y-\mathbb{E}[y]\}] \\ \\
&=
\mathbb{E}_{x,y}[\{xy-\mathbb{E}[x]y-\mathbb{E}[y]x+\mathbb{E}[x]\mathbb{E}[y]\}] \\ \\
&=
\int\int p(x,y)\{xy-\mathbb{E}[x]y-\mathbb{E}[y]x+\mathbb{E}[x]\mathbb{E}[y]\}]\text{d}x\text{d}y \\ \\
&=
\int\int p(x,y)xy\text{d}x\text{d}y-\int\int p(x,y)\mathbb{E}[x]y\text{d}x\text{d}y-\int\int p(x,y)\mathbb{E}[y]x\text{d}x\text{d}y+\int\int p(x,y)\mathbb{E}[x]\mathbb{E}[y]\text{d}x\text{d}y\\ \\
&=
\mathbb{E}_{x,y}[xy]-\mathbb{E}[x]\int\int p(x,y)y\text{d}x\text{d}y-\mathbb{E}[y]\int\int p(x,y)x\text{d}x\text{d}y+\mathbb{E}[x]\mathbb{E}[y]\int\int p(x,y)\text{d}x\text{d}y\\ \\
&=
\mathbb{E}_{x,y}[xy]-\mathbb{E}[x]\int p(y)y\text{d}y-\mathbb{E}[y]\int p(x)x\text{d}x+\mathbb{E}[x]\mathbb{E}[y]\int p(x)\text{d}x&&...\text{式(1.31)より}\\ \\
&=
\mathbb{E}_{x,y}[xy]-\mathbb{E}[x]\mathbb{E}[y]-\mathbb{E}[y]\mathbb{E}[x]+\mathbb{E}[x]\mathbb{E}[y]\cdot 1&\\ \\
&=
\mathbb{E}_{x,y}[xy]-\mathbb{E}[x]\mathbb{E}[y]&\\ \\
\end{align*}
と導出できる。
ガウス積分の導出はこちらの計算など参考。
\begin{align*}
\mathbb{E}[x]
&=
\int_{-\infty}^{\infty}x\frac{1}{\sqrt{2\pi\sigma ^2}}\exp(-\frac{(x-\mu)^2}{2\sigma ^2})\text{d}x \\
\\
&=
\int_{-\infty}^{\infty}(x-\mu)\frac{1}{\sqrt{2\pi\sigma ^2}}\exp(-\frac{(x-\mu)^2}{2\sigma ^2})dx+\int_{-\infty}^{\infty}\mu\frac{1}{\sqrt{2\pi\sigma ^2}}\exp(-\frac{(x-\mu)^2}{2\sigma ^2})\text{d}x\\
\\
&=
0+\mu\int_{-\infty}^{\infty}\frac{1}{\sqrt{2\pi\sigma ^2}}\exp(-\frac{(x-\mu)^2}{2\sigma ^2})\text{d}x&&...\text{奇関数の積分であるため} \\
\\
&=
\mu\cdot 1&&...\text{式(1.49)より}\\
\end{align*}
と導出できる。
\begin{align*}
\mathbb{E}[x^2]
&=
\int_{-\infty}^{\infty}x^2\frac{1}{\sqrt{2\pi\sigma ^2}}\exp(-\frac{(x-\mu)^2}{2\sigma ^2})\text{d}x \\
\\
&=
\int_{-\infty}^{\infty}(y+\mu)^2\frac{1}{\sqrt{2\pi\sigma ^2}}\exp(-\frac{y^2}{2\sigma ^2})dy &x-\mu=y,\;dx=dyとした。 \\
\\
&=
\int_{-\infty}^{\infty}(y^2+2y\mu+\mu^2)\frac{1}{\sqrt{2\pi\sigma ^2}}\exp(-\frac{y^2}{2\sigma ^2})dy \\
\\
&=
\underbrace{\int_{-\infty}^{\infty}y^2\frac{1}{\sqrt{2\pi\sigma ^2}}\exp(-\frac{y^2}{2\sigma ^2})dy}_{(1)}+\underbrace{2\mu\int_{-\infty}^{\infty}y\frac{1}{\sqrt{2\pi\sigma ^2}}\exp(-\frac{y^2}{2\sigma ^2})dy}_{(2)}+\underbrace{\mu^2\int_{-\infty}^{\infty}\frac{1}{\sqrt{2\pi\sigma ^2}}\exp(-\frac{y^2}{2\sigma ^2})dy}_{(3)} \\
\\
&=
\underbrace{\left[y(-\sigma^2)\frac{1}{\sqrt{2\pi\sigma ^2}}\exp(-\frac{y^2}{2\sigma ^2})\right]_{-\infty}^{\infty}+\int_{-\infty}^{\infty}\sigma^2\frac{1}{\sqrt{2\pi\sigma ^2}}\exp(-\frac{y^2}{2\sigma ^2})dy}_{(1)}+\underbrace{2\mu\cdot 0}_{(2)}+\underbrace{\mu^2\cdot 1}_{(3)}&&...\text{(1)部分積分(2)奇関数の積分(3)式(1.48)を用いた} \\
\\
&=
\underbrace{0+\sigma^2\int_{-\infty}^{\infty}\frac{1}{\sqrt{2\pi\sigma ^2}}\exp(-\frac{y^2}{2\sigma ^2})dy}_{(1)}+\mu^2& \\
\\
&=
\underbrace{0+\sigma^2\cdot 1}_{(1)}+\mu^2&&...\text{式(1.48)}
\end{align*}
と導出できる。
式(1.53)より
\begin{align*}
\ln p(\textbf{x}|\mu,\sigma^2)
&=
\ln\displaystyle\prod_{n=1}^N\frac{1}{(2\pi\sigma^2)^{1/2}}\exp\left\{-\frac{1}{2\sigma^2}(x_n-\mu)^2\right\} \\ \\
&=
\ln\left(\frac{1}{(2\pi\sigma^2)^{1/2}}\right)^N\exp\left\{-\displaystyle\sum_{n=1}^N\frac{1}{2\sigma^2}(x_n-\mu)^2\right\}&&...\text{すべての積であるため} \\ \\
&=
\ln\left(\frac{1}{(2\pi\sigma^2)^{1/2}}\right)^N+\ln\exp\left\{-\displaystyle\sum_{n=1}^N\frac{1}{2\sigma^2}(x_n-\mu)^2\right\}& \\ \\
&=
\ln\left(2\pi\sigma^2\right)^{-N/2}+\ln\exp\left\{-\displaystyle\sum_{n=1}^N\frac{1}{2\sigma^2}(x_n-\mu)^2\right\}& \\ \\
&=
-\frac{N}{2}\ln(2\pi\sigma^2)-\displaystyle\sum_{n=1}^N\frac{1}{2\sigma^2}(x_n-\mu)^2& \\ \\
&=
-\frac{1}{2\sigma^2}\displaystyle\sum_{n=1}^N(x_n-\mu)^2-\frac{N}{2}\ln(\sigma^2)-\frac{N}{2}\ln(2\pi)& \\ \\
\end{align*}
と導出できる。
式(1.54)を\(\mu\)について微分して\(0\)になるときの\(\mu=\mu_{ML}\)の値を求める。
\begin{align*}
\frac{d}{d\mu} \ln p(\textbf{x}|\mu,\sigma^2)
&=
\frac{d}{d\mu}\left(-\frac{1}{2\sigma^2}\displaystyle\sum_{n=1}^N(x_n-\mu)^2-\frac{N}{2}\ln(\sigma^2)-\frac{N}{2}\ln(2\pi)\right) \\ \\
&=
-(-2)\frac{1}{2\sigma^2}\displaystyle\sum_{n=1}^N(x_n-\mu)-0-0 \\ \\
&=
2\frac{1}{2\sigma^2}\displaystyle\sum_{n=1}^N(x_n-\mu) \\ \\ \\
\left.\frac{d}{d\mu} \ln p(\textbf{x}|\mu,\sigma^2)\right|_{\mu=\mumu_{ML}}&=0 \\ \\
\Leftrightarrow
2\frac{1}{2\sigma^2}\displaystyle\sum_{n=1}^N(x_n-\mu_{ML})&=0 \\ \\
\Rightarrow
\displaystyle\sum_{n=1}^N(x_n-\mu_{ML})&=0 \\ \\
\Leftrightarrow
N\mu_{ML}&=\displaystyle\sum_{n=1}^Nx_n \\ \\
\Leftrightarrow
\mu_{ML}&=\frac{1}{N}\displaystyle\sum_{n=1}^Nx_n \\ \\
\end{align*}
と導出できる。
式(1.54)を\(\sigma^2\)について微分して\(0\)になるときの\(\sigma^2=\sigma^2_{ML}\)の値を求める。
\begin{align*}
\frac{d}{d\sigma^2} \ln p(\textbf{x}|\mu,\sigma^2)
&=
\frac{d}{d\sigma^2}\left(-\frac{1}{2\sigma^2}\displaystyle\sum_{n=1}^N(x_n-\mu)^2-\frac{N}{2}\ln(\sigma^2)-\frac{N}{2}\ln(2\pi)\right) \\ \\
&=
\frac{1}{2(\sigma^2)^2}\displaystyle\sum_{n=1}^N(x_n-\mu)^2-\frac{N}{2}\frac{1}{\sigma^2}-0 \\ \\ \\
\left.\frac{d}{d\sigma^2} \ln p(\textbf{x}|\mu,\sigma^2)\right|_{\sigma^2=\sigma^2_{ML}}&=0 \\ \\
\Leftrightarrow
\frac{1}{2(\sigma_{ML}^2)^2}\displaystyle\sum_{n=1}^N(x_n-\mu)^2-\frac{N}{2}\frac{1}{\sigma_{ML}^2}&=0 \\ \\
\Leftrightarrow
\frac{1}{(\sigma_{ML}^2)}\displaystyle\sum_{n=1}^N(x_n-\mu)^2-N&=0 \\ \\
\Leftrightarrow
\sigma_{ML}^2&=\frac{1}{N}\displaystyle\sum_{n=1}^N(x_n-\mu)^2 \\ \\
\Leftrightarrow
\sigma_{ML}^2&=\frac{1}{N}\displaystyle\sum_{n=1}^N(x_n-\mu_{ML})^2&&...\text{式(1.56)より} \\ \\
\end{align*}
と導出できる。
\begin{align*}
\mathbb{E}[\mu_{ML}]
&=
\mathbb{E}\left[\frac{1}{N}\displaystyle\sum_{n=1}^Nx_n\right] \\ \\
&=
\frac{1}{N}\mathbb{E}\left[\displaystyle\sum_{n=1}^Nx_n\right]&&...\text{(1)} \\ \\
&=
\frac{1}{N}\displaystyle\sum_{n=1}^N\mathbb{E}\left[x_n\right]&&...x_n\text{はそれぞれ独立であるため} \\ \\
&=
\frac{1}{N}\displaystyle\sum_{n=1}^N\mu&&...\text{式(1.49)より} \\ \\
&=
\mu\\ \\
\end{align*}
と導出できる。
(1)では期待値の定数倍に関する性質\(\mathbb{E}[ax]=a\mathbb{E}[x]\)を用いた。参考
(1)では期待値の定数倍に関する性質\(\mathbb{E}[ax]=a\mathbb{E}[x]\)を用いた。参考
\begin{align*}
\mathbb{E}[\sigma^2_{ML}]
&=
\mathbb{E}\left[\frac{1}{N}\displaystyle\sum_{n=1}^N(x_n-\mu_{ML})^2\right] \\ \\
&=
\frac{1}{N}\mathbb{E}\left[\displaystyle\sum_{n=1}^N(x_n-\mu-[\mu_{ML}-\mu])^2\right] \\ \\
&=
\frac{1}{N}\mathbb{E}\left[\displaystyle\sum_{n=1}^N\{(x_n-\mu)^2-2(x_n-\mu)(\mu_{ML}-\mu)+(\mu_{ML}-\mu)^2\}\right] \\ \\
&=
\frac{1}{N}\mathbb{E}\left[\displaystyle\sum_{n=1}^N(x_n-\mu)^2\right]-\frac{2}{N}\mathbb{E}\left[\displaystyle\sum_{n=1}^N(x_n-\mu)(\mu_{ML}-\mu)\right]+\frac{1}{N}\mathbb{E}\left[\displaystyle\sum_{n=1}^N(\mu_{ML}-\mu)^2\right] \\ \\
&=
\frac{1}{N}\mathbb{E}\left[\displaystyle\sum_{n=1}^N(x_n-\mu)^2\right]-\frac{2}{N}\mathbb{E}\left[(\mu_{ML}-\mu)\displaystyle\sum_{n=1}^N(x_n-\mu)\right]+\frac{1}{N}\mathbb{E}\left[\displaystyle\sum_{n=1}^N(\mu_{ML}-\mu)^2\right] \\ \\
&=
\frac{1}{N}\displaystyle\sum_{n=1}^N\mathbb{E}\left[(x_n-\mu)^2\right]-\frac{2}{N}\mathbb{E}\left[(\mu_{ML}-\mu)\left(\displaystyle\sum_{n=1}^Nx_n-N\mu\right)\right]+\frac{1}{N}\mathbb{E}\left[\displaystyle\sum_{n=1}^N(\mu_{ML}-\mu)^2\right] \\ \\
&=
\frac{1}{N}\displaystyle\sum_{n=1}^N\sigma^2-\frac{2}{N}\mathbb{E}\left[(\mu_{ML}-\mu)N\left(\displaystyle\sum_{n=1}^N\frac{x_n}{N}-\mu\right)\right]+\frac{1}{N}\mathbb{E}\left[\displaystyle\sum_{n=1}^N(\mu_{ML}-\mu)^2\right] \\ \\
&=
\frac{1}{N}\displaystyle\sum_{n=1}^N\sigma^2-\frac{2}{N}\mathbb{E}\left[(\mu_{ML}-\mu)N\left(\mu_{ML}-\mu\right)\right]+\frac{1}{N}\displaystyle\sum_{n=1}^N\mathbb{E}\left[(\mu_{ML}-\mu)^2\right]&&...\text{式(1.55)より} \\ \\
&=
\frac{1}{N}N\sigma^2-2\mathbb{E}\left[\left(\mu_{ML}-\mu\right)^2\right]+\frac{1}{N}N\mathbb{E}\left[(\mu_{ML}-\mu)^2\right]& \\ \\
&=
\sigma^2-\mathbb{E}\left[\left(\mu_{ML}-\mu\right)^2\right]& \\ \\
&=
\sigma^2-\frac{\sigma^2}{N}&&...\text{(1)} \\ \\
&=
\frac{N-1}{N}\sigma^2 \\ \\
\end{align*}
と導出できる。
(1)では確率変数の平均値の分散を用いた。標本分散を求める際の導出を用いた。参考
(1)では確率変数の平均値の分散を用いた。標本分散を求める際の導出を用いた。参考
式(1.60)と式(1.46)を比較すると、\(\mu\to y(x,\textbf{w}),\sigma^2\to \beta^{-1}\)と変換されているため、これを式(1.54)に適用すると
\begin{align*}
\text{式(1.54)}
&\Rightarrow
-\frac{1}{2\beta^{-1}}\displaystyle\sum_{n=1}^N(t_n-y(x_n,\textbf{w}))^2-\frac{N}{2}\ln(\beta^{-1})-\frac{N}{2}\ln(2\pi) \\ \\
&=
-\frac{\beta}{2}\displaystyle\sum_{n=1}^N(t_n-y(x_n,\textbf{w}))^2+\frac{N}{2}\ln\beta-\frac{N}{2}\ln(2\pi) \\ \\
\end{align*}
と導出できる。
式(1.62)を\(\beta\)について微分して\(0\)になるときの\(\beta=\beta_{ML}\)の値を求める。
\begin{align*}
\frac{d}{d\beta} \ln p(\textbf{t}|\textbf{x},\textbf{w},\beta)
&=
\frac{d}{d\beta}\left(-\frac{\beta}{2}\displaystyle\sum_{n=1}^N(y(x_n,\textbf{w})-t_n)^2+\frac{N}{2}\ln\beta-\frac{N}{2}\ln(2\pi)\right) \\ \\
&=
-\frac{1}{2}\displaystyle\sum_{n=1}^N(y(x_n,\textbf{w})-t_n)^2+\frac{N}{2}\frac{1}{\beta}-0 \\ \\ \\
&\left.\frac{d}{d\beta} \ln p(\textbf{t}|\textbf{x},\textbf{w},\beta)\right|_{\beta=\beta_ML}=0 \\ \\
&\Leftrightarrow
-\frac{1}{2}\displaystyle\sum_{n=1}^N(y(x_n,\textbf{w})-t_n)^2+\frac{N}{2}\frac{1}{\beta_{ML}}=0 \\ \\
&\Leftrightarrow
\frac{1}{\beta_{ML}}=\frac{1}{N}\displaystyle\sum_{n=1}^N(y(x_n,\textbf{w})-t_n)^2
\end{align*}
と導出できる。
式(1.44)を適用するために式(1.12)を用いる。簡略化して書くと、\(\textbf{t}\)が与えられたときの\(\textbf{w}\)の分布を求めるため
\begin{align*}
p(\textbf{w}|\textbf{t})&=\frac{p(\textbf{t}|\textbf{w})p(\textbf{w})}{p(\textbf{t})} \\ \\
&\propto
p(\textbf{t}|\textbf{w})p(\textbf{w}) \\ \\
\end{align*}
と書くことができる。ここに条件を追加すると
\begin{align*}
p(\textbf{w}|\textbf{t},\textbf{x},\alpha,\beta)
&\propto
p(\textbf{t}|\textbf{w},\textbf{x},\beta)p(\textbf{w}|\alpha) \\ \\
\end{align*}
と書ける。右辺一項目は\(\textbf{t}\)は\(\textbf{w},\textbf{x},\beta\)によって得られること、二項目については\(\textbf{w}\)の事前分布は\(\alpha\)によって与えられていることを示している。
もう少し厳密な考え方があるかもしれない。
もう少し厳密な考え方があるかもしれない。
式(1.66)の右辺の対数を用いる。その際に式(1.62)(1.65)を用い、符号を反転すると
\begin{align*}
-\ln p(\textbf{t}|\textbf{x},\textbf{w},\beta)p(\textbf{w},\alpha)
&=
-\ln p(\textbf{t}|\textbf{x},\textbf{w},\beta)-\ln p(\textbf{w},\alpha) \\ \\
&=
\frac{\beta}{2}\displaystyle\sum_{n=1}^N(t_n-y(x_n,\textbf{w}))^2-\frac{N}{2}\ln\beta+\frac{N}{2}\ln(2\pi)-\ln\left[\left(\frac{\alpha}{2\pi}\right)^{(M+1)/2}\exp\left\{-\frac{\alpha}{2}\textbf{w}^{\text{T}}\textbf{w}\right\}\right] \\ \\
&=
\frac{\beta}{2}\displaystyle\sum_{n=1}^N(t_n-y(x_n,\textbf{w}))^2-\frac{N}{2}\ln\beta+\frac{N}{2}\ln(2\pi)-\frac{M+1}{2}\ln\frac{\alpha}{2\pi}+\frac{\alpha}{2}\textbf{w}^{\text{T}}\textbf{w} \\ \\
&=
\underbrace{\frac{\beta}{2}\displaystyle\sum_{n=1}^N(t_n-y(x_n,\textbf{w}))^2+\frac{\alpha}{2}\textbf{w}^{\text{T}}\textbf{w}}_{(1)}-\frac{N}{2}\ln\beta+\frac{N}{2}\ln(2\pi)-\frac{M+1}{2}\ln\frac{\alpha}{2\pi} \\ \\
\end{align*}
と書ける。ここで最大値を求めるにあたって変数\(\textbf{w}\)を含むのは(1)の部分だけなので式(1.67)を最大化することがわかる。
式(1.43)から式(1.45)を求める時と同様の操作によって得られる。
-
式(1.69)の導出のために、式(1.68)を計算する。そのために、初めに式(1.66)の右辺をまとめる。
\begin{align*}
p(\textbf{w}|\textbf{x},\textbf{t},\alpha,\beta)
&=
p(\textbf{t}|\textbf{x},\textbf{w},\beta)p(\textbf{w}|\alpha) \\ \\
&=
\left(\frac{\beta}{2\pi}\right)^{N/2}\exp\left\{-\displaystyle\sum_{n=1}^N\frac{(y(x_n,\textbf{w})-t_n)^2\beta}{2}\right\}\left(\frac{\alpha}{2\pi}\right)^{(M+1)/2}\exp\left\{-\frac{\alpha}{2}\textbf{w}^{\text{T}}\textbf{w}\right\}&&...\text{式(1.61)(1.65)より} \\ \\
&\propto
\exp\left\{-\displaystyle\sum_{n=1}^N\frac{(y(x_n,\textbf{w})-t_n)^2\beta}{2}\right\}\exp\left\{-\frac{\alpha}{2}\textbf{w}^{\text{T}}\textbf{w}\right\}&&...\textbf{w}\text{にかかわる項のみを残した} \\ \\
&=
\exp\left\{-\displaystyle\sum_{n=1}^N\frac{(y(x_n,\textbf{w})-t_n)^2\beta}{2}-\frac{\alpha}{2}\textbf{w}^{\text{T}}\textbf{w}\right\}& \\ \\
&=
\exp\left\{-\displaystyle\sum_{n=1}^N\frac{(\textbf{w}^{\text{T}}\cdot\boldsymbol{\phi}(x_n)-t_n)^2\beta}{2}-\frac{\alpha}{2}\textbf{w}^{\text{T}}\textbf{w}\right\}&&...\text{(1)} \\ \\
&=
\exp\left\{-\frac12\left[\displaystyle\sum_{n=1}^N\{(\textbf{w}^{\text{T}}\cdot\boldsymbol{\phi}(x_n))(\textbf{w}^{\text{T}}\cdot\boldsymbol{\phi}(x_n))-2t_n[\textbf{w}^{\text{T}}\cdot\boldsymbol{\phi}(x_n)]+t_n^2\}\beta+\alpha\textbf{w}^{\text{T}}\textbf{w}\right]\right\}& \\ \\
&=
\exp\left\{-\frac12\left[\displaystyle\sum_{n=1}^N\{\textbf{w}^{\text{T}}\cdot(\boldsymbol{\phi}(x_n))({\color{red}\boldsymbol{\phi}(x_n)^{\text{T}}\cdot\textbf{w}})-2t_n[\textbf{w}^{\text{T}}\cdot\boldsymbol{\phi}(x_n)]+t_n^2\}\beta+\alpha\textbf{w}^{\text{T}}\textbf{w}\right]\right\}&&...\text{(2)} \\ \\
&=
\exp\left\{-\frac12\left[\alpha\textbf{w}^{\text{T}}\textbf{w}+\displaystyle\sum_{n=1}^N\{\beta\textbf{w}^{\text{T}}\cdot(\boldsymbol{\phi}(x_n))(\boldsymbol{\phi}(x_n)^{\text{T}}\cdot\textbf{w})\}-2\displaystyle\sum_{n=1}^Nt_n[\textbf{w}^{\text{T}}\cdot\boldsymbol{\phi}(x_n)]\beta+\beta\displaystyle\sum_{n=1}^Nt_n^2\right]\right\}& \\ \\
&=
\exp\left\{-\frac12\left[\alpha\textbf{w}^{\text{T}}{\color{red}\textbf{I}}\textbf{w}+\displaystyle\sum_{n=1}^N\{\beta\textbf{w}^{\text{T}}\cdot(\boldsymbol{\phi}(x_n))(\boldsymbol{\phi}(x_n)^{\text{T}}\cdot\textbf{w})\}-2\displaystyle\sum_{n=1}^Nt_n[\textbf{w}^{\text{T}}\cdot\boldsymbol{\phi}(x_n)]\beta+\beta\displaystyle\sum_{n=1}^Nt_n^2\right]\right\}& \\ \\
&=
\exp\left\{-\frac12\left[\textbf{w}^{\text{T}}\left\{\alpha\textbf{I}+\beta\displaystyle\sum_{n=1}^N\boldsymbol{\phi}(x_n)\boldsymbol{\phi}(x_n)^{\text{T}}\right\}\textbf{w}-2\displaystyle\sum_{n=1}^Nt_n[\textbf{w}^{\text{T}}\cdot\boldsymbol{\phi}(x_n)]\beta+\beta\displaystyle\sum_{n=1}^Nt_n^2\right]\right\}& \\ \\
&=
\exp\left\{-\frac12\left[\textbf{w}^{\text{T}}\textbf{S}^{-1}\textbf{w}-2\textbf{w}^{\text{T}}\displaystyle\sum_{n=1}^Nt_n\boldsymbol{\phi}(x_n)\beta+\beta\displaystyle\sum_{n=1}^Nt_n^2\right]\right\}&&...\text{式(1.72)より} \\ \\
&\propto
\exp\left\{-\frac12\left[\textbf{w}^{\text{T}}\textbf{S}^{-1}\textbf{w}-2\textbf{w}^{\text{T}}\displaystyle\sum_{n=1}^Nt_n\boldsymbol{\phi}(x_n)\beta\right]\right\}&&...\textbf{w}\text{にかかわらない定数であるため} \\ \\
\end{align*}
が得られる。これを用いて式(1.68)を計算すると
\begin{align*}
p(t|x,\textbf{x},\textbf{t})
&=
\int p(t|x,\textbf{w})\cdot p(\textbf{w}|\textbf{x},\textbf{t})\text{d}\textbf{w} \\ \\
&\propto
\int \sqrt{\frac{\beta}{2\pi}}\exp\left\{-\frac{\beta(t-\textbf{w}^{\text{T}}\boldsymbol{\phi}(x))}{2}\right\}\cdot\exp\left\{-\frac12\left[\textbf{w}^{\text{T}}\textbf{S}^{-1}\textbf{w}-2\textbf{w}^{\text{T}}\displaystyle\sum_{n=1}^Nt_n\boldsymbol{\phi}(x_n)\beta \right]\right\}\text{d}\textbf{w}&&...\text{上式と式(1.60)より}t,\textbf{w}\text{にかかわる項以外を定数項と考えた} \\ \\
&\propto
\int\exp\left\{-\frac{\beta(t-\textbf{w}^{\text{T}}\boldsymbol{\phi}(x))^2}{2}-\frac12\left[\textbf{w}^{\text{T}}\textbf{S}^{-1}\textbf{w}-2\textbf{w}^{\text{T}}\displaystyle\sum_{n=1}^Nt_n\boldsymbol{\phi}(x_n)\beta \right]\right\}\text{d}\textbf{w}& \\ \\
&=
\int\exp\left\{-\frac12\left[\beta(t-\textbf{w}^{\text{T}}\boldsymbol{\phi}(x))^2+\textbf{w}^{\text{T}}\textbf{S}^{-1}\textbf{w}-2\textbf{w}^{\text{T}}\displaystyle\sum_{n=1}^Nt_n\boldsymbol{\phi}(x_n)\beta \right]\right\}\text{d}\textbf{w}& \\ \\
&=
\int\exp\left\{-\frac12\left[\beta\textbf{w}^{\text{T}}\boldsymbol{\phi}(x)\boldsymbol{\phi}(x)^{\text{T}}\textbf{w}-2\beta\textbf{w}^{\text{T}}\boldsymbol{\phi}(x)t+\beta t^2+\textbf{w}^{\text{T}}\textbf{S}^{-1}\textbf{w}-2\textbf{w}^{\text{T}}\displaystyle\sum_{n=1}^Nt_n\boldsymbol{\phi}(x_n)\beta \right]\right\}\text{d}\textbf{w}&&...\text{式展開をし、(2)を適用した} \\ \\
&=
\int\exp\left\{-\frac12\left[\textbf{w}^{\text{T}}\left\{\beta\boldsymbol{\phi}(x)\boldsymbol{\phi}(x)^{\text{T}}+\textbf{S}^{-1}\right\}\textbf{w}-2\beta\textbf{w}^{\text{T}}\left\{\boldsymbol{\phi}(x)t+\displaystyle\sum_{n=1}^Nt_n\boldsymbol{\phi}(x_n)\right\}+\beta t^2 \right]\right\}\text{d}\textbf{w}& \\ \\
&=
\int\exp\left\{-\frac12\left[\textbf{w}^{\text{T}}\textbf{S}_1^{-1}\textbf{w}-\beta\textbf{w}^{\text{T}}\left\{\boldsymbol{\phi}(x)t+\displaystyle\sum_{n=1}^Nt_n\boldsymbol{\phi}(x_n)\right\}-\beta\textbf{w}^{\text{T}}\left\{\boldsymbol{\phi}(x)t+\displaystyle\sum_{n=1}^Nt_n\boldsymbol{\phi}(x_n)\right\}+\beta t^2 \right]\right\}\text{d}\textbf{w}&&...\textbf{S}_1^{-1}=\beta\boldsymbol{\phi}\boldsymbol{\phi}^{\text{T}}+\textbf{S}^{-1}\text{とした} \\ \\
&=
\int\exp\left\{-\frac12\left[\textbf{w}^{\text{T}}\textbf{S}_1^{-1}\textbf{w}-\beta\left\{\boldsymbol{\phi}(x)^{\text{T}}t+\displaystyle\sum_{n=1}^Nt_n\boldsymbol{\phi}(x_n)^{\text{T}}\right\}\textbf{w}-\beta\textbf{w}^{\text{T}}\left\{\boldsymbol{\phi}(x)t+\displaystyle\sum_{n=1}^Nt_n\boldsymbol{\phi}(x_n)\right\}+\beta t^2 \right]\right\}\text{d}\textbf{w}&&...\text{(2)より} \\ \\
&=
\int\exp\left\{-\frac12\left[\textbf{w}^{\text{T}}\textbf{S}_1^{-1}\textbf{w}-\beta\left\{\boldsymbol{\phi}(x)^{\text{T}}t+\displaystyle\sum_{n=1}^Nt_n\boldsymbol{\phi}(x_n)^{\text{T}}\right\}\textbf{S}_1\textbf{S}_1^{-1}\textbf{w}-\beta\textbf{w}^{\text{T}}\textbf{S}_1^{-1}\textbf{S}_1\left\{\boldsymbol{\phi}(x)t+\displaystyle\sum_{n=1}^Nt_n\boldsymbol{\phi}(x_n)\right\}+\beta t^2 \right]\right\}\text{d}\textbf{w}&&...\textbf{I}=\textbf{S}_1^{-1}\textbf{S}_1\text{より} \\ \\
&=
\int\exp\left\{-\frac12\left[\textbf{w}^{\text{T}}\textbf{S}_1^{-1}\textbf{w}-\beta\left\{\boldsymbol{\phi}(x)^{\text{T}}t+\displaystyle\sum_{n=1}^Nt_n\boldsymbol{\phi}(x_n)^{\text{T}}\right\}\textbf{S}_1^{\text{T}}\textbf{S}_1^{-1}\textbf{w}-\beta\textbf{w}^{\text{T}}\textbf{S}_1^{-1}\textbf{S}_1\left\{\boldsymbol{\phi}(x)t+\displaystyle\sum_{n=1}^Nt_n\boldsymbol{\phi}(x_n)\right\}+\beta t^2 \right]\right\}\text{d}\textbf{w}&&...(3) \\ \\
&=
\int\exp\left\{-\frac12\left[\left(\textbf{w}^{\text{T}}-\beta\left\{\boldsymbol{\phi}(x)^{\text{T}}t+\displaystyle\sum_{n=1}^Nt_n\boldsymbol{\phi}(x_n)^{\text{T}}\right\}\textbf{S}_1^{\text{T}}\right)\textbf{S}_1^{-1}\left(\textbf{w}-\beta\textbf{S}_1\left\{\boldsymbol{\phi}(x)t+\displaystyle\sum_{n=1}^Nt_n\boldsymbol{\phi}(x_n)\right\}\right)-Z+\beta t^2 \right]\right\}\text{d}\textbf{w}&&...\text{平方完成した際に残る項を}Z\text{とした} \\ \\
&=
\int\exp\left\{-\frac12\left(\textbf{w}-\beta\textbf{S}_1\left\{\boldsymbol{\phi}(x)t+\displaystyle\sum_{n=1}^Nt_n\boldsymbol{\phi}(x_n)\right\}\right)^{\text{T}}\textbf{S}_1^{-1}\left(\textbf{w}-\beta\textbf{S}_1\left\{\boldsymbol{\phi}(x)t+\displaystyle\sum_{n=1}^Nt_n\boldsymbol{\phi}(x_n)\right\}\right)\right\}\text{d}\textbf{w}\exp\left\{-\frac12\left[-Z+\beta t^2 \right]\right\}&&... \\ \\
&\propto
\exp\left\{-\frac12\left[-Z+\beta t^2 \right]\right\}&&...\text{式(1.52)より多変数のガウス分布と同様の形をしており、積分すると}t\text{を含まない定数になるため} \\ \\
&=
\exp\left\{-\frac12\left[-\left(-\beta\textbf{S}_1\left\{\boldsymbol{\phi}(x)t+\displaystyle\sum_{n=1}^Nt_n\boldsymbol{\phi}(x_n)\right\}\right)^{\text{T}}\textbf{S}_1^{-1}\left(-\beta\textbf{S}_1\left\{\boldsymbol{\phi}(x)t+\displaystyle\sum_{n=1}^Nt_n\boldsymbol{\phi}(x_n)\right\}\right)+\beta t^2 \right]\right\}&&...Z\text{を展開した} \\ \\
&=
\exp\left\{-\frac12\left[-\beta^2\left\{\boldsymbol{\phi}(x)^{\text{T}}t+\displaystyle\sum_{n=1}^Nt_n\boldsymbol{\phi}(x_n)^{\text{T}}\right\}\textbf{S}_1^{\text{T}}(\textbf{S}_1^{-1}\textbf{S}_1)\left\{\boldsymbol{\phi}(x)t+\displaystyle\sum_{n=1}^Nt_n\boldsymbol{\phi}(x_n)\right\}+\beta t^2 \right]\right\}& \\ \\
&=
\exp\left\{-\frac12\left[-\beta^2\left\{\boldsymbol{\phi}(x)^{\text{T}}t+\displaystyle\sum_{n=1}^Nt_n\boldsymbol{\phi}(x_n)^{\text{T}}\right\}\textbf{S}_1\textbf{I}\left\{\boldsymbol{\phi}(x)t+\displaystyle\sum_{n=1}^Nt_n\boldsymbol{\phi}(x_n)\right\}+\beta t^2 \right]\right\}&&...\text{(3)より} \\ \\
&=
\exp\left\{-\frac12\left[\left\{\beta-\beta^2\boldsymbol{\phi}(x)^{\text{T}}\textbf{S}_1\boldsymbol{\phi}(x)\right\}t^2-\beta^2\left\{\boldsymbol{\phi}(x)^{\text{T}}\textbf{S}_1\displaystyle\sum_{n=1}^Nt_n\boldsymbol{\phi}(x_n)+\displaystyle\sum_{n=1}^Nt_n\boldsymbol{\phi}(x_n)^{\text{T}}\textbf{S}_1\boldsymbol{\phi}(x)\right\}t\right]\right\}& \\ \\
&=
\exp\left\{-\frac12\left[\left\{\beta-\beta^2\boldsymbol{\phi}(x)^{\text{T}}\textbf{S}_1\boldsymbol{\phi}(x)\right\}t^2-2\beta^2\boldsymbol{\phi}(x)^{\text{T}}\textbf{S}_1\displaystyle\sum_{n=1}^Nt_n\boldsymbol{\phi}(x_n)t\right]\right\}&&...(4) \\ \\
&=
\exp\left\{-\frac12\left[\left\{\frac{1}{\beta^{-1}+\boldsymbol{\phi}^{\text{T}}\textbf{S}\boldsymbol{\phi}}\right\}t^2-2\beta^2\boldsymbol{\phi}(x)^{\text{T}}\textbf{S}_1\displaystyle\sum_{n=1}^Nt_n\boldsymbol{\phi}(x_n)t\right]\right\}&&...(5) \\ \\
&=
\exp\left\{-\frac12\left[\left\{\frac{1}{\beta^{-1}+\boldsymbol{\phi}^{\text{T}}\textbf{S}\boldsymbol{\phi}}\right\}\left(t-(\beta^{-1}+\boldsymbol{\phi}^{\text{T}}\textbf{S}\boldsymbol{\phi})\beta^2\boldsymbol{\phi}(x)^{\text{T}}\textbf{S}_1\displaystyle\sum_{n=1}^Nt_n\boldsymbol{\phi}(x_n)\right)^2-Y\right]\right\}&&...\text{平方完成して残る項を}Y\text{とした} \\ \\
&=
\exp\left\{-\frac12\left[\left\{\frac{1}{\beta^{-1}+\boldsymbol{\phi}^{\text{T}}\textbf{S}\boldsymbol{\phi}}\right\}\left(t-\beta\boldsymbol{\phi}(x)^{\text{T}}\textbf{S}\displaystyle\sum_{n=1}^Nt_n\boldsymbol{\phi}(x_n)\right)^2-Y\right]\right\}&&...(6) \\ \\
&\propto
\exp\left\{-\frac12\left[\left\{\frac{1}{\beta^{-1}+\boldsymbol{\phi}^{\text{T}}\textbf{S}\boldsymbol{\phi}}\right\}\left(t-\beta\boldsymbol{\phi}(x)^{\text{T}}\textbf{S}\displaystyle\sum_{n=1}^Nt_n\boldsymbol{\phi}(x_n)\right)^2\right]\right\}&&...t\text{にかかわらない項を定数とした} \\ \\
&=
\exp\left\{-\frac{1}{2s^2(x)}\left(t-m(x)\right)^2\right\}& \\ \\
\end{align*}
と式変形できる。この式は定数項を除いてガウス分布であることを示しているため、その時平均\(m(x)\)と分散\(s^2(x)\)はそれぞれ式(1.70)(1.71)になる。
式(1.1)とその下の記述、式(1.72)下の記述より
\begin{align*}
y(x_n,\textbf{w})
&=
w_0+w_1x_n+w_2x_n^2+\ldots \\ \\
&=
(w_0,w_1,w_2,\ldots)
\left(
\begin{array}{cccc}
x_n^0 \\
x_n^1 \\
x_n^2 \\
\vdots
\end{array}
\right) \\ \\
&=
\textbf{w}^{\text{T}}\boldsymbol{\phi} \\ \\
\end{align*}
となる。
式(1.1)とその下の記述、式(1.72)下の記述より
\begin{align*}
\textbf{w}^{\text{T}}\boldsymbol{\phi}
&=
w_0+w_1x_n+w_2x_n^2+\ldots \\ \\
&=
w_0+x_nw_1+x_n^2w_2+\ldots \\ \\
&=
(x_n^0,x_n^1 ,x_n^2,\ldots)
\left(
\begin{array}{cccc}
w_0 \\
w_1\\
w_2 \\
\vdots
\end{array}
\right) \\ \\
&=
\boldsymbol{\phi}^{\text{T}}\textbf{w}
\\ \\
\end{align*}
となる。
\begin{align*}
(\textbf{S}_1^{-1})^{\text{T}}
&=
(\beta\boldsymbol{\phi}\boldsymbol{\phi}^{\text{T}}+\textbf{S}^{-1})^{\text{T}} \\ \\
&=
(\beta{\color{red}\boldsymbol{\phi}}\boldsymbol{\phi}^{\text{T}}+\alpha\textbf{I}+\beta\displaystyle\sum_{n=1}^N{\color{red}\boldsymbol{\phi}(x_n)}\boldsymbol{\phi}(x_n)^{\text{T}})^{\text{T}} \\ \\
&=
(\beta\boldsymbol{\phi}^{\text{T}})^{\text{T}}{\color{red}\boldsymbol{\phi}^{\text{T}}}+\alpha\textbf{I}^{\text{T}}+\beta\displaystyle\sum_{n=1}^N(\boldsymbol{\phi}(x_n)^{\text{T}})^{\text{T}}{\color{red}\boldsymbol{\phi}(x_n)^{\text{T}}}&&...(AB)^{\text{T}}=B^{\text{T}}A^{\text{T}}\text{を用いた} \\ \\
&=
\beta\boldsymbol{\phi}\boldsymbol{\phi}^{\text{T}}+\alpha\textbf{I}+\beta\displaystyle\sum_{n=1}^N\boldsymbol{\phi}(x_n)\boldsymbol{\phi}(x_n)^{\text{T}}&&...\textbf{I}^{\text{T}}=\textbf{I},(A^{\text{T}})^{\text{T}}=A\text{を用いた} \\ \\
&=
\textbf{S}_1^{-1}
\end{align*}
となる。ここで、対称行列の逆行列は対称行列になるため(参考)
\begin{align*}
\textbf{S}_1^{\text{T}}
&=
\textbf{S}_1
\end{align*}
が得られる。
\begin{align*}
\boldsymbol{\phi}(x_i)^{\text{T}}\textbf{S}_1\boldsymbol{\phi}(x)
&=
(\boldsymbol{\phi}(x)^{\text{T}}\textbf{S}_1^{\text{T}}(\boldsymbol{\phi}(x_i)^{\text{T}})^{\text{T}})^{\text{T}}&&...\text{転置行列の性質を用いた} \\ \\
&=
(\boldsymbol{\phi}(x)^{\text{T}}\textbf{S}_1\boldsymbol{\phi}(x_i))^{\text{T}}&&...\textbf{S}_1^{\text{T}}=\textbf{S}_1\text{を用いた} \\ \\
&=
\boldsymbol{\phi}(x)^{\text{T}}\textbf{S}_1\boldsymbol{\phi}(x_i)&&...\boldsymbol{\phi}(x),\boldsymbol{\phi}(x_i)\text{がベクトルであるため計算結果はスカラーになることから}
\end{align*}
と導出できる。
\begin{align*}
\beta-\beta^2\boldsymbol{\phi}(x)^{\text{T}}\textbf{S}_1\boldsymbol{\phi}(x)
&=
\beta-\beta^2\boldsymbol{\phi}(x)^{\text{T}}(\textbf{S}_1^{-1})^{-1}\boldsymbol{\phi}(x) \\ \\
&=
\beta-\beta^2\boldsymbol{\phi}(x)^{\text{T}}(\beta\boldsymbol{\phi}\boldsymbol{\phi}^{\text{T}}+\textbf{S}^{-1})^{-1}\boldsymbol{\phi}(x) \\ \\
&=
\beta-\beta^2\boldsymbol{\phi}(x)^{\text{T}}(\textbf{S}^{-1}+\boldsymbol{\phi}\beta\boldsymbol{\phi}^{\text{T}})^{-1}\boldsymbol{\phi}(x) \\ \\
&=
\beta-\beta^2\boldsymbol{\phi}(x)^{\text{T}}\left(\textbf{S}-\textbf{S}\boldsymbol{\phi}(x)\{\beta^{-1}+\boldsymbol{\phi}(x)^{\text{T}}\textbf{S}\boldsymbol{\phi}(x)\}^{-1}\boldsymbol{\phi}(x)^{\text{T}}\textbf{S}\right)\boldsymbol{\phi}(x)&&...\text{式(C.7)の公式を用いた} \\ \\
&=
\beta-\beta^2\boldsymbol{\phi}(x)^{\text{T}}\left(\textbf{S}-\frac{\textbf{S}\boldsymbol{\phi}(x)\boldsymbol{\phi}(x)^{\text{T}}\textbf{S}}{\beta^{-1}+\boldsymbol{\phi}(x)^{\text{T}}\textbf{S}\boldsymbol{\phi}(x)}\right)\boldsymbol{\phi}(x)&&...\beta^{-1}+\boldsymbol{\phi}(x)^{\text{T}}\textbf{S}\boldsymbol{\phi}(x)\text{はスカラーであるためベクトルとの積は交換可能になる。そのため分母に移動した。} \\ \\
&=
\beta-\beta^2\left(a-\frac{a^2}{\beta^{-1}+a}\right)&&...\text{スカラーとして}a=\boldsymbol{\phi}(x)^{\text{T}}\textbf{S}\boldsymbol{\phi}(x)\text{とした} \\ \\
&=
\beta-\beta^2\left(\frac{a(\beta^{-1}+a)-a^2}{\beta^{-1}+a}\right)&\\ \\
&=
\beta-\frac{a\beta}{\beta^{-1}+a}&\\ \\
&=
\frac{\beta(\beta^{-1}+a)-a\beta}{\beta^{-1}+a}&\\ \\
&=
\frac{1}{\beta^{-1}+a}&\\ \\
&=
\frac{1}{\beta^{-1}+\boldsymbol{\phi}(x)^{\text{T}}\textbf{S}\boldsymbol{\phi}(x)}&\\ \\
\end{align*}
と導出できる。
\begin{align*}
(\beta^{-1}+\boldsymbol{\phi}^{\text{T}}\textbf{S}\boldsymbol{\phi})\beta^2\boldsymbol{\phi}(x)^{\text{T}}\textbf{S}_1\displaystyle\sum_{n=1}^Nt_n\boldsymbol{\phi}(x_n)
&=
(\beta^{-1}+\boldsymbol{\phi}^{\text{T}}\textbf{S}\boldsymbol{\phi})\beta^2\boldsymbol{\phi}(x)^{\text{T}}(\textbf{S}_1^{-1})^{-1}\displaystyle\sum_{n=1}^Nt_n\boldsymbol{\phi}(x_n) \\ \\
&=
(\beta^{-1}+\boldsymbol{\phi}^{\text{T}}\textbf{S}\boldsymbol{\phi})\beta^2\boldsymbol{\phi}(x)^{\text{T}}(\textbf{S}^{-1}+\boldsymbol{\phi}\beta\boldsymbol{\phi}^{\text{T}})^{-1}\displaystyle\sum_{n=1}^Nt_n\boldsymbol{\phi}(x_n) \\ \\
&=
(\beta^{-1}+\boldsymbol{\phi}^{\text{T}}\textbf{S}\boldsymbol{\phi})\beta^2\boldsymbol{\phi}(x)^{\text{T}}\left(\textbf{S}-\textbf{S}\boldsymbol{\phi}(x)\{\beta^{-1}+\boldsymbol{\phi}(x)^{\text{T}}\textbf{S}\boldsymbol{\phi}(x)\}^{-1}\boldsymbol{\phi}(x)^{\text{T}}\textbf{S}\right)\displaystyle\sum_{n=1}^Nt_n\boldsymbol{\phi}(x_n)&&...\text{式(C.7)より} \\ \\
&=
(\beta^{-1}+\boldsymbol{\phi}^{\text{T}}\textbf{S}\boldsymbol{\phi})\beta^2\boldsymbol{\phi}(x)^{\text{T}}\left(\textbf{S}-\frac{\textbf{S}\boldsymbol{\phi}(x)\boldsymbol{\phi}(x)^{\text{T}}\textbf{S}}{\beta^{-1}+\boldsymbol{\phi}(x)^{\text{T}}\textbf{S}\boldsymbol{\phi}(x)}\right)\displaystyle\sum_{n=1}^Nt_n\boldsymbol{\phi}(x_n)&&...\beta^{-1}+\boldsymbol{\phi}(x)^{\text{T}}\textbf{S}\boldsymbol{\phi}(x)\text{はスカラーであるためベクトルとの積は交換可能になる。そのため分母に移動した。} \\ \\
&=
(\beta^{-1}+\boldsymbol{\phi}^{\text{T}}\textbf{S}\boldsymbol{\phi})\beta^2\left(\boldsymbol{\phi}(x)^{\text{T}}\textbf{S}-\frac{\boldsymbol{\phi}(x)^{\text{T}}\textbf{S}\boldsymbol{\phi}(x)\boldsymbol{\phi}(x)^{\text{T}}\textbf{S}}{\beta^{-1}+\boldsymbol{\phi}(x)^{\text{T}}\textbf{S}\boldsymbol{\phi}(x)}\right)\displaystyle\sum_{n=1}^Nt_n\boldsymbol{\phi}(x_n)& \\ \\
&=
\beta^2\left(\boldsymbol{\phi}(x)^{\text{T}}\textbf{S}-\frac{\boldsymbol{\phi}(x)^{\text{T}}\textbf{S}\boldsymbol{\phi}(x)\boldsymbol{\phi}(x)^{\text{T}}\textbf{S}}{\beta^{-1}+\boldsymbol{\phi}(x)^{\text{T}}\textbf{S}\boldsymbol{\phi}(x)}\right)(\beta^{-1}+\boldsymbol{\phi}^{\text{T}}\textbf{S}\boldsymbol{\phi})\displaystyle\sum_{n=1}^Nt_n\boldsymbol{\phi}(x_n)&&...(\beta^{-1}+\boldsymbol{\phi}^{\text{T}}\textbf{S}\boldsymbol{\phi})\text{はスカラーであるため積の順序を入れ替えた} \\ \\
&=
\beta^2\left(\boldsymbol{\phi}(x)^{\text{T}}\textbf{S}(\beta^{-1}+\boldsymbol{\phi}^{\text{T}}\textbf{S}\boldsymbol{\phi})-\frac{\boldsymbol{\phi}(x)^{\text{T}}\textbf{S}\boldsymbol{\phi}(x)\boldsymbol{\phi}(x)^{\text{T}}\textbf{S}}{\beta^{-1}+\boldsymbol{\phi}(x)^{\text{T}}\textbf{S}\boldsymbol{\phi}(x)}(\beta^{-1}+\boldsymbol{\phi}^{\text{T}}\textbf{S}\boldsymbol{\phi})\right)\displaystyle\sum_{n=1}^Nt_n\boldsymbol{\phi}(x_n)& \\ \\
&=
\beta^2\left[\beta^{-1}\boldsymbol{\phi}(x)^{\text{T}}\textbf{S}+\boldsymbol{\phi}(x)^{\text{T}}\textbf{S}\boldsymbol{\phi}^{\text{T}}\textbf{S}\boldsymbol{\phi}-\boldsymbol{\phi}(x)^{\text{T}}\textbf{S}\boldsymbol{\phi}(x)\boldsymbol{\phi}(x)^{\text{T}}\textbf{S}\right]\displaystyle\sum_{n=1}^Nt_n\boldsymbol{\phi}(x_n)&\\ \\
&=
\beta^2\left[\beta^{-1}\boldsymbol{\phi}(x)^{\text{T}}\textbf{S}\right]\displaystyle\sum_{n=1}^Nt_n\boldsymbol{\phi}(x_n)&\\ \\
&=
\beta\boldsymbol{\phi}(x)^{\text{T}}\textbf{S}\displaystyle\sum_{n=1}^Nt_n\boldsymbol{\phi}(x_n)&\\ \\
\end{align*}
と導出できる。
1.5 決定理論
- 式(1.85)の導出
- 式(1.88)の導出
- 式(1.89)の導出
- 式(1.90)の導出
\begin{align*}
p(\mathcal{C}_k|\textbf{x}_{\text{I}},\textbf{x}_{\text{B}})
&=
\frac{p(\textbf{x}_{\text{I}},\textbf{x}_{\text{B}}|\mathcal{C}_k)p(\mathcal{C}_k)}{p(\textbf{x}_{\text{I}},\textbf{x}_{\text{B}})}&&...\text{式(1.43)より} \\ \\
&\propto
p(\textbf{x}_{\text{I}},\textbf{x}_{\text{B}}|\mathcal{C}_k)p(\mathcal{C}_k)& \\ \\
&=
p(\textbf{x}_{\text{I}}|\mathcal{C}_k)p(\textbf{x}_{\text{B}}|\mathcal{C}_k)p(\mathcal{C}_k)&&...\text{式(1.84)より} \\ \\
&=
\frac{p(\mathcal{C}_k|\textbf{x}_{\text{I}})p(\textbf{x}_{\text{I}})}{p(\mathcal{C}_k)}\frac{p(\mathcal{C}_k|\textbf{x}_{\text{B}})p(\textbf{x}_{\text{B}})}{p(\mathcal{C}_k)}p(\mathcal{C}_k)&&...\text{式(1.43)より} \\ \\
&=
\frac{p(\mathcal{C}_k|\textbf{x}_{\text{I}})p(\textbf{x}_{\text{I}})p(\mathcal{C}_k|\textbf{x}_{\text{B}})p(\textbf{x}_{\text{B}})}{p(\mathcal{C}_k)}& \\ \\
&\propto
\frac{p(\mathcal{C}_k|\textbf{x}_{\text{I}})p(\mathcal{C}_k|\textbf{x}_{\text{B}})}{p(\mathcal{C}_k)}& \\ \\
\end{align*}
と導出できる。
式(1.86)上より推定値\(y(\textbf{x})\)を選ぶことを考えるため、\(\mathbb{E}[L]\)の\(y(\textbf{x})\)について変分を考えると、式(D.3)より
\begin{align*}
\mathbb{E}[L(y(\textbf{x})+\epsilon\eta(\textbf{x}))]
&=
\mathbb{E}[L(y(\textbf{x}))]+\epsilon\int\int \frac{\delta L}{\delta\textbf{x}}\eta(\textbf{x})\text{d}\textbf{x}\text{d}t+O(\epsilon^2) \\ \\
&=
\mathbb{E}[L(y(\textbf{x}))]+2\epsilon\int\int\{y(\textbf{x})-t\}p(\textbf{x},t)\eta(\textbf{x})\text{d}\textbf{x}\text{d}t+O(\epsilon^2) \\ \\
&=
\mathbb{E}[L(y(\textbf{x}))]+2\epsilon\int \text{d}\textbf{x}\underbrace{\eta(\textbf{x})\int\{y(\textbf{x})-t\}p(\textbf{x},t)\text{d}t}_{(1)}+O(\epsilon^2) \\ \\
\end{align*}
が得られ、この変分が\(\epsilon\)について\(0\)になるためには(1)部分が\(0\)になる必要がある。
式(1.88)より
\begin{align*}
&&\int\{y(\textbf{x})-t\}p(\textbf{x},t)\text{d}t&=0 \\ \\
&\Leftrightarrow&
\int y(\textbf{x})p(\textbf{x},t)\text{d}t-\int tp(\textbf{x},t)\text{d}t&=0 \\ \\
&\Leftrightarrow&
y(\textbf{x})\int p(\textbf{x},t)\text{d}t-\int tp(\textbf{x},t)\text{d}t&=0&&...y(\textbf{x})\text{は}t\text{の関数ではないため} \\ \\
&\Leftrightarrow&
y(\textbf{x}) p(\textbf{x})-\int tp(\textbf{x},t)\text{d}t&=0&&...\text{式(1.31)} \\ \\
&\Leftrightarrow&
y(\textbf{x})&=\frac{\int tp(\textbf{x},t)\text{d}t}{p(\textbf{x})}& \\ \\
&&
&=
\int t\frac{p(\textbf{x},t)}{p(\textbf{x})}\text{d}t& \\ \\
&&
&=
\int tp(t|\textbf{x})\text{d}t&&...\text{式(1.32)より} \\ \\
&&
&=
\mathbb{E}_t[t|\textbf{x}] \\ \\
\end{align*}
が得られる。
式(1.87)より
\begin{align*}
\mathbb{E}[L]
&=
\int\int\{y(\textbf{x})-t\}^2p(\textbf{x},t)\text{d}t\text{d}\textbf{x} \\ \\
&=
\int\int\left[\{y(\textbf{x})-\mathbb{E}[t|\textbf{x}]\}^2+2\{y(\textbf{x})-\mathbb{E}[t|\textbf{x}]\}\{\mathbb{E}[t|\textbf{x}]-t\}+\{\mathbb{E}[t|\textbf{x}]-t\}^2\right]p(\textbf{x},t)\text{d}t\text{d}\textbf{x} \\ \\
&=
\int\int\{y(\textbf{x})-\mathbb{E}[t|\textbf{x}]\}^2p(\textbf{x},t)\text{d}t\text{d}\textbf{x}+\int\int 2\{y(\textbf{x})-\mathbb{E}[t|\textbf{x}]\}\{\mathbb{E}[t|\textbf{x}]-t\}p(\textbf{x},t)\text{d}t\text{d}\textbf{x}+\int\int\{\mathbb{E}[t|\textbf{x}]-t\}^2p(\textbf{x},t)\text{d}t\text{d}\textbf{x} \\ \\
&=
\underbrace{\int\{y(\textbf{x})-\mathbb{E}[t|\textbf{x}]\}^2p(t)\text{d}t}_{(1)}+\int\int 2\{y(\textbf{x})-\mathbb{E}[t|\textbf{x}]\}\{\mathbb{E}[t|\textbf{x}]-t\}\underbrace{p(t|\textbf{x})p(\textbf{x})}_{(2)}\text{d}t\text{d}\textbf{x}+\int\int\{\mathbb{E}[t|\textbf{x}]-t\}^2\underbrace{p(t|\textbf{x})p(\textbf{x})}_{(2)}\text{d}t\text{d}\textbf{x}&&...\text{(1)式(1.31)(2)式(1.32)} \\ \\
&=
\int\{y(\textbf{x})-\mathbb{E}[t|\textbf{x}]\}^2p(t)\text{d}t+\int 2\{y(\textbf{x})-\mathbb{E}[t|\textbf{x}]\}p(\textbf{x})\left[\int\{\mathbb{E}[t|\textbf{x}]-t\}p(t|\textbf{x})\text{d}t\right]\text{d}\textbf{x}+\int\left[\int\{\mathbb{E}[t|\textbf{x}]-t\}^2p(t|\textbf{x})\text{d}t \right]p(\textbf{x})\text{d}\textbf{x}& \\ \\
&=
\int\{y(\textbf{x})-\mathbb{E}[t|\textbf{x}]\}^2p(t)\text{d}t+\int 2\{y(\textbf{x})-\mathbb{E}[t|\textbf{x}]\}p(\textbf{x})\underbrace{\left[\mathbb{E}[t|\textbf{x}]-\mathbb{E}[t|\textbf{x}]\right]}_{(3)}\text{d}\textbf{x}+\int\underbrace{\left[\text{var}[t|\textbf{x}]\right]}_{(4)}p(\textbf{x})\text{d}\textbf{x}&&...\text{(3)式(1.37)と}\int p(t|\textbf{x})\text{d}t=1\text{より(4)条件付分散より} \\ \\
&=
\int\{y(\textbf{x})-\mathbb{E}[t|\textbf{x}]\}^2p(t)\text{d}t+\int\text{var}[t|\textbf{x}]p(\textbf{x})\text{d}\textbf{x}& \\ \\
\end{align*}
が得られる。
1.6 情報理論
- 式(1.97)の導出
- 式(1.99)下:最大のエントロピーを持つ確率分布が\(p(x_i)=1/M\)となるときであること
- 式(1.100)の導出
- 式(1.108)の導出
- 式(1.109)の導出
- 式(1.110)の導出
- 式(1.112)の導出
- 式(1.115)の導出
- 式(1.121)の導出
\begin{align*}
H
&=
\frac{1}{N}\ln N!-\frac{1}{N}\displaystyle\sum_i\ln n_i! \\ \\
&\Rightarrow
\frac{1}{N}\left(N\ln N-N\right)-\frac{1}{N}\displaystyle\sum_i\left(n_i\ln n_i-n_i\right)&&...\text{式(1.96)より。また、}\frac{n_i}{N}\text{を一定にしたまま}N\text{を大きくするため}n_i\text{も大きいとした} \\ \\
&=
\ln N-1-\frac{1}{N}\displaystyle\sum_i\left(n_i\ln n_i\right)+\frac{1}{N}\displaystyle\sum_i\left(n_i\right)& \\ \\
&=
\ln N-1-\displaystyle\sum_i\frac{n_i}{N}\ln n_i+\frac{1}{N}N&& \\ \\
&=
1\cdot\ln N-\displaystyle\sum_i\frac{n_i}{N}\ln n_i&& \\ \\
&=
\displaystyle\sum_i\frac{n_i}{N}\ln N-\displaystyle\sum_i\frac{n_i}{N}\ln n_i&& \\ \\
&=
-\displaystyle\sum_i\left[-\frac{n_i}{N}\ln N+\frac{n_i}{N}\ln n_i\right]&& \\ \\
&=
-\displaystyle\sum_i\frac{n_i}{N}\ln \frac{n_i}{N}&& \\ \\
&=
-\displaystyle\sum_ip_i\ln p_i&& \\ \\
\end{align*}
と導出できる。
式(1.99)より、任意の\(p(x_i)\)による微分係数が\(0\)であるとすると
\begin{align*}
&&
\frac{\partial\tilde{H}}{\partial p(x_i)}
&=
0 \\ \\
&\Leftrightarrow&
-\ln p(x_i)-p(x_i)\frac{1}{p(x_i)}+\lambda&=0 \\ \\
&=
0 \\ \\
&\Leftrightarrow&
\ln p(x_i)&=\lambda-1 \\ \\
\end{align*}
が得られる。これはすべての\(x_i\)について\(p(x_i)\)が同じ値になることを示しているため、\(\displaystyle\sum_i^M p(x_i)=1\)より\(p(x_i)=1/M\)が得られる。
「式(1.99)下:最大のエントロピーを持つ確率分布が\(p(x_i)=1/M\)となるときであること」より
\begin{align*}
\frac{\partial\tilde{H}}{\partial p(x_i)}
&=
-\ln p(x_i)-1+\lambda&\\ \\
\frac{\partial}{\partial p(x_j)}\frac{\partial\tilde{H}}{\partial p(x_i)}
&=
\begin{cases}
0 & ( j \neq i ) \\
-\frac{1}{p(x_i)} & ( j=i )
\end{cases}\\ \\
&=
-I_{ij}\frac{1}{p_i}
\end{align*}
が得られる。
ラグランジュ乗数法より、最大化する汎関数を\(P\)とすると
\begin{align*}
P(p(x))
&=
-\int_{-\infty}^{\infty}p(x)\ln p(x)\text{d}x+\lambda_1\left(\int_{-\infty}^{\infty}p(x)\text{d}x-1\right)+\lambda_2\left(\int_{-\infty}^{\infty}xp(x)\text{d}x-\mu\right)+\lambda_3\left(\int_{-\infty}^{\infty}(x-\mu)^2p(x)\text{d}x-\sigma^2\right) \\ \\
&=
\int_{-\infty}^{\infty}\left[\vphantom{\sum}-p(x)\ln p(x)+\lambda_1p(x)+\lambda_2xp(x)+\lambda_3(x-\mu)^2p(x)\right]\text{d}x-(\lambda_1+\lambda_2\mu+\lambda_3\sigma^2) \\ \\
\end{align*}
が得られる。この積分の中身の変分を\(0\)にすればよいので
\begin{align*}
&&
\frac{\delta}{\delta p(x)}\left[\vphantom{\sum}-p(x)\ln p(x)+\lambda_1p(x)+\lambda_2xp(x)+\lambda_3(x-\mu)^2p(x)\right]&=0 \\ \\
&\Leftrightarrow&
-\ln p(x)-p(x)\frac{1}{p(x)}+\lambda_1+\lambda_2x+\lambda_3(x-\mu)^2&=0 \\ \\
&\Leftrightarrow&
\ln p(x)=-1+\lambda_1+\lambda_2x+\lambda_3(x-\mu)^2& \\ \\
&\Leftrightarrow&
p(x)=\exp\left\{-1+\lambda_1+\lambda_2x+\lambda_3(x-\mu)^2\right\}& \\ \\
\end{align*}
と導出できる。
\(e\)の指数に着目すると\(x\)の二次式になっている。
\begin{align*}
\int_{-\infty}^{\infty}p(x)\text{d}x=1
\end{align*}
の条件から、この計算は発散してはいけないため\(\lambda_3\lt 0\)である。したがってこの式はガウス分布を表す式であるといえるため、制約条件(1.106)(1.107)とガウス分布の平均、分散を考えると式(1.109)になることが言える。
ここで、式(1.108)(1.109)を比較すると \begin{align*} e^{-1+\lambda_1}\exp\{\lambda_2x+\lambda_3(x-\mu)^2\} &= \frac{1}{(2\pi\sigma^2)^{1/2}}\exp\left\{-\frac{(x-\mu)^2}{2\sigma^2}\right\} \end{align*} より、 \begin{align*} \lambda_1&=1+\ln\frac{1}{(2\pi\sigma^2)^{1/2}} \\ \\ \lambda_2&=0 \\ \\ \lambda_3&=-\frac{1}{2\sigma^2} \end{align*} になる。実際に計算して求めることも可能。
ここで、式(1.108)(1.109)を比較すると \begin{align*} e^{-1+\lambda_1}\exp\{\lambda_2x+\lambda_3(x-\mu)^2\} &= \frac{1}{(2\pi\sigma^2)^{1/2}}\exp\left\{-\frac{(x-\mu)^2}{2\sigma^2}\right\} \end{align*} より、 \begin{align*} \lambda_1&=1+\ln\frac{1}{(2\pi\sigma^2)^{1/2}} \\ \\ \lambda_2&=0 \\ \\ \lambda_3&=-\frac{1}{2\sigma^2} \end{align*} になる。実際に計算して求めることも可能。
式(1.104)に式(1.109)を適用する。
\begin{align*}
\text{H}[x]
&=
-\int_{-\infty}^{\infty}p(x)\ln p(x)\text{d}x \\ \\
&=
-\int_{-\infty}^{\infty}p(x)\ln\left(\frac{1}{(2\pi\sigma^2)^{1/2}}\exp\left\{-\frac{(x-\mu)^2}{2\sigma^2}\right\}\right) \text{d}x \\ \\
&=
-\int_{-\infty}^{\infty}p(x)\left[\ln\frac{1}{(2\pi\sigma^2)^{1/2}}-\frac{(x-\mu)^2}{2\sigma^2}\right] \text{d}x \\ \\
&=
\frac12\ln(2\pi\sigma^2)\int_{-\infty}^{\infty}p(x)\text{d}x+\frac{1}{2\sigma^2}\int_{-\infty}^{\infty}p(x)(x-\mu)^2 \text{d}x \\ \\
&=
\frac12\ln(2\pi\sigma^2)\cdot 1+\frac{1}{2\sigma^2}\sigma^2&&...\text{式(1.105)(1.107)より} \\ \\
&=
\frac12\{1+\ln(2\pi\sigma^2)\}
\end{align*}
になる。
式(1.104)に式(1.109)を適用する。
\begin{align*}
\text{H}[\textbf{x},\textbf{y}]
&=
-\int\int p(\textbf{x},\textbf{y})\ln p(\textbf{x},\textbf{y})\text{d}\textbf{x}\text{d}\textbf{y} \\ \\
&=
-\int\int p(\textbf{x},\textbf{y})\ln p(\textbf{y}|\textbf{x})p(\textbf{x})\text{d}\textbf{x}\text{d}\textbf{y}&&...\text{式(1.32)より} \\ \\
&=
-\int\int p(\textbf{x},\textbf{y})\{\ln p(\textbf{y}|\textbf{x})+\ln p(\textbf{x})\}\text{d}\textbf{x}\text{d}\textbf{y}& \\ \\
&=
-\int\int p(\textbf{x},\textbf{y})\ln p(\textbf{y}|\textbf{x})\text{d}\textbf{x}\text{d}\textbf{y}-\int\int p(\textbf{x},\textbf{y})\ln p(\textbf{x})\text{d}\textbf{x}\text{d}\textbf{y}& \\ \\
&=
\text{H}[\textbf{y}|\textbf{x}]-\int p(\textbf{x})\ln p(\textbf{x})\text{d}\textbf{x}&&...\text{式(1.111)(1.31)より} \\ \\
&=
\text{H}[\textbf{y}|\textbf{x}]+\text{H}[\textbf{x}]&&...\text{式(1.104)より} \\ \\
\end{align*}
になる。
こちらの解説など参考。
\begin{align*}
\text{I}[\textbf{x},\textbf{y}]
&=
-\int\int p(\textbf{x},\textbf{y})\ln\left(\frac{p(\textbf{x})p(\textbf{y})}{p(\textbf{x},\textbf{y})}\right)\text{d}\textbf{x}\text{d}\textbf{y} \\ \\
&=
-\int\int p(\textbf{x},\textbf{y})\ln\left(\frac{p(\textbf{x})p(\textbf{y})}{p(\textbf{x}|\textbf{y})p(\textbf{y})}\right)\text{d}\textbf{x}\text{d}\textbf{y}&&...(\ast)\text{式(1.32)} \\ \\
&=
-\int\int p(\textbf{x},\textbf{y})\ln\left(\frac{p(\textbf{x})}{p(\textbf{x}|\textbf{y})}\right)\text{d}\textbf{x}\text{d}\textbf{y}& \\ \\
&=
-\int\int p(\textbf{x},\textbf{y})\ln p(\textbf{x})\text{d}\textbf{x}\text{d}\textbf{y}-\left[-\int\int p(\textbf{x},\textbf{y})\ln p(\textbf{x}|\textbf{y})\text{d}\textbf{x}\text{d}\textbf{y}\right]& \\ \\
&=
-\int p(\textbf{x})\ln p(\textbf{x})\text{d}\textbf{x}-\text{H}[\textbf{x}|\textbf{y}]&&...\text{式(1.31)と式(1.111)} \\ \\
&=
\text{H}[\textbf{x}]-\text{H}[\textbf{x}|\textbf{y}]&&...\text{式(1.104)} \\ \\
\end{align*}
と一つ目の等式が導出できる。二つ目の等式については\((\ast)\)において\(p(\textbf{x},\textbf{y})=p(\textbf{y}|\textbf{x})p(\textbf{x})\)とすることで同様に導出できる。