PRMLの行間埋め 第2章
2.1 二値変数
- 式(2.3)の導出
- 式(2.4)の導出
- 式(2.7)の導出
- 式(2.11)の導出
- 式(2.12)の導出
- 式(2.15)(2.16)の導出
- 式(2.17)の導出
- 式(2.21)の導出
- 式(2.24)の導出
\begin{align*}
\mathbb{E}[x]
&=
\displaystyle\sum_{x=0}^1xp(x|\mu) \\ \\
&=
0\mu^{0}(1-\mu)^{1-0}+1\mu^{1}(1-\mu)^{1-1} \\ \\
&=
\mu
\end{align*}
\begin{align*}
\text{var}[x]
&=
\displaystyle\sum_{x=0}^1(x-\mu)^2p(x|\mu) \\ \\
&=
(0-\mu)^2\mu^{0}(1-\mu)^{1-0}+(1-\mu)^2\mu^{1}(1-\mu)^{1-1} \\ \\
&=
\mu^2(1-\mu)+(1-\mu)^2\mu \\ \\
&=
\mu(1-\mu)(\mu+1-\mu) \\ \\
&=
\mu(1-\mu)
\end{align*}
式(2.6)を用いる。
\begin{align*}
\frac{\partial}{\partial \mu}\ln p(\mathcal{D}|\mu)
&=
\frac{\partial}{\partial \mu}\displaystyle\sum_{n=1}^N\{x_n\ln\mu+(1-x_n)\ln(1-\mu)\} \\ \\
&=
\displaystyle\sum_{n=1}^N\left\{\frac{x_n}{\mu}-\frac{1-x_n}{1-\mu}\right\} \\ \\
&=
\displaystyle\sum_{n=1}^N\left\{\frac{x_n-\mu}{\mu(1-\mu)}\right\} \\ \\ \\
\left.\frac{\partial}{\partial \mu}\ln p(\mathcal{D}|\mu)\right|_{\mu=\mu_{\text{ML}}}&=0 \\ \\
\Leftrightarrow
\displaystyle\sum_{n=1}^N\left\{\frac{x_n-\mu_{\text{ML}}}{\mu_{\text{ML}}(1-\mu_{\text{ML}})}\right\}&=0 \\ \\
\Leftrightarrow
\displaystyle\sum_{n=1}^N\left\{x_n-\mu_{\text{ML}}\right\}&=0 \\ \\
\Leftrightarrow
\displaystyle\sum_{n=1}^N\left\{x_n\right\}-N\mu_{\text{ML}}&=0 \\ \\
\Leftrightarrow
\mu_{\text{ML}}&=\frac{1}{N}\displaystyle\sum_{n=1}^Nx_n \\ \\
\end{align*}
\begin{align*}
\mathbb{E}[m]
&=
\displaystyle\sum_{m=0}^Nm\text{Bin}(m|N,\mu) \\ \\
&=
\displaystyle\sum_{m=1}^Nm\frac{N!}{(N-m)!m!}\mu^{m}(1-\mu)^{N-m}&&...m=0\text{のときの計算結果は}0\text{になるため} \\ \\
&=
\displaystyle\sum_{m=1}^N\frac{N!}{(N-m)!(m-1)!}\mu^{m}(1-\mu)^{N-m} \\ \\
&=
\displaystyle\sum_{m=1}^N\mu N\frac{(N-1)!}{(N-m)!(m-1)!}\mu^{m-1}(1-\mu)^{N-m} \\ \\
&=
\mu N\displaystyle\sum_{m=1}^N\frac{(N-1)!}{(N-1-(m-1))!(m-1)!}\mu^{m-1}(1-\mu)^{N-1-(m-1)} \\ \\
&=
\mu N\displaystyle\sum_{m^{\prime}=0}^{N-1}\frac{(N-1)!}{(N-1-m^{\prime})!m^{\prime}!}\mu^{m^{\prime}}(1-\mu)^{N-1-m^{\prime}}&&...m^{\prime}=m-1\text{とした} \\ \\
&=
\mu N\displaystyle\sum_{m^{\prime}=0}^{N-1}\text{Bin}(m^{\prime}|N-1,\mu) \\ \\
&=
\mu N &&...\text{二項分布の確率の総和なので}1\text{になる}
\end{align*}
と導出できる。
\begin{align*}
\text{var}[m]
&=
\mathbb{E}[m^2]-(\mathbb{E}[m])^2&&...\text{式(1.40)} \\ \\
&=
\mathbb{E}[m(m-1)]+\mathbb{E}[m]-(\mathbb{E}[m])^2& \\ \\
\end{align*}
と式変形できることを利用する。
\begin{align*}
\mathbb{E}[m(m-1)]
&=
\displaystyle\sum_{m=0}^Nm(m-1)\text{Bin}(m|N,\mu) \\ \\
&=
\displaystyle\sum_{m=2}^Nm(m-1)\frac{N!}{(N-m)!m!}\mu^{m}(1-\mu)^{N-m}&&...m=0,1\text{のときの計算結果は}0\text{になるため} \\ \\
&=
\displaystyle\sum_{m=2}^N\frac{N!}{(N-m)!(m-2)!}\mu^{m}(1-\mu)^{N-m} \\ \\
&=
\displaystyle\sum_{m=2}^N\mu^2 N(N-1)\frac{(N-2)!}{(N-m)!(m-2)!}\mu^{m-2}(1-\mu)^{N-m} \\ \\
&=
\mu^2 N(N-1)\displaystyle\sum_{m=2}^N\frac{(N-2)!}{(N-2-(m-2))!(m-2)!}\mu^{m-2}(1-\mu)^{N-2-(m-2)} \\ \\
&=
\mu^2 N(N-1)\displaystyle\sum_{m^{\prime\prime}=0}^{N-2}\frac{(N-2)!}{(N-2-m^{\prime\prime})!m^{\prime\prime}!}\mu^{m^{\prime\prime}}(1-\mu)^{N-2-m^{\prime\prime}}&&...m^{\prime\prime}=m-2\text{とした} \\ \\
&=
\mu^2 N(N-1)\displaystyle\sum_{m^{\prime\prime}=0}^{N-2}\text{Bin}(m^{\prime\prime}|N-2,\mu) \\ \\
&=
\mu^2 N(N-1) &&...\text{二項分布の確率の総和なので}1\text{になる} \\ \\ \\
\text{var}[m]
&=
\mathbb{E}[m(m-1)]+\mathbb{E}[m]-(\mathbb{E}[m])^2 \\ \\
&=
\mu^2 N(N-1)+N\mu-(N\mu)^2&&...\text{式(2.11)} \\ \\
&=
N\mu(1-\mu)& \\ \\
\end{align*}
と導出できる。
統計学実践ワークブックの行間埋めにある解説など参考。
\begin{align*}
p(\mu|m,l,a,b)
&\propto
text{Bin}(m|N,\mu)\text{Beta}(\mu|a,b)&&...\text{式(1.43)を利用し、分母に}\mu\text{が現れないことから比例関係とした} \\ \\
&=
\left(
\begin{array}{cccc}
N \\
m
\end{array}
\right)\mu^{m}(1-\mu)^{N-m}\cdot\frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)}\mu^{a-1}(1-\mu)^{b-1}&&...\text{式(2.9)(2.13)より} \\ \\
&\propto
\mu^{m}(1-\mu)^{N-m}\cdot\mu^{a-1}(1-\mu)^{b-1}&&...\mu\text{に関する項のみ残した} \\ \\
&=
\mu^{m}(1-\mu)^{l}\cdot\mu^{a-1}(1-\mu)^{b-1}&&...l=N-m\text{とした} \\ \\
&=
\mu^{m+a-1}(1-\mu)^{l+b-1}
\end{align*}
と導出できる。
こちらの「\( E[E[X|Y]]=E[X] \)の導出」に同様の導出が記載。
こちらの「\(V[X]=E[V[X|Y]]+V[E[X|Y]]\)の導出」に同様の導出が記載。
2.3 ガウス分布
- 式(2.48)の導出
- 式(2.49)の確認
- 式(2.55)の導出
- 式(2.61)の式変形の導出
- 式(2.63)の導出
- 式(2.63)下:一般対称共分散行列には自由パラメータが\(D(D+1)/2\)個あること
- 式(2.70)の導出
- 式(2.71)の導出
- 式(2.74)の導出
- 式(2.75)の導出
- 式(2.81)の導出
- 式(2.82)の導出
- 式(2.84)の導出
- 式(2.87)の導出
- (3)の一つ目の式変形の導出
- 式(2.88)(2.89)の導出
- 式(2.102)の導出
- 式(2.105)の導出
- 式(2.106)の左辺の導出
- 式(2.107)(2.108)の導出
- 式(2.111)(2.112)の導出
- 式(2.118)の導出
- 式(2.119)が十分統計量になること
- (1)\(\textbf{x}_n^{\text{T}}\boldsymbol{\Sigma}^{-1}\textbf{x}_n=\text{Tr}(\textbf{x}_n\textbf{x}_n^{\text{T}}\boldsymbol{\Sigma}^{-1})\)の導出
- 式(2.120)の計算の導出
- (2)の導出
- 式(2.121)の導出
- 式(2.122)の導出
- (2)\(\frac{\partial}{\partial\boldsymbol{\Sigma}}\text{Tr}(\boldsymbol{\Sigma}^{-1}(\textbf{x}_n-\boldsymbol{\mu})(\textbf{x}_n-\boldsymbol{\mu})^{\text{T}})\)の計算
- 式(2.124)の導出
- 式(2.134)の式変形
- 式(2.136)の式変形
- 式(2.141)(2.142)の導出
- 式(2.144)の導出
- 式(2.147)(2.148)の導出
- 式(2.158)の導出
- (1)の導出
- 式(2.162)の導出
- 式(2.164)(2.165)の導出
- 式(2.176)の導出
- 式(2.181)の導出
- 式(2.184)の導出
- 式(2.185)の導出
- 式(2.192)の導出
- 式(2.193)の導出
\(\textbf{u}_i\)は正規直交基底であるためベクトル\(\textbf{x}\)に対して
\begin{align*}
\textbf{x}
&=
\displaystyle\sum_{i}^D(\textbf{u}_i^{\text{T}}\textbf{x})\textbf{u}_i \\ \\
&=
\displaystyle\sum_{i}^D\textbf{u}_i(\textbf{u}_i^{\text{T}}\textbf{x}) \\ \\
&=
\displaystyle\sum_{i}^D(\textbf{u}_i\textbf{u}_i^{\text{T}})\textbf{x} \\ \\
&=
\textbf{I}\textbf{x}&&...\text{単位行列として}\textbf{I}\text{を用いた。}
\end{align*}
と書くことができる。
これを用いると
\begin{align*}
\boldsymbol{\Sigma}
&=
\boldsymbol{\Sigma}\textbf{I} \\ \\
&=
\boldsymbol{\Sigma}\displaystyle\sum_{i}^D\textbf{u}_i\textbf{u}_i^{\text{T}} \\ \\
&=
\displaystyle\sum_{i}^D\boldsymbol{\Sigma}\textbf{u}_i\textbf{u}_i^{\text{T}} \\ \\
&=
\displaystyle\sum_{i}^D\lambda_i\textbf{u}_i\textbf{u}_i^{\text{T}}&&...\text{式(2.45)} \\ \\
\end{align*}
と導出できる。
片方からの未確認すると
\begin{align*}
\boldsymbol{\Sigma}\boldsymbol{\Sigma}^{-1}
&=
\displaystyle\sum_{i}^D\lambda_i\textbf{u}_i\textbf{u}_i^{\text{T}}\displaystyle\sum_{j}^D\frac{1}{\lambda_j}\textbf{u}_j\textbf{u}_j^{\text{T}}& \\ \\
&=
\displaystyle\sum_{i}^D\sum_{j}^D\frac{\lambda_i}{\lambda_j}\textbf{u}_i\textbf{u}_i^{\text{T}}\textbf{u}_j\textbf{u}_j^{\text{T}}& \\ \\
&=
\displaystyle\sum_{i}^D\sum_{j}^D\frac{\lambda_i}{\lambda_j}\textbf{u}_iI_{ij}\textbf{u}_j^{\text{T}}&&...\text{式(2.46)} \\ \\
&=
\displaystyle\sum_{i}^D\frac{\lambda_i}{\lambda_i}\textbf{u}_i\cdot 1\cdot\textbf{u}_i^{\text{T}}&&...j=i\text{の項のみ残るため} \\ \\
&=
\displaystyle\sum_{i}^D\frac{\lambda_i}{\lambda_i}\textbf{u}_i\cdot\textbf{u}_i^{\text{T}}& \\ \\
&=
\textbf{I}& \\ \\
\end{align*}
と「式(2.48)の導出」でもあったように単位行列になることから式(2.48)の逆行列になっていることがわかる。
\(\boldsymbol{\Sigma}\)が対称行列であることから、式(C.47)より平方根を取ることで得られる。
\begin{align*}
&\frac{1}{(2\pi)^{D/2}}\frac{1}{|\boldsymbol{\Sigma}|^{1/2}}\int\exp\left\{-\frac12\textbf{z}^{\text{T}}\boldsymbol{\Sigma}^{-1}\textbf{z}\right\}\textbf{z}\textbf{z}^{\text{T}}\text{d}\textbf{z} \\ \\
=&
\frac{1}{(2\pi)^{D/2}}\frac{1}{|\boldsymbol{\Sigma}|^{1/2}}\int\exp\left\{-\frac12\displaystyle\sum_{j=1}^D(y_j\textbf{u}_j)^{\text{T}}\displaystyle\sum_{i}^D\frac{1}{\lambda_i}\textbf{u}_i\textbf{u}_i^{\text{T}}\displaystyle\sum_{k=1}^D(y_k\textbf{u}_k)\right\}\textbf{z}\textbf{z}^{\text{T}}\text{d}\textbf{z}&&...\text{式(2.49)(2.60)} \\ \\
=&
\frac{1}{(2\pi)^{D/2}}\frac{1}{|\boldsymbol{\Sigma}|^{1/2}}\int\exp\left\{-\frac12\displaystyle\sum_{j=1}^D(y_j\textbf{u}_j)^{\text{T}}\displaystyle\sum_{i}^D\frac{1}{\lambda_i}\textbf{u}_i\left[\displaystyle\sum_{k=1}^D\textbf{u}_i^{\text{T}}\textbf{u}_k\right]y_k\right\}\textbf{z}\textbf{z}^{\text{T}}\text{d}\textbf{z} \\ \\
=&
\frac{1}{(2\pi)^{D/2}}\frac{1}{|\boldsymbol{\Sigma}|^{1/2}}\int\exp\left\{-\frac12\displaystyle\sum_{j=1}^D(y_j\textbf{u}_j)^{\text{T}}\displaystyle\sum_{i}^D\frac{1}{\lambda_i}\textbf{u}_i\displaystyle\sum_{k=1}^DI_{ik}y_k\right\}\textbf{z}\textbf{z}^{\text{T}}\text{d}\textbf{z}&&...\text{式(2.46)} \\ \\
=&
\frac{1}{(2\pi)^{D/2}}\frac{1}{|\boldsymbol{\Sigma}|^{1/2}}\int\exp\left\{-\frac12\displaystyle\sum_{j=1}^Dy_j\textbf{u}_j^{\text{T}}\displaystyle\sum_{i}^D\frac{1}{\lambda_i}\textbf{u}_iy_i\right\}\textbf{z}\textbf{z}^{\text{T}}\text{d}\textbf{z}&&...k=i\text{の項のみが残るため} \\ \\
=&
\frac{1}{(2\pi)^{D/2}}\frac{1}{|\boldsymbol{\Sigma}|^{1/2}}\int\exp\left\{-\frac12\displaystyle\sum_{j=1}^Dy_j\displaystyle\sum_{i}^D\frac{1}{\lambda_i}\textbf{u}_j^{\text{T}}\textbf{u}_iy_i\right\}\textbf{z}\textbf{z}^{\text{T}}\text{d}\textbf{z}& \\ \\
=&
\frac{1}{(2\pi)^{D/2}}\frac{1}{|\boldsymbol{\Sigma}|^{1/2}}\int\exp\left\{-\frac12\displaystyle\sum_{j=1}^Dy_j\frac{1}{\lambda_j}y_j\right\}\textbf{z}\textbf{z}^{\text{T}}\text{d}\textbf{z}&&...\text{上記と同様の議論} \\ \\
=&
\frac{1}{(2\pi)^{D/2}}\frac{1}{|\boldsymbol{\Sigma}|^{1/2}}\int\exp\left\{-\displaystyle\sum_{k=1}^D\frac{y_k^2}{2\lambda_k}\right\}\textbf{z}\textbf{z}^{\text{T}}\text{d}\textbf{z}&&...\text{式をまとめて}j\to k\text{とした} \\ \\
=&
\frac{1}{(2\pi)^{D/2}}\frac{1}{|\boldsymbol{\Sigma}|^{1/2}}\int\exp\left\{-\displaystyle\sum_{k=1}^D\frac{y_k^2}{2\lambda_k}\right\}\displaystyle\sum_{i=1}^D(y_i\textbf{u}_i)\displaystyle\sum_{j=1}^D(y_j\textbf{u}_j)^{\text{T}}|\textbf{J}|\text{d}\textbf{y}& \\ \\
=&
\frac{1}{(2\pi)^{D/2}}\frac{1}{|\boldsymbol{\Sigma}|^{1/2}}\displaystyle\sum_{i=1}^D\sum_{j=1}^D\textbf{u}_i\textbf{u}_j^{\text{T}}\int\exp\left\{-\displaystyle\sum_{k=1}^D\frac{y_k^2}{2\lambda_k}\right\}y_iy_j\text{d}\textbf{y}&&...\text{式(2.60)より。また、式(2.54)よりヤコビアンは}1 \\ \\
=&
\frac{1}{(2\pi)^{D/2}}\frac{1}{|\boldsymbol{\Sigma}|^{1/2}}\displaystyle\sum_{i=1}^D\textbf{u}_i\textbf{u}_i^{\text{T}}\int\exp\left\{-\displaystyle\sum_{k=1}^D\frac{y_k^2}{2\lambda_k}\right\}y_iy_i\text{d}\textbf{y}&&...i\neq j\text{のとき積分する関数は}y_i\text{について奇関数となるため積分結果が}0\text{になることを用いた} \\ \\
=&
\frac{1}{(2\pi)^{D/2}}\frac{1}{|\boldsymbol{\Sigma}|^{1/2}}\displaystyle\sum_{i=1}^D\textbf{u}_i\textbf{u}_i^{\text{T}}\int\exp\left\{-\displaystyle\sum_{k\neq i}^D\frac{y_k^2}{2\lambda_k}-\frac{y_i^2}{2\lambda_i}\right\}y_iy_i\text{d}\textbf{y}& \\ \\
=&
\frac{1}{(2\pi)^{D/2}}\frac{1}{|\boldsymbol{\Sigma}|^{1/2}}\displaystyle\sum_{i=1}^D\textbf{u}_i\textbf{u}_i^{\text{T}}\left((2\pi)^{\frac{D-1}{2}}\displaystyle\prod_{j\neq k}\lambda_j^{1/2}\right)\int\exp\left\{-\frac{y_i^2}{2\lambda_i}\right\}y_iy_i\text{d}y_i&&...y_k(k\neq i)\text{の積分は平均}0\text{分散}\lambda_k\text{のガウス関数の積分になる。ガウス関数が規格化されており、式(1.48)の係数との比較より} \\ \\
=&
\frac{1}{(2\pi)^{D/2}}\frac{1}{|\boldsymbol{\Sigma}|^{1/2}}\displaystyle\sum_{i=1}^D\textbf{u}_i\textbf{u}_i^{\text{T}}\left((2\pi)^{\frac{D-1}{2}}\displaystyle\prod_{j\neq k}\lambda_j^{1/2}\right)(2\pi)^{1/2}\lambda_i\frac{1}{(2\pi)^{1/2}\lambda_i}\int\exp\left\{-\frac{y_i^2}{2\lambda_i}\right\}y_iy_i\text{d}y_i& \\ \\
=&
\frac{1}{(2\pi)^{D/2}}\frac{1}{|\boldsymbol{\Sigma}|^{1/2}}\displaystyle\sum_{i=1}^D\textbf{u}_i\textbf{u}_i^{\text{T}}\left((2\pi)^{\frac{D}{2}}\displaystyle\prod_{j=1}^D\lambda_j^{1/2}\right)\frac{1}{(2\pi)^{1/2}\lambda_i}\int\exp\left\{-\frac{y_i^2}{2\lambda_i}\right\}y_iy_i\text{d}y_i& \\ \\
=&
\displaystyle\sum_{i=1}^D\textbf{u}_i\textbf{u}_i^{\text{T}}\frac{1}{(2\pi)^{1/2}\lambda_i}\int\exp\left\{-\frac{y_i^2}{2\lambda_i}\right\}y_iy_i\text{d}y_i&&...\text{式(2.55)より} \\ \\
=&
\displaystyle\sum_{i=1}^D\textbf{u}_i\textbf{u}_i^{\text{T}}\lambda_i&&...\text{平均が}0\text{であるため、式(1.50)より分散が求められる} \\ \\
=&
\boldsymbol{\Sigma}&&...\text{式(2.48)} \\ \\
\end{align*}
と導出できる。
\begin{align*}
\text{cov}[\textbf{x}]
&=
\mathbb{E}\left[\textbf{x}\textbf{x}^{\text{T}}-\mathbb{E}[\textbf{x}]\textbf{x}^{\text{T}}-\textbf{x}\mathbb{E}[\textbf{x}]^{\text{T}}+\mathbb{E}[\textbf{x}]\mathbb{E}[\textbf{x}]^{\text{T}}\right] \\ \\
&=
\mathbb{E}\left[\textbf{x}\textbf{x}^{\text{T}}\right]-\mathbb{E}[\mathbb{E}[\textbf{x}]\textbf{x}^{\text{T}}]-\mathbb{E}[\textbf{x}\mathbb{E}[\textbf{x}]^{\text{T}}]+\mathbb{E}\left[\mathbb{E}[\textbf{x}]\mathbb{E}[\textbf{x}]^{\text{T}}\right] \\ \\
&=
\mathbb{E}\left[\textbf{x}\textbf{x}^{\text{T}}\right]-\mathbb{E}[\textbf{x}]\mathbb{E}[\textbf{x}^{\text{T}}]-\mathbb{E}[\textbf{x}]\mathbb{E}[\textbf{x}]^{\text{T}}+\mathbb{E}[\textbf{x}]\mathbb{E}[\textbf{x}]^{\text{T}} \\ \\
&=
\mathbb{E}\left[\textbf{x}\textbf{x}^{\text{T}}\right]-\mathbb{E}[\textbf{x}]\mathbb{E}[\textbf{x}^{\text{T}}] \\ \\
&=
\boldsymbol{\mu}\boldsymbol{\mu}^{\text{T}}+\boldsymbol{\Sigma}-\boldsymbol{\mu}\boldsymbol{\mu}^{\text{T}}&&...\text{式(2.59)(2.62)より} \\ \\
&=
\boldsymbol{\Sigma}
\end{align*}
と導出できる。
対称行列であるため、数えるパラメータの成分\(\Sigma_{ij}\)は、\(i=j\)となる成分と\(j\lt i\)となる成分の総和になる。
\(j\gt i\)となる成分の数は \begin{align*} \displaystyle\sum_{j=0}^{i-1}\sum_{i=0}^D1 &= \underbrace{1+1+\ldots+1}_{D-1} \\ \\ &+ \underbrace{1+\ldots+1}_{D-2} \\ \\ &\vdots \\ \\ &+ 1 \\ \\ &= \frac{D(D-1)}{2} \\ \\ \end{align*} であるから、\(i=j\)となる成分の数\(D\)を加えると\(D(D+1)/2\)個となる。
\(j\gt i\)となる成分の数は \begin{align*} \displaystyle\sum_{j=0}^{i-1}\sum_{i=0}^D1 &= \underbrace{1+1+\ldots+1}_{D-1} \\ \\ &+ \underbrace{1+\ldots+1}_{D-2} \\ \\ &\vdots \\ \\ &+ 1 \\ \\ &= \frac{D(D-1)}{2} \\ \\ \end{align*} であるから、\(i=j\)となる成分の数\(D\)を加えると\(D(D+1)/2\)個となる。
\begin{align*}
-\frac12(\textbf{x}-\boldsymbol{\mu})^{\text{T}}\boldsymbol{\Sigma}^{-1}(\textbf{x}-\boldsymbol{\mu})
&=
-\frac12
\left(
\begin{array}{cccc}
\textbf{x}_a-\boldsymbol{\mu}_a \\
\textbf{x}_b-\boldsymbol{\mu}_b \\
\end{array}
\right)^{\text{T}}
\boldsymbol{\Lambda}
\left(
\begin{array}{cccc}
\textbf{x}_a-\boldsymbol{\mu}_a \\
\textbf{x}_b-\boldsymbol{\mu}_b \\
\end{array}
\right)&&...\text{式(2.65)(2.66)(2.68)より} \\ \\
&=
-\frac12
\left(
\begin{array}{cccc}
\textbf{x}_a-\boldsymbol{\mu}_a \\
\textbf{x}_b-\boldsymbol{\mu}_b \\
\end{array}
\right)^{\text{T}}
\left(
\begin{array}{cccc}
\boldsymbol{\Lambda}_{aa}&\boldsymbol{\Lambda}_{ab} \\
\boldsymbol{\Lambda}_{ba}&\boldsymbol{\Lambda}_{bb}
\end{array}
\right)
\left(
\begin{array}{cccc}
\textbf{x}_a-\boldsymbol{\mu}_a \\
\textbf{x}_b-\boldsymbol{\mu}_b \\
\end{array}
\right)&&...\text{式(2.69)} \\ \\
&=
-\frac12
\left(
\begin{array}{cccc}
(\textbf{x}_a-\boldsymbol{\mu}_a)^{\text{T}}\boldsymbol{\Lambda}_{aa}+(\textbf{x}_b-\boldsymbol{\mu}_b)^{\text{T}}\boldsymbol{\Lambda}_{ba} \\
(\textbf{x}_a-\boldsymbol{\mu}_a)^{\text{T}}\boldsymbol{\Lambda}_{ab}+(\textbf{x}_b-\boldsymbol{\mu}_b)^{\text{T}}\boldsymbol{\Lambda}_{bb}
\end{array}
\right)
\left(
\begin{array}{cccc}
\textbf{x}_a-\boldsymbol{\mu}_a \\
\textbf{x}_b-\boldsymbol{\mu}_b \\
\end{array}
\right)& \\ \\
&=
-\frac12(\textbf{x}_a-\boldsymbol{\mu}_a)^{\text{T}}\boldsymbol{\Lambda}_{aa}(\textbf{x}_a-\boldsymbol{\mu}_a)-\frac12(\textbf{x}_b-\boldsymbol{\mu}_b)^{\text{T}}\boldsymbol{\Lambda}_{ba}(\textbf{x}_a-\boldsymbol{\mu}_a)
-\frac12(\textbf{x}_a-\boldsymbol{\mu}_a)^{\text{T}}\boldsymbol{\Lambda}_{ab}(\textbf{x}_b-\boldsymbol{\mu}_b)-\frac12(\textbf{x}_b-\boldsymbol{\mu}_b)^{\text{T}}\boldsymbol{\Lambda}_{bb}(\textbf{x}_b-\boldsymbol{\mu}_b)
\end{align*}
と導出できる。
\begin{align*}
-\frac12(\textbf{x}-\boldsymbol{\mu})^{\text{T}}\boldsymbol{\Sigma}^{-1}(\textbf{x}-\boldsymbol{\mu})
&=
-\frac12(\textbf{x}^{\text{T}}-\boldsymbol{\mu}^{\text{T}})\boldsymbol{\Sigma}^{-1}(\textbf{x}-\boldsymbol{\mu}) \\ \\
&=
-\frac12(\textbf{x}^{\text{T}}\boldsymbol{\Sigma}^{-1}-\boldsymbol{\mu}^{\text{T}}\boldsymbol{\Sigma}^{-1})(\textbf{x}-\boldsymbol{\mu}) \\ \\
&=
-\frac12(\textbf{x}^{\text{T}}\boldsymbol{\Sigma}^{-1}\textbf{x}-\boldsymbol{\mu}^{\text{T}}\boldsymbol{\Sigma}^{-1}\textbf{x}-\textbf{x}^{\text{T}}\boldsymbol{\Sigma}^{-1}\boldsymbol{\mu}+\boldsymbol{\mu}^{\text{T}}\boldsymbol{\Sigma}^{-1}\boldsymbol{\mu}) \\ \\
&=
-\frac12(\textbf{x}^{\text{T}}\boldsymbol{\Sigma}^{-1}\textbf{x}-\underbrace{\boldsymbol{\mu}^{\text{T}}\boldsymbol{\Sigma}^{-1}\textbf{x}}_{(1)}-\textbf{x}^{\text{T}}\boldsymbol{\Sigma}^{-1}\boldsymbol{\mu})+\text{const.}&&...(\ast) \\ \\
\end{align*}
と式変形できる。ここで、この式はスカラーであることから、(1)の部分は転置をとっても同じ値になる。したがって、
\begin{align*}
\boldsymbol{\mu}^{\text{T}}\boldsymbol{\Sigma}^{-1}\textbf{x}
&=
(\boldsymbol{\mu}^{\text{T}}\boldsymbol{\Sigma}^{-1}\textbf{x})^{\text{T}} \\ \\
&=
\textbf{x}^{\text{T}}(\boldsymbol{\Sigma}^{-1})^{\text{T}}(\boldsymbol{\mu}^{\text{T}})^{\text{T}}&&...\text{式(C.1)より} \\ \\
&=
\textbf{x}^{\text{T}}\boldsymbol{\Sigma}^{-1}\boldsymbol{\mu}&&...\text{(1)} \\ \\
\end{align*}
であることから
\begin{align*}
(\ast)&=
-\frac12(\textbf{x}^{\text{T}}\boldsymbol{\Sigma}^{-1}\textbf{x}-\boldsymbol{\mu}^{\text{T}}\boldsymbol{\Sigma}^{-1}\textbf{x}-\textbf{x}^{\text{T}}\boldsymbol{\Sigma}^{-1}\boldsymbol{\mu})+\text{const.} \\ \\
&=
-\frac12(\textbf{x}^{\text{T}}\boldsymbol{\Sigma}^{-1}\textbf{x}-\textbf{x}^{\text{T}}\boldsymbol{\Sigma}^{-1}\boldsymbol{\mu}-\textbf{x}^{\text{T}}\boldsymbol{\Sigma}^{-1}\boldsymbol{\mu})+\text{const.} \\ \\
&=
-\frac12\textbf{x}^{\text{T}}\boldsymbol{\Sigma}^{-1}\textbf{x}-\textbf{x}^{\text{T}}\boldsymbol{\Sigma}^{-1}\boldsymbol{\mu}+\text{const.} \\ \\
\end{align*}
と導出できる。
(1)では、式(2.67)下の対称性と対称行列の逆行列の対称性(式(2.69)下)および、転置行列の転置行列は元の行列になることを用いた。
(1)では、式(2.67)下の対称性と対称行列の逆行列の対称性(式(2.69)下)および、転置行列の転置行列は元の行列になることを用いた。
式(2.70)の中で一次の\(\textbf{x}_a,\textbf{x}_a^{\text{T}}\)にかかわる項のみを考えると
\begin{align*}
&
-\frac12(\textbf{x}_a-\boldsymbol{\mu}_a)^{\text{T}}\boldsymbol{\Lambda}_{aa}(\textbf{x}_a-\boldsymbol{\mu}_a)-\frac12(\textbf{x}_b-\boldsymbol{\mu}_b)^{\text{T}}\boldsymbol{\Lambda}_{ba}(\textbf{x}_a-\boldsymbol{\mu}_a)
-\frac12(\textbf{x}_a-\boldsymbol{\mu}_a)^{\text{T}}\boldsymbol{\Lambda}_{ab}(\textbf{x}_b-\boldsymbol{\mu}_b)-\frac12(\textbf{x}_b-\boldsymbol{\mu}_b)^{\text{T}}\boldsymbol{\Lambda}_{bb}(\textbf{x}_b-\boldsymbol{\mu}_b) \\ \\
\Rightarrow&
\frac12\textbf{x}_a^{\text{T}}\boldsymbol{\Lambda}_{aa}\boldsymbol{\mu}_a+\frac12\boldsymbol{\mu}_a^{\text{T}}\boldsymbol{\Lambda}_{aa}\textbf{x}_a
-\frac12(\textbf{x}_b-\boldsymbol{\mu}_b)^{\text{T}}\boldsymbol{\Lambda}_{ba}\textbf{x}_a
-\frac12\textbf{x}_a^{\text{T}}\boldsymbol{\Lambda}_{ab}(\textbf{x}_b-\boldsymbol{\mu}_b)& \\ \\
=&
\textbf{x}_a^{\text{T}}\boldsymbol{\Lambda}_{aa}\boldsymbol{\mu}_a
-\frac12\underbrace{(\textbf{x}_b-\boldsymbol{\mu}_b)^{\text{T}}\boldsymbol{\Lambda}_{ba}\textbf{x}_a}_{(1)}
-\frac12\textbf{x}_a^{\text{T}}\boldsymbol{\Lambda}_{ab}(\textbf{x}_b-\boldsymbol{\mu}_b)&&...(\ast)\Lambda_{aa}\text{は対称行列であるから式(2.71)と同様の議論より} \\ \\
\end{align*}
となる。ここで、(1)がスカラーであることから転置をとっても値は変わらない。したがって、
\begin{align*}
(\textbf{x}_b-\boldsymbol{\mu}_b)^{\text{T}}\boldsymbol{\Lambda}_{ba}\textbf{x}_a
&=
((\textbf{x}_b-\boldsymbol{\mu}_b)^{\text{T}}\boldsymbol{\Lambda}_{ba}\textbf{x}_a)^{\text{T}} \\ \\
&=
\textbf{x}_a^{\text{T}}\boldsymbol{\Lambda}_{ba}^{\text{T}}((\textbf{x}_b-\boldsymbol{\mu}_b)^{\text{T}})^{\text{T}}&&...\text{式(C.1)より} \\ \\
&=
\textbf{x}_a^{\text{T}}\boldsymbol{\Lambda}_{ab}(\textbf{x}_b-\boldsymbol{\mu}_b)&&...\text{式(2.73)下の関係式より} \\ \\
\end{align*}
の関係がある。これを用いて、
\begin{align*}
(\ast)
&=
\textbf{x}_a^{\text{T}}\boldsymbol{\Lambda}_{aa}\boldsymbol{\mu}_a
-\frac12(\textbf{x}_b-\boldsymbol{\mu}_b)^{\text{T}}\boldsymbol{\Lambda}_{ba}\textbf{x}_a
-\frac12\textbf{x}_a^{\text{T}}\boldsymbol{\Lambda}_{ab}(\textbf{x}_b-\boldsymbol{\mu}_b)& \\ \\
&=
\textbf{x}_a^{\text{T}}\boldsymbol{\Lambda}_{aa}\boldsymbol{\mu}_a
-\frac12\textbf{x}_a^{\text{T}}\boldsymbol{\Lambda}_{ab}(\textbf{x}_b-\boldsymbol{\mu}_b)
-\frac12\textbf{x}_a^{\text{T}}\boldsymbol{\Lambda}_{ab}(\textbf{x}_b-\boldsymbol{\mu}_b)& \\ \\
&=
\textbf{x}_a^{\text{T}}\boldsymbol{\Lambda}_{aa}\boldsymbol{\mu}_a
-\textbf{x}_a^{\text{T}}\boldsymbol{\Lambda}_{ab}(\textbf{x}_b-\boldsymbol{\mu}_b) \\ \\
&=
\textbf{x}_a^{\text{T}}(\boldsymbol{\Lambda}_{aa}\boldsymbol{\mu}_a
-\boldsymbol{\Lambda}_{ab}(\textbf{x}_b-\boldsymbol{\mu}_b)) \\ \\
\end{align*}
と導出できる。
式(2.71)の変形から、式(2.70)は\(\textbf{x}_a\)に着目すると、式(2.72)(2.74)より
\begin{align*}
-\frac12(\textbf{x}-\boldsymbol{\mu})^{\text{T}}\boldsymbol{\Sigma}^{-1}(\textbf{x}-\boldsymbol{\mu})
&=
-\frac{1}{2}\textbf{x}_a^{\text{T}}\underbrace{\boldsymbol{\Lambda}_{aa}}_{(1)}\textbf{x}_a+\textbf{x}_a^{\text{T}}\underbrace{(\boldsymbol{\Lambda}_{aa}\boldsymbol{\mu}_a-\boldsymbol{\Lambda}_{ab}(\textbf{x}_b-\boldsymbol{\mu}_b))}_{(2)}+\text{const} \\ \\
\end{align*}
が得られる(残りを関係しない項を定数として\(\text{const}\)とした)。
(1)について、式(2.71)の\(\boldsymbol{\Sigma}\)が分散を示していることから、この部分はこの式における\(\boldsymbol{\Sigma}_{a|b}^{-1}\)と等しくなる(式(2.73))。
(2)について、式(2.71)の\(\boldsymbol{\Sigma}^{-1}\boldsymbol{\mu}\)の部分がこの式における\(\boldsymbol{\Sigma}_{a|b}^{-1}\boldsymbol{\mu}_{a|b}\)と等しくなる。
これらを加味すると \begin{align*} && \boldsymbol{\Sigma}_{a|b}^{-1}\boldsymbol{\mu}_{a|b} &= (\boldsymbol{\Lambda}_{aa}\boldsymbol{\mu}_a-\boldsymbol{\Lambda}_{ab}(\textbf{x}_b-\boldsymbol{\mu}_b)) \\ \\ &\Leftrightarrow& \boldsymbol{\Sigma}_{a|b}\boldsymbol{\Sigma}_{a|b}^{-1}\boldsymbol{\mu}_{a|b} &= \boldsymbol{\Sigma}_{a|b}(\boldsymbol{\Lambda}_{aa}\boldsymbol{\mu}_a-\boldsymbol{\Lambda}_{ab}(\textbf{x}_b-\boldsymbol{\mu}_b)) \\ \\ &\Leftrightarrow& \boldsymbol{\mu}_{a|b} &= \boldsymbol{\Lambda}_{aa}^{-1}(\boldsymbol{\Lambda}_{aa}\boldsymbol{\mu}_a-\boldsymbol{\Lambda}_{ab}(\textbf{x}_b-\boldsymbol{\mu}_b))&&...\text{式(2.73)} \\ \\ && &= \boldsymbol{\mu}_a-\boldsymbol{\Lambda}_{aa}^{-1}\boldsymbol{\Lambda}_{ab}(\textbf{x}_b-\boldsymbol{\mu}_b) \end{align*} と導出できる。
(1)について、式(2.71)の\(\boldsymbol{\Sigma}\)が分散を示していることから、この部分はこの式における\(\boldsymbol{\Sigma}_{a|b}^{-1}\)と等しくなる(式(2.73))。
(2)について、式(2.71)の\(\boldsymbol{\Sigma}^{-1}\boldsymbol{\mu}\)の部分がこの式における\(\boldsymbol{\Sigma}_{a|b}^{-1}\boldsymbol{\mu}_{a|b}\)と等しくなる。
これらを加味すると \begin{align*} && \boldsymbol{\Sigma}_{a|b}^{-1}\boldsymbol{\mu}_{a|b} &= (\boldsymbol{\Lambda}_{aa}\boldsymbol{\mu}_a-\boldsymbol{\Lambda}_{ab}(\textbf{x}_b-\boldsymbol{\mu}_b)) \\ \\ &\Leftrightarrow& \boldsymbol{\Sigma}_{a|b}\boldsymbol{\Sigma}_{a|b}^{-1}\boldsymbol{\mu}_{a|b} &= \boldsymbol{\Sigma}_{a|b}(\boldsymbol{\Lambda}_{aa}\boldsymbol{\mu}_a-\boldsymbol{\Lambda}_{ab}(\textbf{x}_b-\boldsymbol{\mu}_b)) \\ \\ &\Leftrightarrow& \boldsymbol{\mu}_{a|b} &= \boldsymbol{\Lambda}_{aa}^{-1}(\boldsymbol{\Lambda}_{aa}\boldsymbol{\mu}_a-\boldsymbol{\Lambda}_{ab}(\textbf{x}_b-\boldsymbol{\mu}_b))&&...\text{式(2.73)} \\ \\ && &= \boldsymbol{\mu}_a-\boldsymbol{\Lambda}_{aa}^{-1}\boldsymbol{\Lambda}_{ab}(\textbf{x}_b-\boldsymbol{\mu}_b) \end{align*} と導出できる。
\begin{align*}
\boldsymbol{\mu}_{a|b}
&=
\boldsymbol{\mu}_{a}-\boldsymbol{\Lambda}_{aa}^{-1}\boldsymbol{\Lambda}_{ab}(\textbf{x}_b-\boldsymbol{\mu}_{b})&&...\text{式(2.75)} \\ \\
&=
\boldsymbol{\mu}_{a}-(\boldsymbol{\Sigma}_{aa}-\boldsymbol{\Sigma}_{ab}\boldsymbol{\Sigma}_{bb}^{-1}\boldsymbol{\Sigma}_{ba})\{-(\boldsymbol{\Sigma}_{aa}-\boldsymbol{\Sigma}_{ab}\boldsymbol{\Sigma}_{bb}^{-1}\boldsymbol{\Sigma}_{ba})^{-1}\boldsymbol{\Sigma}_{ab}\boldsymbol{\Sigma}_{bb}^{-1}\}(\textbf{x}_b-\boldsymbol{\mu}_{b})&&...\text{式(2.79)(2.80)より} \\ \\
&=
\boldsymbol{\mu}_{a}+(\boldsymbol{\Sigma}_{aa}-\boldsymbol{\Sigma}_{ab}\boldsymbol{\Sigma}_{bb}^{-1}\boldsymbol{\Sigma}_{ba})(\boldsymbol{\Sigma}_{aa}-\boldsymbol{\Sigma}_{ab}\boldsymbol{\Sigma}_{bb}^{-1}\boldsymbol{\Sigma}_{ba})^{-1}\boldsymbol{\Sigma}_{ab}\boldsymbol{\Sigma}_{bb}^{-1}(\textbf{x}_b-\boldsymbol{\mu}_{b})& \\ \\
&=
\boldsymbol{\mu}_{a}+\boldsymbol{\Sigma}_{ab}\boldsymbol{\Sigma}_{bb}^{-1}(\textbf{x}_b-\boldsymbol{\mu}_{b})& \\ \\
\end{align*}
と導出できる。
\begin{align*}
\boldsymbol{\Sigma}_{a|b}
&=
\boldsymbol{\Lambda}_{aa}^{-1}&&...\text{式(2.73)} \\ \\
&=
\{(\boldsymbol{\Sigma}_{aa}-\boldsymbol{\Sigma}_{ab}\boldsymbol{\Sigma}_{bb}^{-1}\boldsymbol{\Sigma}_{ba})^{-1}\}^{-1}&&...\text{式(2.79)} \\ \\
&=
\boldsymbol{\Sigma}_{aa}-\boldsymbol{\Sigma}_{ab}\boldsymbol{\Sigma}_{bb}^{-1}\boldsymbol{\Sigma}_{ba}
\end{align*}
と導出できる。
式は対称的であるため、式(2.72)(2.74)の\(a,b\)を入れ替えることで
\begin{align*}
-\frac12\textbf{x}_b^{\text{T}}\boldsymbol{\Lambda}_{bb}\textbf{x}_b+\textbf{x}_b^{\text{T}}\{\boldsymbol{\Lambda}_{bb}\boldsymbol{\mu}_{b}-\boldsymbol{\Lambda}_{ba}(\textbf{x}_a-\boldsymbol{\mu}_{a})\}
&=
-\frac12\textbf{x}_b^{\text{T}}\boldsymbol{\Lambda}_{bb}\textbf{x}_b+\textbf{x}_b^{\text{T}}\textbf{m}&&...\text{式(2.85)} \\ \\
&=
-\frac12\textbf{x}_b^{\text{T}}\boldsymbol{\Lambda}_{bb}\textbf{x}_b+\frac12\textbf{x}_b^{\text{T}}\textbf{m}+\frac12\underbrace{\textbf{m}^{\text{T}}\textbf{x}_b}_{(1)}-\frac12\textbf{m}^{\text{T}}\boldsymbol{\Lambda}_{bb}^{-1}\textbf{m}+\frac12\textbf{m}^{\text{T}}\boldsymbol{\Lambda}_{bb}^{-1}\textbf{m}&\\ \\
&=
-\frac12\textbf{x}_b^{\text{T}}\boldsymbol{\Lambda}_{bb}\textbf{x}_b+\frac12\textbf{x}_b^{\text{T}}\boldsymbol{\Lambda}_{bb}\boldsymbol{\Lambda}_{bb}^{-1}\textbf{m}+\frac12\textbf{m}^{\text{T}}\boldsymbol{\Lambda}_{bb}^{\text{T}}(\boldsymbol{\Lambda}_{bb}^{-1})^{\text{T}}\textbf{x}_b-\frac12\textbf{m}^{\text{T}}(\boldsymbol{\Lambda}_{bb}^{-1})^{\text{T}}\boldsymbol{\Lambda}_{bb}^{\text{T}}\boldsymbol{\Lambda}_{bb}^{-1}\boldsymbol{\Lambda}_{bb}\boldsymbol{\Lambda}_{bb}^{-1}\textbf{m}+\frac12\textbf{m}^{\text{T}}\boldsymbol{\Lambda}_{bb}^{-1}\textbf{m}&\\ \\
&=
-\frac12\textbf{x}_b^{\text{T}}\boldsymbol{\Lambda}_{bb}\textbf{x}_b+\frac12\textbf{x}_b^{\text{T}}\boldsymbol{\Lambda}_{bb}\boldsymbol{\Lambda}_{bb}^{-1}\textbf{m}+\frac12\textbf{m}^{\text{T}}\boldsymbol{\Lambda}_{bb}^{\text{T}}\boldsymbol{\Lambda}_{bb}^{-1}\textbf{x}_b-\frac12\textbf{m}^{\text{T}}(\boldsymbol{\Lambda}_{bb}^{-1})^{\text{T}}\boldsymbol{\Lambda}_{bb}^{\text{T}}\boldsymbol{\Lambda}_{bb}^{-1}\textbf{m}+\frac12\textbf{m}^{\text{T}}\boldsymbol{\Lambda}_{bb}^{-1}\textbf{m}&\\ \\
&=
-\frac12\textbf{x}_b^{\text{T}}\boldsymbol{\Lambda}_{bb}\textbf{x}_b+\frac12\textbf{x}_b^{\text{T}}\boldsymbol{\Lambda}_{bb}\boldsymbol{\Lambda}_{bb}^{-1}\textbf{m}+\frac12(\boldsymbol{\Lambda}_{bb}^{-1}\textbf{m})^{\text{T}}\boldsymbol{\Lambda}_{bb}^{-1}\textbf{x}_b-\frac12(\boldsymbol{\Lambda}_{bb}^{-1}\textbf{m})^{\text{T}}\boldsymbol{\Lambda}_{bb}\boldsymbol{\Lambda}_{bb}^{-1}\textbf{m}+\frac12\textbf{m}^{\text{T}}\boldsymbol{\Lambda}_{bb}^{-1}\textbf{m}&\\ \\
&=
-\frac12(\textbf{x}_b-\boldsymbol{\Lambda}_{bb}^{-1}\textbf{m})^{\text{T}}\boldsymbol{\Lambda}_{bb}(\textbf{x}_b-\boldsymbol{\Lambda}_{bb}^{-1}\textbf{m})+\frac12\textbf{m}^{\text{T}}\boldsymbol{\Lambda}_{bb}^{-1}\textbf{m}&\\ \\
\end{align*}
と導出できる。
式(2.70)から考えると
\begin{align*}
&-\frac12(\textbf{x}_a-\boldsymbol{\mu}_a)^{\text{T}}\boldsymbol{\Lambda}_{aa}(\textbf{x}_a-\boldsymbol{\mu}_a)-\frac12(\textbf{x}_b-\boldsymbol{\mu}_b)^{\text{T}}\boldsymbol{\Lambda}_{ba}(\textbf{x}_a-\boldsymbol{\mu}_a)
-\frac12(\textbf{x}_a-\boldsymbol{\mu}_a)^{\text{T}}\boldsymbol{\Lambda}_{ab}(\textbf{x}_b-\boldsymbol{\mu}_b)-\frac12(\textbf{x}_b-\boldsymbol{\mu}_b)^{\text{T}}\boldsymbol{\Lambda}_{bb}(\textbf{x}_b-\boldsymbol{\mu}_b) \\ \\
=&
-\frac12(\textbf{x}_a-\boldsymbol{\mu}_a)^{\text{T}}\boldsymbol{\Lambda}_{aa}(\textbf{x}_a-\boldsymbol{\mu}_a)\underbrace{-(\textbf{x}_b-\boldsymbol{\mu}_b)^{\text{T}}\boldsymbol{\Lambda}_{ba}(\textbf{x}_a-\boldsymbol{\mu}_a)}_{(1)}
\underbrace{-\frac12(\textbf{x}_b-\boldsymbol{\mu}_b)^{\text{T}}\boldsymbol{\Lambda}_{bb}(\textbf{x}_b-\boldsymbol{\mu}_b)}_{(2)} \\ \\
=&
-\frac12(\textbf{x}_a-\boldsymbol{\mu}_a)^{\text{T}}\boldsymbol{\Lambda}_{aa}(\textbf{x}_a-\boldsymbol{\mu}_a)
\underbrace{-{\color{red}\textbf{x}_b^{\text{T}}\boldsymbol{\Lambda}_{ba}(\textbf{x}_a-\boldsymbol{\mu}_a)}+\boldsymbol{\mu}_b^{\text{T}}\boldsymbol{\Lambda}_{ba}(\textbf{x}_a-\boldsymbol{\mu}_a)}_{(1)}
\underbrace{-\frac12\textbf{x}_b^{\text{T}}\boldsymbol{\Lambda}_{bb}\textbf{x}_b+{\color{red}\textbf{x}_b^{\text{T}}\boldsymbol{\Lambda}_{bb}\boldsymbol{\mu}_b}-\frac12\boldsymbol{\mu}_b^{\text{T}}\boldsymbol{\Lambda}_{bb}\boldsymbol{\mu}_b}_{(2)} \\ \\
=&
-\frac12(\textbf{x}_a-\boldsymbol{\mu}_a)^{\text{T}}\boldsymbol{\Lambda}_{aa}(\textbf{x}_a-\boldsymbol{\mu}_a)
\underbrace{+\boldsymbol{\mu}_b^{\text{T}}\boldsymbol{\Lambda}_{ba}(\textbf{x}_a-\boldsymbol{\mu}_a)}_{(3)}
-\frac12\boldsymbol{\mu}_b^{\text{T}}\boldsymbol{\Lambda}_{bb}\boldsymbol{\mu}_b-\frac12\textbf{x}_b^{\text{T}}\boldsymbol{\Lambda}_{bb}\textbf{x}_b+{\color{red}\textbf{x}_b^{\text{T}}\textbf{m}}&&...\text{式(2.85)} \\ \\
=&
-\frac12(\textbf{x}_a-\boldsymbol{\mu}_a)^{\text{T}}\boldsymbol{\Lambda}_{aa}(\textbf{x}_a-\boldsymbol{\mu}_a)
\underbrace{+(\textbf{x}_a-\boldsymbol{\mu}_a)^{\text{T}}\boldsymbol{\Lambda}_{ab}\boldsymbol{\mu}_b}_{(3)}
-\frac12\boldsymbol{\mu}_b^{\text{T}}\boldsymbol{\Lambda}_{bb}\boldsymbol{\mu}_b
-\frac12(\textbf{x}_b-\boldsymbol{\Lambda}_{bb}^{-1}\textbf{m})^{\text{T}}\boldsymbol{\Lambda}_{bb}(\textbf{x}_b-\boldsymbol{\Lambda}_{bb}^{-1}\textbf{m})+\frac12\textbf{m}^{\text{T}}\boldsymbol{\Lambda}_{bb}^{-1}\textbf{m}&&...\text{式(2.84)} \\ \\
=&
\underbrace{-\frac12(\textbf{x}_a-\boldsymbol{\mu}_a)^{\text{T}}\boldsymbol{\Lambda}_{aa}(\textbf{x}_a-\boldsymbol{\mu}_a)}_{(4)}
\underbrace{+\textbf{x}_a^{\text{T}}\boldsymbol{\Lambda}_{ab}\boldsymbol{\mu}_b-\boldsymbol{\mu}_a^{\text{T}}\boldsymbol{\Lambda}_{ab}\boldsymbol{\mu}_b}_{(3)}
-\frac12\boldsymbol{\mu}_b^{\text{T}}\boldsymbol{\Lambda}_{bb}\boldsymbol{\mu}_b
+\frac12\textbf{m}^{\text{T}}\boldsymbol{\Lambda}_{bb}^{-1}\textbf{m}+\text{const}&&...\textbf{x}_b\text{にかかわる項は積分によって定数になるため} \\ \\
=&
\underbrace{-\frac12\textbf{x}_a^{\text{T}}\boldsymbol{\Lambda}_{aa}\textbf{x}_a+\textbf{x}_a^{\text{T}}\boldsymbol{\Lambda}_{aa}\boldsymbol{\mu}_a-\frac12\boldsymbol{\mu}_a^{\text{T}}\boldsymbol{\Lambda}_{aa}\boldsymbol{\mu}_a}_{(4)}
+\textbf{x}_a^{\text{T}}\boldsymbol{\Lambda}_{ab}\boldsymbol{\mu}_b-\boldsymbol{\mu}_a^{\text{T}}\boldsymbol{\Lambda}_{ab}\boldsymbol{\mu}_b
-\frac12\boldsymbol{\mu}_b^{\text{T}}\boldsymbol{\Lambda}_{bb}\boldsymbol{\mu}_b
+\frac12\textbf{m}^{\text{T}}\boldsymbol{\Lambda}_{bb}^{-1}\textbf{m}+\text{const}& \\ \\
=&
-\frac12\textbf{x}_a^{\text{T}}\boldsymbol{\Lambda}_{aa}\textbf{x}_a+\textbf{x}_a^{\text{T}}(\boldsymbol{\Lambda}_{aa}\boldsymbol{\mu}_a+\boldsymbol{\Lambda}_{ab}\boldsymbol{\mu}_b)-\frac12\boldsymbol{\mu}_a^{\text{T}}\boldsymbol{\Lambda}_{aa}\boldsymbol{\mu}_a
-\boldsymbol{\mu}_a^{\text{T}}\boldsymbol{\Lambda}_{ab}\boldsymbol{\mu}_b
-\frac12\boldsymbol{\mu}_b^{\text{T}}\boldsymbol{\Lambda}_{bb}\boldsymbol{\mu}_b
+\frac12\textbf{m}^{\text{T}}\boldsymbol{\Lambda}_{bb}^{-1}\textbf{m}+\text{const}& \\ \\
=&
-\frac12\textbf{x}_a^{\text{T}}\boldsymbol{\Lambda}_{aa}\textbf{x}_a+\textbf{x}_a^{\text{T}}(\boldsymbol{\Lambda}_{aa}\boldsymbol{\mu}_a+\boldsymbol{\Lambda}_{ab}\boldsymbol{\mu}_b)
+\frac12\textbf{m}^{\text{T}}\boldsymbol{\Lambda}_{bb}^{-1}\textbf{m}+\text{const}&&...\textbf{x}_a\text{にかかわらない項を定数とした} \\ \\
=&
-\frac12\textbf{x}_a^{\text{T}}\boldsymbol{\Lambda}_{aa}\textbf{x}_a+\textbf{x}_a^{\text{T}}(\boldsymbol{\Lambda}_{aa}\boldsymbol{\mu}_a+\boldsymbol{\Lambda}_{ab}\boldsymbol{\mu}_b)
+\frac12(\boldsymbol{\Lambda}_{bb}\boldsymbol{\mu}_{b}-\boldsymbol{\Lambda}_{ba}(\textbf{x}_a-\boldsymbol{\mu}_{a}))^{\text{T}}\boldsymbol{\Lambda}_{bb}^{-1}(\boldsymbol{\Lambda}_{bb}\boldsymbol{\mu}_{b}-\boldsymbol{\Lambda}_{ba}(\textbf{x}_a-\boldsymbol{\mu}_{a}))+\text{const}&&...\text{式(2.85)} \\ \\
=&
-\frac12\textbf{x}_a^{\text{T}}\boldsymbol{\Lambda}_{aa}\textbf{x}_a+\textbf{x}_a^{\text{T}}(\boldsymbol{\Lambda}_{aa}\boldsymbol{\mu}_a+\boldsymbol{\Lambda}_{ab}\boldsymbol{\mu}_b)
+\frac12(\boldsymbol{\Lambda}_{bb}\boldsymbol{\mu}_{b}+\boldsymbol{\Lambda}_{ba}\boldsymbol{\mu}_{a}-\boldsymbol{\Lambda}_{ba}\textbf{x}_a)^{\text{T}}\boldsymbol{\Lambda}_{bb}^{-1}(\boldsymbol{\Lambda}_{bb}\boldsymbol{\mu}_{b}+\boldsymbol{\Lambda}_{ba}\boldsymbol{\mu}_{a}-\boldsymbol{\Lambda}_{ba}\textbf{x}_a)+\text{const}&\\ \\
=&
-\frac12\textbf{x}_a^{\text{T}}\boldsymbol{\Lambda}_{aa}\textbf{x}_a+\textbf{x}_a^{\text{T}}(\boldsymbol{\Lambda}_{aa}\boldsymbol{\mu}_a+\boldsymbol{\Lambda}_{ab}\boldsymbol{\mu}_b) \\
&+\frac12(\boldsymbol{\Lambda}_{ba}\textbf{x}_a)^{\text{T}}\boldsymbol{\Lambda}_{bb}^{-1}\boldsymbol{\Lambda}_{ba}\textbf{x}_a-\frac12(\boldsymbol{\Lambda}_{ba}\textbf{x}_a)^{\text{T}}\boldsymbol{\Lambda}_{bb}^{-1}(\boldsymbol{\Lambda}_{bb}\boldsymbol{\mu}_{b}+\boldsymbol{\Lambda}_{ba}\boldsymbol{\mu}_{a})-\frac12(\boldsymbol{\Lambda}_{bb}\boldsymbol{\mu}_{b}+\boldsymbol{\Lambda}_{ba}\boldsymbol{\mu}_{a})^{\text{T}}\boldsymbol{\Lambda}_{bb}^{-1}(\boldsymbol{\Lambda}_{ba}\textbf{x}_a)+\frac12(\boldsymbol{\Lambda}_{bb}\boldsymbol{\mu}_{b}+\boldsymbol{\Lambda}_{ba}\boldsymbol{\mu}_{a})^{\text{T}}\boldsymbol{\Lambda}_{bb}^{-1}(\boldsymbol{\Lambda}_{bb}\boldsymbol{\mu}_{b}+\boldsymbol{\Lambda}_{ba}\boldsymbol{\mu}_{a})
+\text{const}&\\ \\
=&
-\frac12\textbf{x}_a^{\text{T}}\boldsymbol{\Lambda}_{aa}\textbf{x}_a+\textbf{x}_a^{\text{T}}(\boldsymbol{\Lambda}_{aa}\boldsymbol{\mu}_a+\boldsymbol{\Lambda}_{ab}\boldsymbol{\mu}_b)
+\frac12\textbf{x}_a^{\text{T}}\boldsymbol{\Lambda}_{ab}^{\text{T}}\boldsymbol{\Lambda}_{bb}^{-1}\boldsymbol{\Lambda}_{ba}\textbf{x}_a-\frac12\textbf{x}_a^{\text{T}}\boldsymbol{\Lambda}_{ba}^{\text{T}}\boldsymbol{\Lambda}_{bb}^{-1}(\boldsymbol{\Lambda}_{bb}\boldsymbol{\mu}_{b}+\boldsymbol{\Lambda}_{ba}\boldsymbol{\mu}_{a})-\frac12(\boldsymbol{\Lambda}_{bb}\boldsymbol{\mu}_{b}+\boldsymbol{\Lambda}_{ba}\boldsymbol{\mu}_{a})^{\text{T}}\boldsymbol{\Lambda}_{bb}^{-1}(\boldsymbol{\Lambda}_{ba}\textbf{x}_a)
+\text{const}&&...\textbf{x}_a\text{にかかわらない項を定数とした}\\ \\
=&
-\frac12\textbf{x}_a^{\text{T}}(\boldsymbol{\Lambda}_{aa}-\boldsymbol{\Lambda}_{ba}^{\text{T}}\boldsymbol{\Lambda}_{bb}^{-1}\boldsymbol{\Lambda}_{ba})\textbf{x}_a+\textbf{x}_a^{\text{T}}(\boldsymbol{\Lambda}_{aa}\boldsymbol{\mu}_a+\boldsymbol{\Lambda}_{ba}\boldsymbol{\mu}_b)
-\textbf{x}_a^{\text{T}}\boldsymbol{\Lambda}_{ba}^{\text{T}}\boldsymbol{\Lambda}_{bb}^{-1}(\boldsymbol{\Lambda}_{bb}\boldsymbol{\mu}_{b}+\boldsymbol{\Lambda}_{ab}\boldsymbol{\mu}_{a})
+\text{const}&\\ \\
=&
-\frac12\textbf{x}_a^{\text{T}}(\boldsymbol{\Lambda}_{aa}-\boldsymbol{\Lambda}_{ba}^{\text{T}}\boldsymbol{\Lambda}_{bb}^{-1}\boldsymbol{\Lambda}_{ba})\textbf{x}_a
+\textbf{x}_a^{\text{T}}\{\boldsymbol{\Lambda}_{aa}\boldsymbol{\mu}_a+\boldsymbol{\Lambda}_{ba}\boldsymbol{\mu}_b
-\boldsymbol{\Lambda}_{ba}^{\text{T}}\boldsymbol{\Lambda}_{bb}^{-1}(\boldsymbol{\Lambda}_{bb}\boldsymbol{\mu}_{b}+\boldsymbol{\Lambda}_{ba}\boldsymbol{\mu}_{a})\}
+\text{const}&\\ \\
=&
-\frac12\textbf{x}_a^{\text{T}}(\boldsymbol{\Lambda}_{aa}-\boldsymbol{\Lambda}_{ba}^{\text{T}}\boldsymbol{\Lambda}_{bb}^{-1}\boldsymbol{\Lambda}_{ba})\textbf{x}_a
+\textbf{x}_a^{\text{T}}\{\boldsymbol{\Lambda}_{aa}\boldsymbol{\mu}_a+\boldsymbol{\Lambda}_{ba}\boldsymbol{\mu}_b-\boldsymbol{\Lambda}_{ba}^{\text{T}}\boldsymbol{\mu}_{b}
-\boldsymbol{\Lambda}_{ba}^{\text{T}}\boldsymbol{\Lambda}_{bb}^{-1}\boldsymbol{\Lambda}_{ba}\boldsymbol{\mu}_{a}\}
+\text{const}&\\ \\
=&
-\frac12\textbf{x}_a^{\text{T}}(\boldsymbol{\Lambda}_{aa}-\boldsymbol{\Lambda}_{ab}\boldsymbol{\Lambda}_{bb}^{-1}\boldsymbol{\Lambda}_{ba})\textbf{x}_a
+\textbf{x}_a^{\text{T}}\{\boldsymbol{\Lambda}_{aa}\boldsymbol{\mu}_a+\boldsymbol{\Lambda}_{ba}\boldsymbol{\mu}_b-\boldsymbol{\Lambda}_{ab}\boldsymbol{\mu}_{b}
-\boldsymbol{\Lambda}_{ab}\boldsymbol{\Lambda}_{bb}^{-1}\boldsymbol{\Lambda}_{ba}\boldsymbol{\mu}_{a}\}
+\text{const}&&...\text{対称行列の転置行列と式(2.73)下の関係を用いた}\\ \\
=&
-\frac12\textbf{x}_a^{\text{T}}(\boldsymbol{\Lambda}_{aa}-\boldsymbol{\Lambda}_{ab}\boldsymbol{\Lambda}_{bb}^{-1}\boldsymbol{\Lambda}_{ba})\textbf{x}_a
+\textbf{x}_a^{\text{T}}(\boldsymbol{\Lambda}_{aa}-\boldsymbol{\Lambda}_{ab}\boldsymbol{\Lambda}_{bb}^{-1}\boldsymbol{\Lambda}_{ba})\boldsymbol{\mu}_{a}
+\text{const}&\\ \\
\end{align*}
と導出できる。
考えている量はスカラーであるため、転置をとっても値は変わらない。したがって、
\begin{align*}
\boldsymbol{\mu}_b^{\text{T}}\boldsymbol{\Lambda}_{ba}(\textbf{x}_a-\boldsymbol{\mu}_a)
&=
(\boldsymbol{\mu}_b^{\text{T}}\boldsymbol{\Lambda}_{ba}(\textbf{x}_a-\boldsymbol{\mu}_a))^{\text{T}} \\ \\
&=
(\textbf{x}_a-\boldsymbol{\mu}_a)^{\text{T}}\boldsymbol{\Lambda}_{ba}^{\text{T}}(\boldsymbol{\mu}_b^{\text{T}})^{\text{T}} \\ \\
&=
(\textbf{x}_a-\boldsymbol{\mu}_a)^{\text{T}}\boldsymbol{\Lambda}_{ab}\boldsymbol{\mu}_b \\ \\
\end{align*}
と導出できる。
式(2.73)(2.75)の導出と同様に、式(2.71)との類似性を考えると式(2.87)より
\begin{align*}
-\frac12\textbf{x}_a^{\text{T}}\underbrace{(\boldsymbol{\Lambda}_{aa}-\boldsymbol{\Lambda}_{ab}\boldsymbol{\Lambda}_{bb}^{-1}\boldsymbol{\Lambda}_{ba})}_{=\boldsymbol{\Sigma}^{-1}}\textbf{x}_a
+\textbf{x}_a^{\text{T}}(\boldsymbol{\Lambda}_{aa}-\boldsymbol{\Lambda}_{ab}\boldsymbol{\Lambda}_{bb}^{-1}\boldsymbol{\Lambda}_{ba})\boldsymbol{\mu}_{a}
+\text{const}&\\ \\
\end{align*}
であることから、これを用いて
\begin{align*}
-\frac12\textbf{x}_a^{\text{T}}(\boldsymbol{\Lambda}_{aa}-\boldsymbol{\Lambda}_{ab}\boldsymbol{\Lambda}_{bb}^{-1}\boldsymbol{\Lambda}_{ba})\textbf{x}_a
+\textbf{x}_a^{\text{T}}(\boldsymbol{\Lambda}_{aa}-\boldsymbol{\Lambda}_{ab}\boldsymbol{\Lambda}_{bb}^{-1}\boldsymbol{\Lambda}_{ba})\boldsymbol{\mu}_{a}
+\text{const}
&=
-\frac12\textbf{x}_a^{\text{T}}\boldsymbol{\Sigma}^{-1}\textbf{x}_a
+\textbf{x}_a^{\text{T}}\boldsymbol{\Sigma}^{-1}\boldsymbol{\Sigma}(\boldsymbol{\Lambda}_{aa}-\boldsymbol{\Lambda}_{ab}\boldsymbol{\Lambda}_{bb}^{-1}\boldsymbol{\Lambda}_{ba})\boldsymbol{\mu}_{a}
+\text{const} \\ \\
&=
-\frac12\textbf{x}_a^{\text{T}}\boldsymbol{\Sigma}^{-1}\textbf{x}_a
+\textbf{x}_a^{\text{T}}\boldsymbol{\Sigma}^{-1}(\boldsymbol{\Sigma}^{-1})^{-1}(\boldsymbol{\Lambda}_{aa}-\boldsymbol{\Lambda}_{ab}\boldsymbol{\Lambda}_{bb}^{-1}\boldsymbol{\Lambda}_{ba})\boldsymbol{\mu}_{a}
+\text{const} \\ \\
&=
-\frac12\textbf{x}_a^{\text{T}}\boldsymbol{\Sigma}^{-1}\textbf{x}_a
+\textbf{x}_a^{\text{T}}\boldsymbol{\Sigma}^{-1}(\boldsymbol{\Lambda}_{aa}-\boldsymbol{\Lambda}_{ab}\boldsymbol{\Lambda}_{bb}^{-1}\boldsymbol{\Lambda}_{ba})^{-1}(\boldsymbol{\Lambda}_{aa}-\boldsymbol{\Lambda}_{ab}\boldsymbol{\Lambda}_{bb}^{-1}\boldsymbol{\Lambda}_{ba})\boldsymbol{\mu}_{a}
+\text{const}&&...\text{式(2.88)} \\ \\
&=
-\frac12\textbf{x}_a^{\text{T}}\boldsymbol{\Sigma}^{-1}\textbf{x}_a
+\textbf{x}_a^{\text{T}}\boldsymbol{\Sigma}^{-1}\underbrace{\boldsymbol{\mu}_{a}}_{=\boldsymbol{\mu}}
+\text{const}&
\end{align*}
と導出できる。
\(\textbf{z}\)は\(\textbf{x},\textbf{y}\)の同時分布を示しているため、
\begin{align*}
p(\textbf{z})&=p(\textbf{x},\textbf{y}) \\ \\
&=
p(\textbf{y}|\textbf{x})p(\textbf{x})&&...\text{式(1.11)}
\end{align*}
と式変形できる。これを用いると
\begin{align*}
\ln p(\textbf{z})
&=
\ln p(\textbf{y}|\textbf{x})p(\textbf{x}) \\ \\
&=
\ln p(\textbf{y}|\textbf{x})+\ln p(\textbf{x}) \\ \\
&=
\ln \frac{1}{(2\pi)^{D/2}|\textbf{L}^{-1}|^{1/2}}\exp\left(-\frac{1}{2}(\textbf{y}-\textbf{A}\textbf{x}-\textbf{b})^{\text{T}}\textbf{L}(\textbf{y}-\textbf{A}\textbf{x}-\textbf{b})\right)+\ln \frac{1}{(2\pi)^{M/2}|\boldsymbol{\Lambda}^{-1}|^{1/2}}\exp\left(-\frac{1}{2}(\textbf{x}-\boldsymbol{\mu})^{\text{T}}\boldsymbol{\Lambda}(\textbf{x}-\boldsymbol{\mu})\right)&&...\text{式(2.99)(2.100)を式(2.43)に適用}\\ \\
&=
\ln \frac{1}{(2\pi)^{D/2}|\textbf{L}^{-1}|^{1/2}}+\ln\exp\left(-\frac{1}{2}(\textbf{y}-\textbf{A}\textbf{x}-\textbf{b})^{\text{T}}\textbf{L}(\textbf{y}-\textbf{A}\textbf{x}-\textbf{b})\right)+\ln \frac{1}{(2\pi)^{M/2}|\boldsymbol{\Lambda}^{-1}|^{1/2}}+\ln\exp\left(-\frac{1}{2}(\textbf{x}-\boldsymbol{\mu})^{\text{T}}\boldsymbol{\Lambda}(\textbf{x}-\boldsymbol{\mu})\right)&\\ \\
&=
\ln \frac{1}{(2\pi)^{D/2}|\textbf{L}^{-1}|^{1/2}}\frac{1}{(2\pi)^{M/2}|\boldsymbol{\Lambda}^{-1}|^{1/2}}-\frac{1}{2}(\textbf{y}-\textbf{A}\textbf{x}-\textbf{b})^{\text{T}}\textbf{L}(\textbf{y}-\textbf{A}\textbf{x}-\textbf{b})-\frac{1}{2}(\textbf{x}-\boldsymbol{\mu})^{\text{T}}\boldsymbol{\Lambda}(\textbf{x}-\boldsymbol{\mu})&\\ \\
&=
-\frac{1}{2}(\textbf{x}-\boldsymbol{\mu})^{\text{T}}\boldsymbol{\Lambda}(\textbf{x}-\boldsymbol{\mu})-\frac{1}{2}(\textbf{y}-\textbf{A}\textbf{x}-\textbf{b})^{\text{T}}\textbf{L}(\textbf{y}-\textbf{A}\textbf{x}-\textbf{b})+\text{const}&\\ \\
\end{align*}
と導出できる。
式(2.76)を用いると
\begin{align*}
\left(
\begin{array}{cccc}
\boldsymbol{\Lambda}+\textbf{A}^{\text{T}}\textbf{L}\textbf{A}&-\textbf{A}^{\text{T}}\textbf{L} \\
-\textbf{L}\textbf{A}&\textbf{L}
\end{array}
\right)^{-1}
&=
\left(
\begin{array}{cccc}
\overbrace{(\boldsymbol{\Lambda}+\textbf{A}^{\text{T}}\textbf{L}\textbf{A}-(-\textbf{A}^{\text{T}}\textbf{L})\textbf{L}^{-1}(-\textbf{L}\textbf{A}))^{-1}}^{=\textbf{M}}&-\textbf{M}(-\textbf{A}^{\text{T}}\textbf{L})\textbf{L}^{-1} \\
-\textbf{L}^{-1}(-\textbf{L}\textbf{A})\textbf{M}&\textbf{L}^{-1}+\textbf{L}^{-1}(-\textbf{L}\textbf{A})\textbf{M}(-\textbf{A}^{\text{T}}\textbf{L})\textbf{L}^{-1}
\end{array}
\right)& \\ \\
&=
\left(
\begin{array}{cccc}
(\boldsymbol{\Lambda}+\textbf{A}^{\text{T}}\textbf{L}\textbf{A}-\textbf{A}^{\text{T}}\textbf{L}\textbf{L}^{-1}\textbf{L}\textbf{A})^{-1}&\textbf{M}\textbf{A}^{\text{T}}\textbf{L}\textbf{L}^{-1} \\
\textbf{L}^{-1}\textbf{L}\textbf{A}\textbf{M}&\textbf{L}^{-1}+\textbf{L}^{-1}\textbf{L}\textbf{A}\textbf{M}\textbf{A}^{\text{T}}\textbf{L}\textbf{L}^{-1}
\end{array}
\right)& \\ \\
&=
\left(
\begin{array}{cccc}
(\boldsymbol{\Lambda}+\textbf{A}^{\text{T}}\textbf{L}\textbf{A}-\textbf{A}^{\text{T}}\textbf{L}\textbf{A})^{-1}&\textbf{M}\textbf{A}^{\text{T}} \\
\textbf{A}\textbf{M}&\textbf{L}^{-1}+\textbf{A}\textbf{M}\textbf{A}^{\text{T}}
\end{array}
\right)& \\ \\
&=
\left(
\begin{array}{cccc}
\overbrace{\boldsymbol{\Lambda}^{-1}}^{=\textbf{M}}&\boldsymbol{\Lambda}^{-1}\textbf{A}^{\text{T}} \\
\textbf{A}\boldsymbol{\Lambda}^{-1}&\textbf{L}^{-1}+\textbf{A}\boldsymbol{\Lambda}^{-1}\textbf{A}^{\text{T}}
\end{array}
\right)&&...\textbf{M}\text{を他の成分にも代入} \\ \\
\end{align*}
と導出できる。
式(2.102)より
\begin{align*}
&-\frac{1}{2}(\textbf{x}-\boldsymbol{\mu})^{\text{T}}\boldsymbol{\Lambda}(\textbf{x}-\boldsymbol{\mu})-\frac{1}{2}(\textbf{y}-\textbf{A}\textbf{x}-\textbf{b})^{\text{T}}\textbf{L}(\textbf{y}-\textbf{A}\textbf{x}-\textbf{b})+\text{const} \\ \\
\Rightarrow&
-\frac{1}{2}\left[\textbf{x}^{\text{T}}\boldsymbol{\Lambda}(-\boldsymbol{\mu})+(-\boldsymbol{\mu}^{\text{T}})\boldsymbol{\Lambda}\textbf{x}+(\textbf{y}-\textbf{A}\textbf{x})^{\text{T}}\textbf{L}(-\textbf{b})-(-\textbf{b})^{\text{T}}\textbf{L}(\textbf{y}-\textbf{A}\textbf{x})\right] \\ \\
=&
\frac{1}{2}\left[\textbf{x}^{\text{T}}\boldsymbol{\Lambda}\boldsymbol{\mu}+\boldsymbol{\mu}^{\text{T}}\boldsymbol{\Lambda}\textbf{x}+(\textbf{y}-\textbf{A}\textbf{x})^{\text{T}}\textbf{L}\textbf{b}-\textbf{b}^{\text{T}}\textbf{L}(\textbf{y}-\textbf{A}\textbf{x})\right] \\ \\
=&
\frac{1}{2}\left[\textbf{x}^{\text{T}}\boldsymbol{\Lambda}\boldsymbol{\mu}+(\boldsymbol{\mu}^{\text{T}}\boldsymbol{\Lambda}\textbf{x})^{\text{T}}+(\textbf{y}-\textbf{A}\textbf{x})^{\text{T}}\textbf{L}\textbf{b}-((\textbf{b}^{\text{T}}\textbf{L})(\textbf{y}-\textbf{A}\textbf{x}))^{\text{T}}\right]&&...\text{スカラーなので転置をとっても変化しないため} \\ \\
=&
\frac{1}{2}\left[\textbf{x}^{\text{T}}\boldsymbol{\Lambda}\boldsymbol{\mu}+\textbf{x}^{\text{T}}\boldsymbol{\Lambda}^{\text{T}}(\boldsymbol{\mu}^{\text{T}})^{\text{T}}+(\textbf{y}-\textbf{A}\textbf{x})^{\text{T}}\textbf{L}\textbf{b}+(\textbf{y}-\textbf{A}\textbf{x})^{\text{T}}((\textbf{b}^{\text{T}}\textbf{L}))^{\text{T}}\right]&&...\text{式(C.1)より} \\ \\
=&
\frac{1}{2}\left[\textbf{x}^{\text{T}}\boldsymbol{\Lambda}\boldsymbol{\mu}+\textbf{x}^{\text{T}}\boldsymbol{\Lambda}^{\text{T}}\boldsymbol{\mu}+(\textbf{y}^{\text{T}}-\textbf{x}^{\text{T}}\textbf{A}^{\text{T}})\textbf{L}\textbf{b}+(\textbf{y}^{\text{T}}-\textbf{x}^{\text{T}}\textbf{A}^{\text{T}})\textbf{L}^{\text{T}}(\textbf{b}^{\text{T}})^{\text{T}}\right]& \\ \\
=&
\frac{1}{2}\left[\textbf{x}^{\text{T}}\boldsymbol{\Lambda}\boldsymbol{\mu}+\textbf{x}^{\text{T}}\boldsymbol{\Lambda}^{\text{T}}\boldsymbol{\mu}+(\textbf{y}^{\text{T}}-\textbf{x}^{\text{T}}\textbf{A}^{\text{T}})\textbf{L}\textbf{b}+(\textbf{y}^{\text{T}}-\textbf{x}^{\text{T}}\textbf{A}^{\text{T}})\textbf{L}^{\text{T}}\textbf{b}\right]& \\ \\
=&
\frac{1}{2}\left[\textbf{x}^{\text{T}}\boldsymbol{\Lambda}\boldsymbol{\mu}+\textbf{x}^{\text{T}}\boldsymbol{\Lambda}\boldsymbol{\mu}+(\textbf{y}^{\text{T}}-\textbf{x}^{\text{T}}\textbf{A}^{\text{T}})\textbf{L}\textbf{b}+(\textbf{y}^{\text{T}}-\textbf{x}^{\text{T}}\textbf{A}^{\text{T}})\textbf{L}\textbf{b}\right]&&...\text{式(2.67)下より共分散行列は対称行列であるため} \\ \\
=&
\textbf{x}^{\text{T}}\boldsymbol{\Lambda}\boldsymbol{\mu}+(\textbf{y}^{\text{T}}-\textbf{x}^{\text{T}}\textbf{A}^{\text{T}})\textbf{L}\textbf{b} \\ \\
=&
\textbf{x}^{\text{T}}\boldsymbol{\Lambda}\boldsymbol{\mu}-\textbf{x}^{\text{T}}\textbf{A}^{\text{T}}\textbf{L}\textbf{b}+\textbf{y}^{\text{T}}\textbf{L}\textbf{b} \\ \\
\end{align*}
と導出できる。
式(2.103)(2.106)を用いると
\begin{align*}
\ln \textbf{z}
&=
-\frac12\textbf{z}^{\text{T}}\textbf{R}\textbf{z}+\textbf{z}^{\text{T}}
\left(
\begin{array}{cccc}
\boldsymbol{\Lambda}\boldsymbol{\mu}-\textbf{A}^{\text{T}}\textbf{L}\textbf{b} \\
\textbf{Lb}
\end{array}
\right)+\text{const} \\ \\
&=
-\frac12\textbf{z}^{\text{T}}\textbf{R}\textbf{z}+\textbf{z}^{\text{T}}\textbf{R}\underbrace{\textbf{R}^{-1}
\left(
\begin{array}{cccc}
\boldsymbol{\Lambda}\boldsymbol{\mu}-\textbf{A}^{\text{T}}\textbf{L}\textbf{b} \\
\textbf{Lb}
\end{array}
\right)}_{(1)}+\text{const} \\ \\
\end{align*}
と書けるため、式(2.71)からの類推を用いると期待値は(1)の部分になる。したがって、
\begin{align*}
\textbf{R}^{-1}
\left(
\begin{array}{cccc}
\boldsymbol{\Lambda}\boldsymbol{\mu}-\textbf{A}^{\text{T}}\textbf{L}\textbf{b} \\
\textbf{Lb}
\end{array}
\right)
&=
\left(
\begin{array}{cccc}
\boldsymbol{\Lambda}^{-1}&\boldsymbol{\Lambda}^{-1}\textbf{A}^{\text{T}} \\
\textbf{A}\boldsymbol{\Lambda}^{-1}&\textbf{L}^{-1}+\textbf{A}\boldsymbol{\Lambda}^{-1}\textbf{A}^{\text{T}}
\end{array}
\right)
\left(
\begin{array}{cccc}
\boldsymbol{\Lambda}\boldsymbol{\mu}-\textbf{A}^{\text{T}}\textbf{L}\textbf{b} \\
\textbf{Lb}
\end{array}
\right)&&...\text{式(2.105)} \\ \\
&=
\left(
\begin{array}{cccc}
\boldsymbol{\Lambda}^{-1}(\boldsymbol{\Lambda}\boldsymbol{\mu}-\textbf{A}^{\text{T}}\textbf{L}\textbf{b})+\boldsymbol{\Lambda}^{-1}\textbf{A}^{\text{T}}\textbf{Lb} \\
\textbf{A}\boldsymbol{\Lambda}^{-1}(\boldsymbol{\Lambda}\boldsymbol{\mu}-\textbf{A}^{\text{T}}\textbf{L}\textbf{b})+(\textbf{L}^{-1}+\textbf{A}\boldsymbol{\Lambda}^{-1}\textbf{A}^{\text{T}})\textbf{Lb}
\end{array}
\right) \\ \\
&=
\left(
\begin{array}{cccc}
\boldsymbol{\mu}-\boldsymbol{\Lambda}^{-1}\textbf{A}^{\text{T}}\textbf{L}\textbf{b}+\boldsymbol{\Lambda}^{-1}\textbf{A}^{\text{T}}\textbf{Lb} \\
\textbf{A}\boldsymbol{\mu}-\textbf{A}\boldsymbol{\Lambda}^{-1}\textbf{A}^{\text{T}}\textbf{L}\textbf{b}+\textbf{b}+\textbf{A}\boldsymbol{\Lambda}^{-1}\textbf{A}^{\text{T}}\textbf{Lb}
\end{array}
\right) \\ \\
&=
\left(
\begin{array}{cccc}
\boldsymbol{\mu} \\
\textbf{A}\boldsymbol{\mu}+\textbf{b}
\end{array}
\right) \\ \\
\end{align*}
と導出できる。
\(\textbf{z}\)は\(\textbf{x},\textbf{y}\)の同時分布を示しているため、
\begin{align*}
p(\textbf{z})&=p(\textbf{x},\textbf{y}) \\ \\
&=
p(\textbf{y}|\textbf{x})p(\textbf{x})&&...\text{式(1.11)} \\ \\
&=
p(\textbf{x}|\textbf{y})p(\textbf{y})
\end{align*}
と式変形できる。そのため、式(2.102)は\(\ln p(\textbf{y})+\ln p(\textbf{x}|\textbf{y})\)についても同じ式になる。したがって式(2.103)を用いると共分散行列を求めることができ、式(2.104)(2.105)と式(2.73)より、共分散行列は
\begin{align*}
\boldsymbol{\Sigma}_{\textbf{x}|\textbf{y}}
&=
\boldsymbol{\Lambda}_{\textbf{x}}^{-1}&&...\text{式(2.73)より} \\ \\
&=
(\boldsymbol{\Lambda}+\textbf{A}^{\text{T}}\textbf{L}\textbf{A})^{-1}&&...\text{精度行列}\boldsymbol{\Lambda}\text{として式(2.104)を用いた} \\ \\
\end{align*}
と求められる。これと式(2.75)を用いると
\begin{align*}
\boldsymbol{\mu}_{\textbf{x}|\textbf{y}}
&=
\boldsymbol{\Sigma}_{\textbf{x}|\textbf{y}}\{\boldsymbol{\Lambda}_{\textbf{x}}\boldsymbol{\mu}_{\textbf{x}}-\boldsymbol{\Lambda}_{\textbf{x}|\textbf{y}}(\textbf{y}-\boldsymbol{\mu}_{\textbf{y}})\} \\ \\
&=
(\boldsymbol{\Lambda}+\textbf{A}^{\text{T}}\textbf{L}\textbf{A})^{-1}\{(\boldsymbol{\Lambda}+\textbf{A}^{\text{T}}\textbf{L}\textbf{A})\boldsymbol{\mu}-(-\textbf{A}^{\text{T}}\textbf{L})(\textbf{y}-\textbf{A}\boldsymbol{\mu}-\textbf{b})\} \\ \\
&=
(\boldsymbol{\Lambda}+\textbf{A}^{\text{T}}\textbf{L}\textbf{A})^{-1}\{\boldsymbol{\Lambda}\boldsymbol{\mu}+\textbf{A}^{\text{T}}\textbf{L}\textbf{A}\boldsymbol{\mu}-\textbf{A}^{\text{T}}\textbf{L}\textbf{A}\boldsymbol{\mu}+\textbf{A}^{\text{T}}\textbf{L}(\textbf{y}-\textbf{b})\} \\ \\
&=
(\boldsymbol{\Lambda}+\textbf{A}^{\text{T}}\textbf{L}\textbf{A})^{-1}\{\boldsymbol{\Lambda}\boldsymbol{\mu}+\textbf{A}^{\text{T}}\textbf{L}(\textbf{y}-\textbf{b})\} \\ \\
\end{align*}
と導出できる。
式(2.43)を用いて対数尤度を計算する。
\begin{align*}
\ln p(\textbf{X},\boldsymbol{\mu},\boldsymbol{\Sigma})
&=
\ln\displaystyle\prod_{n=1}^N p(\textbf{x}_n,\boldsymbol{\mu},\boldsymbol{\Sigma}) \\ \\
&=
\displaystyle\sum_{n=1}^N\ln p(\textbf{x}_n,\boldsymbol{\mu},\boldsymbol{\Sigma}) \\ \\
&=
\displaystyle\sum_{n=1}^N \ln\frac{1}{(2\pi)^{D/2}}\frac{1}{|\boldsymbol{\Sigma}|^{1/2}}\exp\left\{-\frac12(\textbf{x}_n-\boldsymbol{\mu})^{\text{T}}\boldsymbol{\Sigma}^{-1}(\textbf{x}_n-\boldsymbol{\mu})\right\}&&...\text{式(2.43)} \\ \\
&=
\displaystyle\sum_{n=1}^N\left[\ln \frac{1}{(2\pi)^{D/2}}+\ln\frac{1}{|\boldsymbol{\Sigma}|^{1/2}}+\ln\exp\left\{-\frac12(\textbf{x}_n-\boldsymbol{\mu})^{\text{T}}\boldsymbol{\Sigma}^{-1}(\textbf{x}_n-\boldsymbol{\mu})\right\}\right] \\ \\
&=
\displaystyle\sum_{n=1}^N\left[-\frac{D}{2}\ln (2\pi)-\frac12\ln|\boldsymbol{\Sigma}|-\frac12(\textbf{x}_n-\boldsymbol{\mu})^{\text{T}}\boldsymbol{\Sigma}^{-1}(\textbf{x}_n-\boldsymbol{\mu})\right] \\ \\
&=
-\frac{ND}{2}\ln (2\pi)-\frac{N}{2}\ln|\boldsymbol{\Sigma}|-\displaystyle\sum_{n=1}^N\frac12(\textbf{x}_n-\boldsymbol{\mu})^{\text{T}}\boldsymbol{\Sigma}^{-1}(\textbf{x}_n-\boldsymbol{\mu}) \\ \\
\end{align*}
と導出できる。
式(2.118)を用いて
\begin{align*}
&
-\frac{ND}{2}\ln (2\pi)-\frac{N}{2}\ln|\boldsymbol{\Sigma}|-\displaystyle\sum_{n=1}^N\frac12(\textbf{x}_n-\boldsymbol{\mu})^{\text{T}}\boldsymbol{\Sigma}^{-1}(\textbf{x}_n-\boldsymbol{\mu}) \\ \\
=&
-\frac{ND}{2}\ln (2\pi)-\frac{N}{2}\ln|\boldsymbol{\Sigma}|-\displaystyle\sum_{n=1}^N\frac12\textbf{x}_n^{\text{T}}\boldsymbol{\Sigma}^{-1}\textbf{x}_n+\displaystyle\sum_{n=1}^N\frac12\textbf{x}_n^{\text{T}}\boldsymbol{\Sigma}^{-1}\boldsymbol{\mu}+\displaystyle\sum_{n=1}^N\frac12\boldsymbol{\mu}^{\text{T}}\boldsymbol{\Sigma}^{-1}\textbf{x}_n-\displaystyle\sum_{n=1}^N\frac12\boldsymbol{\mu}^{\text{T}}\boldsymbol{\Sigma}^{-1}\boldsymbol{\mu} \\ \\
=&
-\frac{ND}{2}\ln (2\pi)-\frac{N}{2}\ln|\boldsymbol{\Sigma}|-\displaystyle\sum_{n=1}^N\frac12\textbf{x}_n^{\text{T}}\boldsymbol{\Sigma}^{-1}\textbf{x}_n+\boldsymbol{\mu}^{\text{T}}\boldsymbol{\Sigma}^{-1}\displaystyle\sum_{n=1}^N\textbf{x}_n-\frac{N}{2}\boldsymbol{\mu}^{\text{T}}\boldsymbol{\Sigma}^{-1}\boldsymbol{\mu} \\ \\
=&
-\frac{ND}{2}\ln (2\pi)-\frac{N}{2}\ln|\boldsymbol{\Sigma}|-\frac12\displaystyle\sum_{n=1}^N\text{Tr}(\textbf{x}_n\textbf{x}_n^{\text{T}}\boldsymbol{\Sigma}^{-1})+\boldsymbol{\mu}^{\text{T}}\boldsymbol{\Sigma}^{-1}\displaystyle\sum_{n=1}^N\textbf{x}_n-\frac{N}{2}\boldsymbol{\mu}^{\text{T}}\boldsymbol{\Sigma}^{-1}\boldsymbol{\mu}&&...(1) \\ \\
\end{align*}
と式変形できる。これは
\begin{align*}
p(\textbf{X}|\boldsymbol{\mu},\boldsymbol{\Sigma})
&=
\exp\left\{-\frac{ND}{2}\ln (2\pi)-\frac{N}{2}\ln|\boldsymbol{\Sigma}|-\frac12\displaystyle\sum_{n=1}^N\text{Tr}(\textbf{x}_n\textbf{x}_n^{\text{T}}\boldsymbol{\Sigma}^{-1})+\boldsymbol{\mu}^{\text{T}}\boldsymbol{\Sigma}^{-1}\displaystyle\sum_{n=1}^N\textbf{x}_n-\frac{N}{2}\boldsymbol{\mu}^{\text{T}}\boldsymbol{\Sigma}^{-1}\boldsymbol{\mu}\right\} \\ \\
&=
\underbrace{\exp\left\{-\frac{ND}{2}\ln (2\pi)\right\}}_{(1)}\exp\left\{-\frac{N}{2}\ln|\boldsymbol{\Sigma}|-\frac{N}{2}\boldsymbol{\mu}^{\text{T}}\boldsymbol{\Sigma}^{-1}\boldsymbol{\mu}-\frac12\displaystyle\sum_{n=1}^N\text{Tr}(\textbf{x}_n\textbf{x}_n^{\text{T}}\boldsymbol{\Sigma}^{-1})+\boldsymbol{\mu}^{\text{T}}\boldsymbol{\Sigma}^{-1}\displaystyle\sum_{n=1}^N\textbf{x}_n\right\} \\ \\
&=
\underbrace{p(\textbf{X})}_{(1)}p(\displaystyle\sum_{n=1}^N\textbf{x}_n,\sum_{n=1}^N\textbf{x}_n\textbf{x}_n^{\text{T}}|\boldsymbol{\mu},\boldsymbol{\Sigma})
\end{align*}
となることから、フィッシャー・ネイマンの分解定理(因子分解定理)より式(2.119)は十分統計量になる。
\begin{align*}
\textbf{x}&=(x_1,x_2,\ldots,x_D)^{\text{T}} \\ \\
\boldsymbol{\Sigma}^{-1}
&=
\left(
\begin{array}{cccc}
\Lambda_{11}&\Lambda_{12}&\ldots&\Lambda_{1D} \\
\Lambda_{21}&\Lambda_{22}&\ldots&\Lambda_{2D} \\
\vdots&\ddots \\
\Lambda_{D1}&\Lambda_{D2}&\ldots&\Lambda_{DD}
\end{array}
\right)
\end{align*}
とする。このとき
\begin{align*}
\textbf{x}^{\text{T}}\boldsymbol{\Sigma}^{-1}\textbf{x}
&=
(x_1,x_2,\ldots,x_D)
\left(
\begin{array}{cccc}
\Lambda_{11}&\Lambda_{12}&\ldots&\Lambda_{1D} \\
\Lambda_{21}&\Lambda_{22}&\ldots&\Lambda_{2D} \\
\vdots&\ddots \\
\Lambda_{D1}&\Lambda_{D2}&\ldots&\Lambda_{DD}
\end{array}
\right)\left(
\begin{array}{cccc}
x_1 \\
x_2 \\
\vdots \\
x_D
\end{array}
\right) \\ \\
&=
(x_1,x_2,\ldots,x_D)\left(
\begin{array}{cccc}
\Lambda_{11}x_1+\Lambda_{12}x_2+\ldots+\Lambda_{1D}x_D \\
\Lambda_{21}x_1+\Lambda_{22}x_2+\ldots+\Lambda_{2D}x_D \\
\vdots \\
\Lambda_{D1}x_1+\Lambda_{D2}x_2+\ldots+\Lambda_{DD}x_D
\end{array}
\right) \\ \\
&=
x_1\Lambda_{11}x_1+x_1\Lambda_{12}x_2+\ldots+x_1\Lambda_{1D}x_D \\
&+x_2\Lambda_{21}x_1+x_2\Lambda_{22}x_2+\ldots+x_2\Lambda_{2D}x_D \\
&+\vdots \\
&+x_D\Lambda_{D1}x_1+x_D\Lambda_{D2}x_2+\ldots+x_D\Lambda_{DD}x_D\\ \\
&=
x_1x_1\Lambda_{11}+x_1x_2\Lambda_{12}+\ldots+x_1x_D\Lambda_{1D} \\
&+x_2x_1\Lambda_{21}+x_2x_2\Lambda_{22}+\ldots+x_2x_D\Lambda_{2D} \\
&+\vdots \\
&+x_Dx_1\Lambda_{D1}+x_Dx_2\Lambda_{D2}+\ldots+x_Dx_D\Lambda_{DD}\\ \\
&=
\text{Tr}\left(
\begin{array}{cccc}
x_1x_1\Lambda_{11}+x_1x_2\Lambda_{12}+\ldots+x_1x_D\Lambda_{1D}&\ldots& \\
\ldots&x_2x_1\Lambda_{21}+x_2x_2\Lambda_{22}+\ldots+x_2x_D\Lambda_{2D}&\ldots& \\
\vdots&\ddots& \\
\ldots&\ldots&\ldots&x_Dx_1\Lambda_{D1}+x_Dx_2\Lambda_{D2}+\ldots+x_Dx_D\Lambda_{DD}
\end{array}
\right) \\ \\
&=
\text{Tr}\left[\left(
\begin{array}{cccc}
x_1x_1&x_1x_2&\ldots&x_1x_D \\
x_2x_1&x_2x_2&\ldots&x_2x_D \\
\vdots&\ddots& \\
x_Dx_1&x_Dx_2&\ldots&x_Dx_D
\end{array}
\right)\left(
\begin{array}{cccc}
\Lambda_{11}&\Lambda_{12}&\ldots&\Lambda_{1D} \\
\Lambda_{21}&\Lambda_{22}&\ldots&\Lambda_{2D} \\
\vdots&\ddots& \\
\Lambda_{D1}&\Lambda_{D2}&\ldots&\Lambda_{DD}
\end{array}
\right)\right] \\ \\
&=
\text{Tr}\left[\left(
\begin{array}{cccc}
x_1 \\
x_2 \\
\vdots \\
x_D
\end{array}
\right)(x_1,x_2,\ldots,x_D)\left(
\begin{array}{cccc}
\Lambda_{11}&\Lambda_{12}&\ldots&\Lambda_{1D} \\
\Lambda_{21}&\Lambda_{22}&\ldots&\Lambda_{2D} \\
\vdots&\ddots& \\
\Lambda_{D1}&\Lambda_{D2}&\ldots&\Lambda_{DD}
\end{array}
\right)\right] \\ \\
&=
\text{Tr}\left[\textbf{x}\textbf{x}^{\text{T}}\boldsymbol{\Sigma}^{-1}\right] \\ \\
\end{align*}
となる。
式(2.118)を用いて計算する。
\begin{align*}
&
\frac{\partial}{\partial\boldsymbol{\mu}}\left[-\frac{ND}{2}\ln (2\pi)-\frac{N}{2}\ln|\boldsymbol{\Sigma}|-\displaystyle\sum_{n=1}^N\frac12(\textbf{x}_n-\boldsymbol{\mu})^{\text{T}}\boldsymbol{\Sigma}^{-1}(\textbf{x}_n-\boldsymbol{\mu})\right] \\ \\
&=
-\frac{\partial}{\partial\boldsymbol{\mu}}\left[\displaystyle\sum_{n=1}^N\frac12(\textbf{x}_n-\boldsymbol{\mu})^{\text{T}}\boldsymbol{\Sigma}^{-1}(\textbf{x}_n-\boldsymbol{\mu})\right] \\ \\
&=
-\frac12\frac{\partial}{\partial\boldsymbol{\mu}}\left[\displaystyle\sum_{n=1}^N\text{Tr}\left\{\boldsymbol{\Sigma}^{-1}(\textbf{x}_n-\boldsymbol{\mu})(\textbf{x}_n-\boldsymbol{\mu})^{\text{T}}\right\}\right]&&...\text{(1)} \\ \\
&=
\displaystyle\sum_{n=1}^N\boldsymbol{\Sigma}^{-1}(\textbf{x}_n-\boldsymbol{\mu})&&...\text{(2)} \\ \\
\end{align*}
と式変形できる。(1)では「式(2.119)が十分統計量になること」の中の「(1)\(\textbf{x}_n^{\text{T}}\boldsymbol{\Sigma}^{-1}\textbf{x}_n=\text{Tr}(\textbf{x}_n\textbf{x}_n^{\text{T}}\boldsymbol{\Sigma}^{-1})\)の導出」と同様の手法で導くことができる。
総和の中身だけ考える。ここで、
\begin{align*}
\textbf{x}&=(x_1,x_2,\ldots,x_D)^{\text{T}} \\ \\
\boldsymbol{\mu}&=(\mu_1,\mu_2,\ldots,\mu_D)^{\text{T}} \\ \\
\boldsymbol{\Sigma}^{-1}
&=
\left(
\begin{array}{cccc}
\Lambda_{11}&\Lambda_{12}&\ldots&\Lambda_{1D} \\
\Lambda_{21}&\Lambda_{22}&\ldots&\Lambda_{2D} \\
\vdots&\ddots \\
\Lambda_{D1}&\Lambda_{D2}&\ldots&\Lambda_{DD}
\end{array}
\right)
\end{align*}
とする。成分に着目して計算すると
\begin{align*}
&
\frac{\partial}{\partial\boldsymbol{\mu}}\text{Tr}\left\{\boldsymbol{\Sigma}(\textbf{x}-\boldsymbol{\mu})(\textbf{x}-\boldsymbol{\mu})^{\text{T}}\right\} \\ \\
&=
\frac{\partial}{\partial\boldsymbol{\mu}}
\left(\right.
(x_1-\mu_1)(x_1-\mu_1)\Lambda_{11}+(x_1-\mu_1)(x_2-\mu_2)\Lambda_{12}+\ldots+(x_1-\mu_1)(x_D-\mu_D)\Lambda_{1D} \\
&+(x_2-\mu_2)(x_1-\mu_1)\Lambda_{21}+(x_2-\mu_2)(x_2-\mu_2)\Lambda_{22}+\ldots+(x_2-\mu_2)(x_D-\mu_D)\Lambda_{2D} \\
&\vdots \\
&+(x_D-\mu_D)(x_1-\mu_1)\Lambda_{D1}+(x_D-\mu_D)(x_2-\mu_2)\Lambda_{D2}+\ldots+(x_D-\mu_D)(x_D-\mu_D)\Lambda_{DD}\left.\right)&&...(3) \\ \\
\end{align*}
となる。(3)では「式(2.119)が十分統計量になること」と同様の計算を用いた。
ここで、\(\mu_k\)成分の微分だけ考えると \begin{align*} &\frac{\partial}{\partial\mu_k} \left(\right. (x_1-\mu_1)(x_1-\mu_1)\Lambda_{11}+(x_1-\mu_1)(x_2-\mu_2)\Lambda_{12}+\ldots+(x_1-\mu_1)(x_D-\mu_D)\Lambda_{1D} \\ &+(x_2-\mu_2)(x_1-\mu_1)\Lambda_{21}+(x_2-\mu_2)(x_2-\mu_2)\Lambda_{22}+\ldots+(x_2-\mu_2)(x_D-\mu_D)\Lambda_{2D} \\ &\vdots \\ &+(x_D-\mu_D)(x_1-\mu_1)\Lambda_{D1}+(x_D-\mu_D)(x_2-\mu_2)\Lambda_{D2}+\ldots+(x_D-\mu_D)(x_D-\mu_D)\Lambda_{DD}\left.\right)& \\ \\ &=0+0+\ldots+(x_1-\mu_1)(-1)\Lambda_{1k}+0+\ldots+0 \\ &+0+0+\ldots+(x_2-\mu_2)(-1)\Lambda_{2k}+0+\ldots+0 \\ &\vdots \\ &+(x_1-\mu_1)(-1)\Lambda_{k1}+(x_2-\mu_2)(-1)\Lambda_{k2}+\ldots+(-2)(x_k-\mu_k)\Lambda_{kk}+\ldots+(x_D-\mu_D)(-1)\Lambda_{kD} \\ &+\vdots \\ &+0+0+\ldots+(x_D-\mu_D)(-1)\Lambda_{Dk}+0+\ldots+0 \\ \\ &= -2\left\{(x_1-\mu_1)\Lambda_{1k}+(x_2-\mu_2)\Lambda_{2k}+\ldots+(x_D-\mu_D)\Lambda_{Dk} \right\} \\ \\ \end{align*} が得られる。\(\boldsymbol{\Sigma}\)は対称行列であることを用いた。これを\(\boldsymbol{\mu}\)の各成分で考えると \begin{align*} -\frac12\frac{\partial}{\partial\boldsymbol{\mu}}\text{Tr}\left\{\boldsymbol{\Sigma}(\textbf{x}-\boldsymbol{\mu})(\textbf{x}-\boldsymbol{\mu})^{\text{T}}\right\} &= -\frac12(-2)\displaystyle\sum_{n=1}^N\boldsymbol{\Sigma}(\textbf{x}-\boldsymbol{\mu}) \\ \\ &= \displaystyle\sum_{n=1}^N\boldsymbol{\Sigma}(\textbf{x}-\boldsymbol{\mu}) \\ \\ \end{align*} が得られる。
ここで、\(\mu_k\)成分の微分だけ考えると \begin{align*} &\frac{\partial}{\partial\mu_k} \left(\right. (x_1-\mu_1)(x_1-\mu_1)\Lambda_{11}+(x_1-\mu_1)(x_2-\mu_2)\Lambda_{12}+\ldots+(x_1-\mu_1)(x_D-\mu_D)\Lambda_{1D} \\ &+(x_2-\mu_2)(x_1-\mu_1)\Lambda_{21}+(x_2-\mu_2)(x_2-\mu_2)\Lambda_{22}+\ldots+(x_2-\mu_2)(x_D-\mu_D)\Lambda_{2D} \\ &\vdots \\ &+(x_D-\mu_D)(x_1-\mu_1)\Lambda_{D1}+(x_D-\mu_D)(x_2-\mu_2)\Lambda_{D2}+\ldots+(x_D-\mu_D)(x_D-\mu_D)\Lambda_{DD}\left.\right)& \\ \\ &=0+0+\ldots+(x_1-\mu_1)(-1)\Lambda_{1k}+0+\ldots+0 \\ &+0+0+\ldots+(x_2-\mu_2)(-1)\Lambda_{2k}+0+\ldots+0 \\ &\vdots \\ &+(x_1-\mu_1)(-1)\Lambda_{k1}+(x_2-\mu_2)(-1)\Lambda_{k2}+\ldots+(-2)(x_k-\mu_k)\Lambda_{kk}+\ldots+(x_D-\mu_D)(-1)\Lambda_{kD} \\ &+\vdots \\ &+0+0+\ldots+(x_D-\mu_D)(-1)\Lambda_{Dk}+0+\ldots+0 \\ \\ &= -2\left\{(x_1-\mu_1)\Lambda_{1k}+(x_2-\mu_2)\Lambda_{2k}+\ldots+(x_D-\mu_D)\Lambda_{Dk} \right\} \\ \\ \end{align*} が得られる。\(\boldsymbol{\Sigma}\)は対称行列であることを用いた。これを\(\boldsymbol{\mu}\)の各成分で考えると \begin{align*} -\frac12\frac{\partial}{\partial\boldsymbol{\mu}}\text{Tr}\left\{\boldsymbol{\Sigma}(\textbf{x}-\boldsymbol{\mu})(\textbf{x}-\boldsymbol{\mu})^{\text{T}}\right\} &= -\frac12(-2)\displaystyle\sum_{n=1}^N\boldsymbol{\Sigma}(\textbf{x}-\boldsymbol{\mu}) \\ \\ &= \displaystyle\sum_{n=1}^N\boldsymbol{\Sigma}(\textbf{x}-\boldsymbol{\mu}) \\ \\ \end{align*} が得られる。
式(2.120)が\(0\)になることを用いると
\begin{align*}
\displaystyle\sum_{n=1}^N\boldsymbol{\Sigma}^{-1}(\textbf{x}_n-\boldsymbol{\mu})&=0 \\ \\
\displaystyle\sum_{n=1}^N\boldsymbol{\Sigma}^{-1}\textbf{x}_n-N\boldsymbol{\mu}&=0 \\ \\
\boldsymbol{\mu}&=\frac{1}{N}\displaystyle\sum_{n=1}^N\boldsymbol{\Sigma}^{-1}\textbf{x}_n \\ \\
\end{align*}
と導出できる。
式(2.118)を\(\boldsymbol{\Sigma}\)で微分して\(0\)になるときの\(\boldsymbol{\Sigma}_{\text{ML}}\)の値を求める。
\begin{align*}
&
\frac{\partial}{\partial\boldsymbol{\Sigma}}\left[-\frac{ND}{2}\ln (2\pi)-\frac{N}{2}\ln|\boldsymbol{\Sigma}|-\displaystyle\sum_{n=1}^N\frac12(\textbf{x}_n-\boldsymbol{\mu})^{\text{T}}\boldsymbol{\Sigma}^{-1}(\textbf{x}_n-\boldsymbol{\mu})\right] \\ \\
&=
\frac{\partial}{\partial\boldsymbol{\Sigma}}\left[-\frac{N}{2}\ln|\boldsymbol{\Sigma}|-\displaystyle\sum_{n=1}^N\frac12(\textbf{x}_n-\boldsymbol{\mu})^{\text{T}}\boldsymbol{\Sigma}^{-1}(\textbf{x}_n-\boldsymbol{\mu})\right] \\ \\
&=
-\frac{N}{2}(\boldsymbol{\Sigma}^{-1})^{\text{T}}-\frac{\partial}{\partial\boldsymbol{\Sigma}}\left[\displaystyle\sum_{n=1}^N\frac12(\textbf{x}_n-\boldsymbol{\mu})^{\text{T}}\boldsymbol{\Sigma}^{-1}(\textbf{x}_n-\boldsymbol{\mu})\right]&&...\text{式(C.28)} \\ \\
&=
-\frac{N}{2}(\boldsymbol{\Sigma}^{-1})^{\text{T}}-\frac{\partial}{\partial\boldsymbol{\Sigma}}\left[\displaystyle\sum_{n=1}^N\frac12\text{Tr}\{\boldsymbol{\Sigma}^{-1}(\textbf{x}_n-\boldsymbol{\mu})(\textbf{x}_n-\boldsymbol{\mu})^{\text{T}}\}\right]&&...\text{(1)} \\ \\
&=
-\frac{N}{2}(\boldsymbol{\Sigma}^{-1})^{\text{T}}+\left[\displaystyle\sum_{n=1}^N\frac12\boldsymbol{\Sigma}^{-1} (\textbf{x}_n-\boldsymbol{\mu})(\textbf{x}_n-\boldsymbol{\mu})^{\text{T}} \boldsymbol{\Sigma}^{-1}\right]&&...\text{(2)} \\ \\
&=
-\frac{1}{2}\boldsymbol{\Sigma}^{-1}\left[N\boldsymbol{\Sigma}-\displaystyle\sum_{n=1}^N(\textbf{x}_n-\boldsymbol{\mu})(\textbf{x}_n-\boldsymbol{\mu})^{\text{T}}\right]\boldsymbol{\Sigma}^{-1}&&...\text{転置行列であるため、逆行列も転置行列になり}(\boldsymbol{\Sigma}^{-1})^{\text{T}}=\boldsymbol{\Sigma}^{-1} \\ \\
&\Rightarrow
-\frac{1}{2}\boldsymbol{\Sigma}^{-1}_{\text{ML}}\left[N\boldsymbol{\Sigma}_{\text{ML}}-\displaystyle\sum_{n=1}^N(\textbf{x}_n-\boldsymbol{\mu})(\textbf{x}_n-\boldsymbol{\mu})^{\text{T}}\right](\boldsymbol{\Sigma}^{-1}_{\text{ML}})=0 \\ \\
&\Leftrightarrow
\boldsymbol{\Sigma}_{\text{ML}}=\frac{1}{N}\displaystyle\sum_{n=1}^N(\textbf{x}_n-\boldsymbol{\mu})(\textbf{x}_n-\boldsymbol{\mu})^{\text{T}}
\end{align*}
と導出できる。
(1)では「式(2.119)が十分統計量になること」と同様の式変形と、\((\textbf{x}_n-\boldsymbol{\mu})(\textbf{x}_n-\boldsymbol{\mu})^{\text{T}}\)が正方行列であることから式(C.8)を用いた。
(1)では「式(2.119)が十分統計量になること」と同様の式変形と、\((\textbf{x}_n-\boldsymbol{\mu})(\textbf{x}_n-\boldsymbol{\mu})^{\text{T}}\)が正方行列であることから式(C.8)を用いた。
\(\textbf{C}=(\textbf{x}_n-\boldsymbol{\mu})(\textbf{x}_n-\boldsymbol{\mu})^{\text{T}}\)とする。また、総和の中から一つ分だけ計算する。
\begin{align*}
\frac{\partial}{\partial\boldsymbol{\Sigma}}\text{Tr}(\boldsymbol{\Sigma}^{-1}\textbf{C})
&=
-[\boldsymbol{\Sigma}^{-1}\textbf{C}\boldsymbol{\Sigma}^{-1}]^{\text{T}}&&...(2) \\ \\
&=
-(\boldsymbol{\Sigma}^{-1})^{\text{T}}\textbf{C}^{\text{T}}(\boldsymbol{\Sigma}^{-1})^{\text{T}} \\ \\
&=
-\boldsymbol{\Sigma}^{-1}\textbf{C}\boldsymbol{\Sigma}^{-1}&&...(\ast) \\ \\
\end{align*}
と導出できる。
\((\ast)\)では、\(\boldsymbol{\Sigma}\)が対称行列であることと、 \begin{align*} \textbf{C}^{\text{T}} &= ((\textbf{x}_n-\boldsymbol{\mu})(\textbf{x}_n-\boldsymbol{\mu})^{\text{T}})^{\text{T}} \\ \\ &= (\textbf{x}_n-\boldsymbol{\mu})(\textbf{x}_n-\boldsymbol{\mu})^{\text{T}} \\ \\ &= \textbf{C} \end{align*} となることを用いた。
(2)について、成分で考える。 \begin{align*} \left[\frac{\partial}{\partial\boldsymbol{\Sigma}}\text{Tr}(\boldsymbol{\Sigma}^{-1}\textbf{C})\right]_{ij} &= \frac{\partial}{\partial\boldsymbol{\Sigma}_{ij}}\left\{\displaystyle\sum_{k=1}^D\sum_{l=1}^D\boldsymbol{\Sigma}^{-1}_{kl}\textbf{C}_{lk}\right\} \\ \\ &= \displaystyle\sum_{k=1}^D\sum_{l=1}^D\frac{\partial\boldsymbol{\Sigma}^{-1}_{kl}}{\partial\boldsymbol{\Sigma}_{ij}}\textbf{C}_{lk} \\ \\ &= \displaystyle\sum_{k=1}^D\sum_{l=1}^D(-\boldsymbol{\Sigma}^{-1}_{ki}\boldsymbol{\Sigma}^{-1}_{jl})\textbf{C}_{lk}&&...\text{(3)} \\ \\ &= -\displaystyle\sum_{k=1}^D\boldsymbol{\Sigma}^{-1}_{ki}(\boldsymbol{\Sigma}^{-1}\textbf{C})_{jk}&&...\text{行列の積を考えると、行列の積の成分を表しているため} \\ \\ &= -\displaystyle\sum_{k=1}^D(\boldsymbol{\Sigma}^{-1}\textbf{C})_{jk}\boldsymbol{\Sigma}^{-1}_{ki} \\ \\ &= -(\boldsymbol{\Sigma}^{-1}\textbf{C}\boldsymbol{\Sigma}^{-1})_{ji} \\ \\ &= -(\boldsymbol{\Sigma}^{-1}\textbf{C}\boldsymbol{\Sigma}^{-1})^{\text{T}}_{ij} \\ \\ \Rightarrow \frac{\partial}{\partial\boldsymbol{\Sigma}}\text{Tr}(\boldsymbol{\Sigma}^{-1}\textbf{C}) &= -(\boldsymbol{\Sigma}^{-1}\textbf{C}\boldsymbol{\Sigma}^{-1})^{\text{T}} \\ \\ \end{align*} と導出できる。
(3)について、初めに \begin{align*} \textbf{A}\textbf{A}^{-1}&=\textbf{I} \Leftrightarrow \displaystyle\sum_{m=1}^DA_{im}A_{mj}^{-1}&=\delta_{ij} \end{align*} である。したがって、\(A_{kl}\)で微分すると右辺は\(0\)になることから、 \begin{align*} \frac{\partial}{\partial A_{kl}}\displaystyle\sum_{m=1}^DA_{im}A_{mj}^{-1} &= \displaystyle\sum_{m=1}^D\frac{\partial A_{im}}{\partial A_{kl}}A_{mj}^{-1}+\displaystyle\sum_{m=1}^DA_{im}\frac{\partial A_{mj}^{-1}}{\partial A_{kl}} \\ \\ &= \displaystyle\sum_{m=1}^D\delta_{ik}\delta_{ml}A_{mj}^{-1}+\displaystyle\sum_{m=1}^DA_{im}\frac{\partial A_{mj}^{-1}}{\partial A_{kl}}&&...\frac{\partial A_{im}}{\partial A_{kl}}=\begin{cases}1&(i=k \land m=l) \\0&(i\neq k \lor m\neq l)\end{cases}\text{として}\delta_{ik}\delta_{ml}\text{とした} \\ \\ &= \delta_{ik}\delta_{ll}A_{{\color{red}l}j}^{-1}+\displaystyle\sum_{m=1}^DA_{im}\frac{\partial A_{mj}^{-1}}{\partial A_{kl}}&&...m=l\text{の項のみ残るため}\\ \\ &= \delta_{ik}A_{lj}^{-1}+\displaystyle\sum_{m=1}^DA_{im}\frac{\partial A_{mj}^{-1}}{\partial A_{kl}}&\\ \\ &= 0 \end{align*} ここで、左から\(A_{ni}^{-1}\)を作用させ総和を取ると \begin{align*} \displaystyle\sum_{i=1}^DA_{ni}^{-1}\delta_{ik}A_{lj}^{-1}+\displaystyle\sum_{i=1}^DA_{ni}^{-1}\displaystyle\sum_{m=1}^DA_{im}\frac{\partial A_{mj}^{-1}}{\partial A_{kl}} &= A_{nk}^{-1}A_{lj}^{-1}+\displaystyle\sum_{i=1}^D\sum_{m=1}^DA_{ni}^{-1}A_{im}\frac{\partial A_{mj}^{-1}}{\partial A_{kl}}&&...i=k\text{の項のみ残るため} \\ \\ &= A_{nk}^{-1}A_{lj}^{-1}+\displaystyle\sum_{m=1}^D(A^{-1}A)_{nm}\frac{\partial A_{mj}^{-1}}{\partial A_{kl}}&&...\text{行列成分の表示であるため} \\ \\ &= A_{nk}^{-1}A_{lj}^{-1}+\displaystyle\sum_{m=1}^D\delta_{nm}\frac{\partial A_{mj}^{-1}}{\partial A_{kl}}&&...\text{逆行列との積であり、成分であるため} \\ \\ &= A_{nk}^{-1}A_{lj}^{-1}+\frac{\partial A_{nj}^{-1}}{\partial A_{kl}}&&...\text{クロネッカーのデルタより}m=n\text{の項のみ残る} \\ \\ &= 0 \\ \\ \Leftrightarrow \frac{\partial A_{nj}^{-1}}{\partial A_{kl}}&=-A_{nk}^{-1}A_{lj}^{-1} \end{align*} が得られる。
\((\ast)\)では、\(\boldsymbol{\Sigma}\)が対称行列であることと、 \begin{align*} \textbf{C}^{\text{T}} &= ((\textbf{x}_n-\boldsymbol{\mu})(\textbf{x}_n-\boldsymbol{\mu})^{\text{T}})^{\text{T}} \\ \\ &= (\textbf{x}_n-\boldsymbol{\mu})(\textbf{x}_n-\boldsymbol{\mu})^{\text{T}} \\ \\ &= \textbf{C} \end{align*} となることを用いた。
(2)について、成分で考える。 \begin{align*} \left[\frac{\partial}{\partial\boldsymbol{\Sigma}}\text{Tr}(\boldsymbol{\Sigma}^{-1}\textbf{C})\right]_{ij} &= \frac{\partial}{\partial\boldsymbol{\Sigma}_{ij}}\left\{\displaystyle\sum_{k=1}^D\sum_{l=1}^D\boldsymbol{\Sigma}^{-1}_{kl}\textbf{C}_{lk}\right\} \\ \\ &= \displaystyle\sum_{k=1}^D\sum_{l=1}^D\frac{\partial\boldsymbol{\Sigma}^{-1}_{kl}}{\partial\boldsymbol{\Sigma}_{ij}}\textbf{C}_{lk} \\ \\ &= \displaystyle\sum_{k=1}^D\sum_{l=1}^D(-\boldsymbol{\Sigma}^{-1}_{ki}\boldsymbol{\Sigma}^{-1}_{jl})\textbf{C}_{lk}&&...\text{(3)} \\ \\ &= -\displaystyle\sum_{k=1}^D\boldsymbol{\Sigma}^{-1}_{ki}(\boldsymbol{\Sigma}^{-1}\textbf{C})_{jk}&&...\text{行列の積を考えると、行列の積の成分を表しているため} \\ \\ &= -\displaystyle\sum_{k=1}^D(\boldsymbol{\Sigma}^{-1}\textbf{C})_{jk}\boldsymbol{\Sigma}^{-1}_{ki} \\ \\ &= -(\boldsymbol{\Sigma}^{-1}\textbf{C}\boldsymbol{\Sigma}^{-1})_{ji} \\ \\ &= -(\boldsymbol{\Sigma}^{-1}\textbf{C}\boldsymbol{\Sigma}^{-1})^{\text{T}}_{ij} \\ \\ \Rightarrow \frac{\partial}{\partial\boldsymbol{\Sigma}}\text{Tr}(\boldsymbol{\Sigma}^{-1}\textbf{C}) &= -(\boldsymbol{\Sigma}^{-1}\textbf{C}\boldsymbol{\Sigma}^{-1})^{\text{T}} \\ \\ \end{align*} と導出できる。
(3)について、初めに \begin{align*} \textbf{A}\textbf{A}^{-1}&=\textbf{I} \Leftrightarrow \displaystyle\sum_{m=1}^DA_{im}A_{mj}^{-1}&=\delta_{ij} \end{align*} である。したがって、\(A_{kl}\)で微分すると右辺は\(0\)になることから、 \begin{align*} \frac{\partial}{\partial A_{kl}}\displaystyle\sum_{m=1}^DA_{im}A_{mj}^{-1} &= \displaystyle\sum_{m=1}^D\frac{\partial A_{im}}{\partial A_{kl}}A_{mj}^{-1}+\displaystyle\sum_{m=1}^DA_{im}\frac{\partial A_{mj}^{-1}}{\partial A_{kl}} \\ \\ &= \displaystyle\sum_{m=1}^D\delta_{ik}\delta_{ml}A_{mj}^{-1}+\displaystyle\sum_{m=1}^DA_{im}\frac{\partial A_{mj}^{-1}}{\partial A_{kl}}&&...\frac{\partial A_{im}}{\partial A_{kl}}=\begin{cases}1&(i=k \land m=l) \\0&(i\neq k \lor m\neq l)\end{cases}\text{として}\delta_{ik}\delta_{ml}\text{とした} \\ \\ &= \delta_{ik}\delta_{ll}A_{{\color{red}l}j}^{-1}+\displaystyle\sum_{m=1}^DA_{im}\frac{\partial A_{mj}^{-1}}{\partial A_{kl}}&&...m=l\text{の項のみ残るため}\\ \\ &= \delta_{ik}A_{lj}^{-1}+\displaystyle\sum_{m=1}^DA_{im}\frac{\partial A_{mj}^{-1}}{\partial A_{kl}}&\\ \\ &= 0 \end{align*} ここで、左から\(A_{ni}^{-1}\)を作用させ総和を取ると \begin{align*} \displaystyle\sum_{i=1}^DA_{ni}^{-1}\delta_{ik}A_{lj}^{-1}+\displaystyle\sum_{i=1}^DA_{ni}^{-1}\displaystyle\sum_{m=1}^DA_{im}\frac{\partial A_{mj}^{-1}}{\partial A_{kl}} &= A_{nk}^{-1}A_{lj}^{-1}+\displaystyle\sum_{i=1}^D\sum_{m=1}^DA_{ni}^{-1}A_{im}\frac{\partial A_{mj}^{-1}}{\partial A_{kl}}&&...i=k\text{の項のみ残るため} \\ \\ &= A_{nk}^{-1}A_{lj}^{-1}+\displaystyle\sum_{m=1}^D(A^{-1}A)_{nm}\frac{\partial A_{mj}^{-1}}{\partial A_{kl}}&&...\text{行列成分の表示であるため} \\ \\ &= A_{nk}^{-1}A_{lj}^{-1}+\displaystyle\sum_{m=1}^D\delta_{nm}\frac{\partial A_{mj}^{-1}}{\partial A_{kl}}&&...\text{逆行列との積であり、成分であるため} \\ \\ &= A_{nk}^{-1}A_{lj}^{-1}+\frac{\partial A_{nj}^{-1}}{\partial A_{kl}}&&...\text{クロネッカーのデルタより}m=n\text{の項のみ残る} \\ \\ &= 0 \\ \\ \Leftrightarrow \frac{\partial A_{nj}^{-1}}{\partial A_{kl}}&=-A_{nk}^{-1}A_{lj}^{-1} \end{align*} が得られる。
\begin{align*}
\frac{1}{N}\displaystyle\sum_{n=1}^N(\textbf{x}_n-\boldsymbol{\mu}_{\text{ML}})(\textbf{x}_n-\boldsymbol{\mu}_{\text{ML}})^{\text{T}}
&=
\frac{1}{N}\displaystyle\sum_{n=1}^N([\textbf{x}_n-\boldsymbol{\mu}]-[\boldsymbol{\mu}_{\text{ML}}-\boldsymbol{\mu}])([\textbf{x}_n-\boldsymbol{\mu}]-[\boldsymbol{\mu}_{\text{ML}}-\boldsymbol{\mu}])^{\text{T}} \\ \\
&=
\frac{1}{N}\displaystyle\sum_{n=1}^N\{(\textbf{x}_n-\boldsymbol{\mu})(\textbf{x}_n-\boldsymbol{\mu})^{\text{T}}-(\boldsymbol{\mu}_{\text{ML}}-\boldsymbol{\mu})(\textbf{x}_n-\boldsymbol{\mu})^{\text{T}}-(\textbf{x}_n-\boldsymbol{\mu})(\boldsymbol{\mu}_{\text{ML}}-\boldsymbol{\mu})^{\text{T}}+(\boldsymbol{\mu}_{\text{ML}}-\boldsymbol{\mu})(\boldsymbol{\mu}_{\text{ML}}-\boldsymbol{\mu})^{\text{T}}\} \\ \\
&=
\frac{1}{N}\displaystyle\sum_{n=1}^N\{(\textbf{x}_n-\boldsymbol{\mu})(\textbf{x}_n-\boldsymbol{\mu})^{\text{T}}\}-\frac{1}{N}\displaystyle\sum_{n=1}^N\left\{(\boldsymbol{\mu}_{\text{ML}}-\boldsymbol{\mu})(\textbf{x}_n-\boldsymbol{\mu})^{\text{T}}-(\textbf{x}_n-\boldsymbol{\mu})(\boldsymbol{\mu}_{\text{ML}}-\boldsymbol{\mu})^{\text{T}}\right\}+\frac{1}{N}N(\boldsymbol{\mu}_{\text{ML}}-\boldsymbol{\mu})(\boldsymbol{\mu}_{\text{ML}}-\boldsymbol{\mu})^{\text{T}} \\ \\
&=
\frac{1}{N}\displaystyle\sum_{n=1}^N\{(\textbf{x}_n-\boldsymbol{\mu})(\textbf{x}_n-\boldsymbol{\mu})^{\text{T}}\}-\frac{1}{N}\displaystyle\sum_{n=1}^N\left\{(\boldsymbol{\mu}_{\text{ML}}-\boldsymbol{\mu})(\boldsymbol{\mu}_{\text{ML}}-\boldsymbol{\mu})^{\text{T}}+(\boldsymbol{\mu}_{\text{ML}}-\boldsymbol{\mu})(\boldsymbol{\mu}_{\text{ML}}-\boldsymbol{\mu})^{\text{T}}\right\}+(\boldsymbol{\mu}_{\text{ML}}-\boldsymbol{\mu})(\boldsymbol{\mu}_{\text{ML}}-\boldsymbol{\mu})^{\text{T}}&&...\frac{1}{N}\displaystyle\sum_{n=1}^N\textbf{x}_n=\boldsymbol{\mu}_{\text{ML}}\text{を用いた。} \\ \\
&=
\frac{1}{N}\displaystyle\sum_{n=1}^N\{(\textbf{x}_n-\boldsymbol{\mu})(\textbf{x}_n-\boldsymbol{\mu})^{\text{T}}\}-\frac1N2N\left\{(\boldsymbol{\mu}_{\text{ML}}-\boldsymbol{\mu})(\boldsymbol{\mu}_{\text{ML}}-\boldsymbol{\mu})^{\text{T}}\right\}+(\boldsymbol{\mu}_{\text{ML}}-\boldsymbol{\mu})(\boldsymbol{\mu}_{\text{ML}}-\boldsymbol{\mu})^{\text{T}}& \\ \\
&=
\frac{1}{N}\displaystyle\sum_{n=1}^N\{(\textbf{x}_n-\boldsymbol{\mu})(\textbf{x}_n-\boldsymbol{\mu})^{\text{T}}\}-(\boldsymbol{\mu}_{\text{ML}}-\boldsymbol{\mu})(\boldsymbol{\mu}_{\text{ML}}-\boldsymbol{\mu})^{\text{T}} \\ \\
\end{align*}
と式変形できる。一般的に\(\textbf{x}_n-\boldsymbol{\mu}\)は平均\(\boldsymbol{0}\)で分散は元の\(\textbf{x}_n\)と同じになる。二項目は
\begin{align*}
\mathbb{E}\left[\frac{1}{N}\displaystyle\sum_{n=1}^N(\textbf{x}_n-\boldsymbol{\mu}_{\text{ML}})(\textbf{x}_n-\boldsymbol{\mu}_{\text{ML}})^{\text{T}}\right]
&=
\mathbb{E}\left[\frac{1}{N}\displaystyle\sum_{n=1}^N\{(\textbf{x}_n-\boldsymbol{\mu})(\textbf{x}_n-\boldsymbol{\mu})^{\text{T}}\}-(\boldsymbol{\mu}_{\text{ML}}-\boldsymbol{\mu})(\boldsymbol{\mu}_{\text{ML}}-\boldsymbol{\mu})^{\text{T}}\right] \\ \\
&=
\frac{1}{N}\displaystyle\sum_{n=1}^N\mathbb{E}\left[\{(\textbf{x}_n-\boldsymbol{\mu})(\textbf{x}_n-\boldsymbol{\mu})^{\text{T}}\}\right]-\mathbb{E}\left[(\boldsymbol{\mu}_{\text{ML}}-\boldsymbol{\mu})(\boldsymbol{\mu}_{\text{ML}}-\boldsymbol{\mu})^{\text{T}}\right] \\ \\
&=
\frac{1}{N}\displaystyle\sum_{n=1}^N\boldsymbol{\Sigma}-\mathbb{E}\left[\left(\frac{\textbf{x}_1+\textbf{x}_2+\ldots+\textbf{x}_N}{N}-\frac{N\boldsymbol{\mu}}{N}\right)\left(\frac{\textbf{x}_1+\textbf{x}_2+\ldots+\textbf{x}_N}{N}-\frac{N\boldsymbol{\mu}}{N}\right)^{\text{T}}\right] \\ \\
&=
\boldsymbol{\Sigma}-\mathbb{E}\left[\frac{1}{N}\left(\displaystyle\sum_{n=1}^N(x_n-\boldsymbol{\mu})\right)\frac{1}{N}\left(\displaystyle\sum_{m=1}^N(x_m-\boldsymbol{\mu})\right)^{\text{T}}\right] \\ \\
&=
\boldsymbol{\Sigma}-\frac{1}{N^2}\mathbb{E}\left[\left(\displaystyle\sum_{n=1}^N(x_n-\boldsymbol{\mu})\right)\left(\displaystyle\sum_{m=1}^N(x_m-\boldsymbol{\mu})\right)^{\text{T}}\right] \\ \\
&=
\boldsymbol{\Sigma}-\frac{1}{N^2}\mathbb{E}\left[\displaystyle\sum_{n=1}^N(x_n-\boldsymbol{\mu})(x_n-\boldsymbol{\mu})^{\text{T}}+\displaystyle\sum_{n=1,m=1,n\neq m}^N(x_n-\boldsymbol{\mu})(x_m-\boldsymbol{\mu})^{\text{T}}\right]&&...n=m,n\neq m\text{の項に分けられるため} \\ \\
&=
\boldsymbol{\Sigma}-\frac{1}{N^2}\left[\displaystyle\sum_{n=1}^N\boldsymbol{\Sigma}+\displaystyle\sum_{n=1,m=1,n\neq m}^N\boldsymbol{0}\right]&&...\textbf{x}-\boldsymbol{\mu}\text{の期待値は}0\text{になるため} \\ \\
&=
\boldsymbol{\Sigma}-\frac{1}{N^2}N\boldsymbol{\Sigma} \\ \\
&=
\frac{N-1}{N}\boldsymbol{\Sigma}
\end{align*}
と導出できる。
モーメント推定量を考えると、
\begin{align*}
\frac{1}{N}\displaystyle\sum_{n=1}^Nf(x_n)
&=
\mathbb{E}[f(x)]
\end{align*}
と式変形できることから式(2.134)の式変形ができる。
\begin{align*}
-\frac{\partial}{\partial\mu_{\text{ML}}}\ln p(x|\mu_{\text{ML}},\sigma^2)
&=
-\frac{\partial}{\partial\mu_{\text{ML}}}\ln\left[\frac{1}{\sqrt{2\pi\sigma^2}}\exp\left\{-\frac{(x-\mu_{\text{ML}})^2}{2\sigma^2}\right\}\right] \\ \\
&=
-\frac{\partial}{\partial\mu_{\text{ML}}}\left[\ln\frac{1}{\sqrt{2\pi\sigma^2}}-\frac{(x-\mu_{\text{ML}})^2}{2\sigma^2}\right] \\ \\
&=
-\frac{x-\mu_{\text{ML}}}{\sigma^2} \\ \\
\end{align*}
と導出できる。
式(2.139)を用いて式変形する。
\begin{align*}
p(\mu|\textbf{x})
&\propto
p(\textbf{x}|\mu)p(\mu)&&...\text{式(1.43)より} \\ \\
&=
\frac{1}{(2\pi\sigma^2)^{N/2}}\exp\left\{-\frac{1}{2\sigma^2}\displaystyle\sum_{n=1}^N(x_n-\mu)^2\right\}\frac{1}{(2\pi\sigma_0^2)}\exp\left\{-\frac{(\mu-\mu_0)^2}{2\sigma_0^2}\right\} \\ \\
&=
\frac{1}{(2\pi\sigma^2)^{N/2}(2\pi\sigma_0^2)^{1/2}}\exp\left\{-\frac{1}{2\sigma^2}\displaystyle\sum_{n=1}^N(x_n-\mu)^2-\frac{(\mu-\mu_0)^2}{2\sigma_0^2}\right\} \\ \\
&=
\frac{1}{(2\pi\sigma^2)^{N/2}(2\pi\sigma_0^2)^{1/2}}\exp\left\{-\frac{N}{2\sigma^2}\mu^2+\frac{1}{2\sigma^2}\sum_{n=1}^N2x_n\mu-\frac{1}{2\sigma^2}\displaystyle\sum_{n=1}^Nx_n^2-\frac{\mu^2}{2\sigma_0^2}+\frac{2\mu_0}{2\sigma_0^2}\mu-\frac{\mu_0^2}{2\sigma_0^2}\right\} \\ \\
&=
\frac{1}{(2\pi\sigma^2)^{N/2}(2\pi\sigma_0^2)^{1/2}}\exp\left\{-\frac{N\sigma_0^2+\sigma^2}{2\sigma^2\sigma_0^2}\mu^2+\frac{2}{2\sigma^2\sigma_0^2}\left(\sum_{n=1}^Nx_n\sigma_0^2+\mu_0\sigma^2\right)\mu-\frac{1}{2\sigma^2}\displaystyle\sum_{n=1}^Nx_n^2-\frac{\mu_0^2}{2\sigma_0^2}\right\} \\ \\
&=
\frac{1}{(2\pi\sigma^2)^{N/2}(2\pi\sigma_0^2)^{1/2}}\exp\left\{-\frac{1}{2\sigma_N^2}\mu^2+2\frac{N\sigma_0^2+\sigma^2}{2\sigma^2\sigma_0^2}\frac{1}{N\sigma_0^2+\sigma^2}\left(N\mu_{\text{ML}}\sigma_0^2+\mu_0\sigma^2\right)\mu-\frac{1}{2\sigma^2}\displaystyle\sum_{n=1}^Nx_n^2-\frac{\mu_0^2}{2\sigma_0^2}\right\}&&...\sigma_N^2=\frac{\sigma^2\sigma_0^2}{N\sigma_0^2+\sigma^2},\mu_{\text{ML}}=\frac{1}{N}\sum_{n=1}^Nx_n \\ \\
&=
\frac{1}{(2\pi\sigma^2)^{N/2}(2\pi\sigma_0^2)^{1/2}}\exp\left\{-\frac{1}{2\sigma_N^2}\mu^2+\frac{2}{2\sigma_N^2}\frac{N\mu_{\text{ML}}\sigma_0^2+\mu_0\sigma^2}{N\sigma_0^2+\sigma^2}\mu-\frac{1}{2\sigma^2}\displaystyle\sum_{n=1}^Nx_n^2-\frac{\mu_0^2}{2\sigma_0^2}\right\}&\\ \\
&=
\frac{1}{(2\pi\sigma^2)^{N/2}(2\pi\sigma_0^2)^{1/2}}\exp\left\{-\frac{1}{2\sigma_N^2}\left(\mu-\frac{N\mu_{\text{ML}}\sigma_0^2+\mu_0\sigma^2}{N\sigma_0^2+\sigma^2}\right)^2+\frac{1}{2\sigma_N^2}\left(\frac{N\mu_{\text{ML}}\sigma_0^2+\mu_0\sigma^2}{N\sigma_0^2+\sigma^2}\right)^2-\frac{1}{2\sigma^2}\displaystyle\sum_{n=1}^Nx_n^2-\frac{\mu_0^2}{2\sigma_0^2}\right\}&\\ \\
\end{align*}
と式変形できる。このガウス分布は平均が
\begin{align*}
\mu_N&=\frac{N\mu_{\text{ML}}\sigma_0^2+\mu_0\sigma^2}{N\sigma_0^2+\sigma^2} \\ \\
&=
\frac{\mu_0\sigma^2}{N\sigma_0^2+\sigma^2}+\frac{N\mu_{\text{ML}}\sigma_0^2}{N\sigma_0^2+\sigma^2} \\ \\
\end{align*}
となり、分散の逆数は
\begin{align*}
\frac{1}{\sigma_N^2}
&=
\frac{N\sigma_0^2+\sigma^2}{\sigma^2\sigma_0^2} \\ \\
&=
\frac{\sigma^2}{\sigma^2\sigma_0^2}+\frac{N\sigma_0^2}{\sigma^2\sigma_0^2} \\ \\
&=
\frac{1}{\sigma_0^2}+\frac{N}{\sigma^2} \\ \\
\end{align*}
と導出できる。
式(2.139)を用いて式変形する。
\begin{align*}
p(\mu|\textbf{x})
&\propto
p(\textbf{x}|\mu)p(\mu)& \\ \\
&=
\displaystyle\prod_{n=1}^Np(x_n|\mu)\cdot p(\mu) \\ \\
&=
\displaystyle\prod_{n=1}^{N-1}p(x_n|\mu)\cdot p(x_N|\mu) p(\mu) \\ \\
&=
\left[p(\mu)\displaystyle\prod_{n=1}^{N-1}p(x_n|\mu)\right] p(x_N|\mu) \\ \\
\end{align*}
と導出できる。
統計学実践ワークブックの行間埋め第六章のガンマ分布の項目等参考。
\begin{align*}
p(x|\mu,a,b)
&=
\int_0^{\infty}p(x|\mu,\tau)p(\tau|a,b)\text{d}\tau \\ \\
&=
\int_0^{\infty}\mathcal{N}(x|\mu,\tau^{-1})\text{Gam}(\tau|a,b)\text{d}\tau \\ \\
&=
\int_0^{\infty}\frac{(\tau)^{1/2}}{(2\pi)^{1/2}}\exp\left\{-\frac{\tau(x-\mu)^2}{2}\right\}\cdot \frac{1}{\Gamma(a)}b^{a}\tau^{a-1}\exp\left\{-b\tau\right\}\text{d}\tau&&...\text{式(2.42)(2.146)より} \\ \\
&=
\frac{b^{a}}{(2\pi)^{1/2}\Gamma(a)}\int_0^{\infty}\tau^{a+1/2-1}\exp\left\{-\left[\frac{(x-\mu)^2}{2}+b\right]\tau\right\}\text{d}\tau&\\ \\
&=
\frac{b^{a}}{(2\pi)^{1/2}\Gamma(a)}\Gamma\left(a+\frac12\right)\left[\frac{(x-\mu)^2}{2}+b\right]^{-(a+1/2)}&&...\text{(1)}\\ \\
\end{align*}
と導出できる。
式(2.146)より
\begin{align*}
\int_0^{\infty}\text{Gam}(\tau|a,b)\text{d}\tau&=1 \\ \\
\Leftrightarrow
\int_0^{\infty}\frac{1}{\Gamma(a)}b^a\tau^{a-1}\exp\left\{-b\tau\right\}\text{d}\tau&=1 \\ \\
\Leftrightarrow
\int_0^{\infty}\tau^{a-1}\exp\left\{-b\tau\right\}\text{d}\tau&=b^{-a}\Gamma(a) \\ \\
\end{align*}
となることから、定数\(a,b\)をそれぞれ代入した。
式(2.161)の積分を実施する。
\begin{align*}
\text{St}(\textbf{x}|\boldsymbol{\mu},\boldsymbol{\Lambda},\nu)
&=
\int_0^{\infty}\mathcal{N}(\textbf{x}|\boldsymbol{\mu},(\eta\boldsymbol{\Lambda})^{-1})\text{Gam}(\eta|\nu/2,\nu/2)\text{d}\eta \\ \\
&=
\int_0^{\infty}\frac{1}{(2\pi)^{D/2}}|\eta\boldsymbol{\Lambda}|^{1/2}\exp\left\{-\frac{1}{2}(\textbf{x}-\boldsymbol{\mu})^{\text{T}}\eta\boldsymbol{\Lambda}(\textbf{x}-\boldsymbol{\mu})\right\}\frac{1}{\Gamma\left(\frac{\nu}{2}\right)}\left(\frac{\nu}{2}\right)^{\frac{\nu}{2}}\eta^{\frac{\nu}{2}-1}\exp\left\{-\frac{\nu}{2}\eta\right\}\text{d}\eta \\ \\
&=
\frac{1}{(2\pi)^{D/2}}|\boldsymbol{\Lambda}|^{1/2}\frac{1}{\Gamma\left(\frac{\nu}{2}\right)}\left(\frac{\nu}{2}\right)^{\frac{\nu}{2}}\int_0^{\infty}\eta^{\frac{\nu}{2}+\frac{D}{2}-1}\exp\left\{-\left[\frac{1}{2}(\textbf{x}-\boldsymbol{\mu})^{\text{T}}\boldsymbol{\Lambda}(\textbf{x}-\boldsymbol{\mu})+\frac{\nu}{2}\right]\eta\right\}\text{d}\eta&&...|\eta\boldsymbol{\Lambda}|^{1/2}=\eta^{D/2}|\boldsymbol{\Lambda}|^{1/2}(1) \\ \\
&=
\frac{1}{(2\pi)^{D/2}}|\boldsymbol{\Lambda}|^{1/2}\frac{1}{\Gamma\left(\frac{\nu}{2}\right)}\left(\frac{\nu}{2}\right)^{\frac{\nu}{2}}\Gamma\left(\frac{\nu}{2}+\frac{D}{2}\right)\left[\frac{1}{2}(\textbf{x}-\boldsymbol{\mu})^{\text{T}}\boldsymbol{\Lambda}(\textbf{x}-\boldsymbol{\mu})+\frac{\nu}{2}\right]^{-(\frac{\nu}{2}+\frac{D}{2})} \\ \\
&=
\frac{1}{2^{D/2}\pi^{D/2}}|\boldsymbol{\Lambda}|^{1/2}\frac{\Gamma\left(\frac{\nu}{2}+\frac{D}{2}\right)}{\Gamma\left(\frac{\nu}{2}\right)}\frac{\nu^{\frac{\nu}{2}}}{2^{\frac{\nu}{2}}}\left(\frac{\nu}{2}\right)^{-\frac{\nu}{2}-\frac{D}{2}}\left[\frac{(\textbf{x}-\boldsymbol{\mu})^{\text{T}}\boldsymbol{\Lambda}(\textbf{x}-\boldsymbol{\mu})}{\nu}+1\right]^{-(\frac{\nu}{2}+\frac{D}{2})} \\ \\
&=
\frac{1}{(\pi\nu)^{D/2}}|\boldsymbol{\Lambda}|^{1/2}\frac{\Gamma\left(\frac{\nu}{2}+\frac{D}{2}\right)}{\Gamma\left(\frac{\nu}{2}\right)}\left[\frac{\Delta^2}{\nu}+1\right]^{-(\frac{\nu}{2}+\frac{D}{2})}&&...\text{式(2.163)より} \\ \\
\end{align*}
と導出できる。
(1)について、行列式の性質より。こちらの解説など参考。
(1)について、行列式の性質より。こちらの解説など参考。
式(2.161)を用いる。
\begin{align*}
\mathbb{E}\left[\textbf{x}\right]
&=
\int \textbf{x} \text{St}(\textbf{x}|\boldsymbol{\mu},\boldsymbol{\Lambda},\nu) \text{d}\textbf{x} \\ \\
&=
\int \textbf{x} \int_0^{\infty}\mathcal{N}(\textbf{x}|\boldsymbol{\mu},(\eta\boldsymbol{\Lambda})^{-1})\text{Gam}(\eta|\nu/2,\nu/2)\text{d}\eta \text{d}\textbf{x} \\ \\
&=
\int_0^{\infty}\int \textbf{x} \mathcal{N}(\textbf{x}|\boldsymbol{\mu},(\eta\boldsymbol{\Lambda})^{-1})\text{Gam}(\eta|\nu/2,\nu/2) \text{d}\textbf{x}\text{d}\eta&&...\text{積分の順番を入れ替えた} \\ \\
&=
\int_0^{\infty}\int \textbf{x} \mathcal{N}(\textbf{x}|\boldsymbol{\mu},(\eta\boldsymbol{\Lambda})^{-1})\text{d}\textbf{x}\text{Gam}(\eta|\nu/2,\nu/2) \text{d}\eta& \\ \\
&=
\int_0^{\infty}\boldsymbol{\mu}\text{Gam}(\eta|\nu/2,\nu/2) \text{d}\eta&&...\text{式(2.59)と同様の計算になるため} \\ \\
&=
\boldsymbol{\mu}\int_0^{\infty}\text{Gam}(\eta|\nu/2,\nu/2) \text{d}\eta& \\ \\
&=
\boldsymbol{\mu}&&...\text{確率密度の積分になるため} \\ \\
\end{align*}
と導出できる。同様にして
\begin{align*}
\mathbb{E}\left[(\textbf{x}-\boldsymbol{\mu})(\textbf{x}-\boldsymbol{\mu})^{\text{T}}\right]
&=
\int (\textbf{x}-\boldsymbol{\mu})(\textbf{x}-\boldsymbol{\mu})^{\text{T}} \text{St}(\textbf{x}|\boldsymbol{\mu},\boldsymbol{\Lambda},\nu) \text{d}\textbf{x} \\ \\
&=
\int (\textbf{x}-\boldsymbol{\mu})(\textbf{x}-\boldsymbol{\mu})^{\text{T}} \int_0^{\infty}\mathcal{N}(\textbf{x}|\boldsymbol{\mu},(\eta\boldsymbol{\Lambda})^{-1})\text{Gam}(\eta|\nu/2,\nu/2)\text{d}\eta \text{d}\textbf{x} \\ \\
&=
\int_0^{\infty}\int (\textbf{x}-\boldsymbol{\mu})(\textbf{x}-\boldsymbol{\mu})^{\text{T}} \mathcal{N}(\textbf{x}|\boldsymbol{\mu},(\eta\boldsymbol{\Lambda})^{-1})\text{Gam}(\eta|\nu/2,\nu/2) \text{d}\textbf{x}\text{d}\eta&&...\text{積分の順番を入れ替えた} \\ \\
&=
\int_0^{\infty}\int (\textbf{x}-\boldsymbol{\mu})(\textbf{x}-\boldsymbol{\mu})^{\text{T}} \mathcal{N}(\textbf{x}|\boldsymbol{\mu},(\eta\boldsymbol{\Lambda})^{-1})\text{d}\textbf{x}\text{Gam}(\eta|\nu/2,\nu/2) \text{d}\eta& \\ \\
&=
\int_0^{\infty}(\eta\boldsymbol{\Lambda})^{-1}\text{Gam}(\eta|\nu/2,\nu/2) \text{d}\eta&&...\text{式(2.62)と同様の計算になるため} \\ \\
&=
\boldsymbol{\Lambda}^{-1}\int_0^{\infty}\eta^{-1}\frac{1}{\Gamma(\nu/2)}\left(\frac{\nu}{2}\right)^{\nu/2}\eta^{\frac{\nu}{2}-1}\exp\left\{-\frac{\nu}{2}\eta\right\} \text{d}\eta&&...\text{式(2.146)} \\ \\
&=
\boldsymbol{\Lambda}^{-1}\int_0^{\infty}\frac{1}{\Gamma(\nu/2)}\left(\frac{\nu}{2}\right)^{\nu/2}\eta^{\frac{\nu}{2}-1-1}\exp\left\{-\frac{\nu}{2}\eta\right\} \text{d}\eta& \\ \\
&=
\boldsymbol{\Lambda}^{-1} \frac{1}{\Gamma(\nu/2)}\left(\frac{\nu}{2}\right)^{\nu/2} \Gamma(\nu/2-1)\left(\frac{\nu}{2}\right)^{-(\nu/2-1)}&&...(1) \\ \\
&=
\boldsymbol{\Lambda}^{-1} \frac{\Gamma(\nu/2-1)}{(\nu/2-1)\Gamma(\nu/2-1)}\left(\frac{\nu}{2}\right)&&...a\Gamma(a)=\Gamma(a+1)\text{を用いた} \\ \\
&=
\boldsymbol{\Lambda}^{-1} \frac{\nu}{\nu-2}
\end{align*}
と導出できる。
(1)では「式(2.158)の導出」と同様の手法を用いた。
(1)では「式(2.158)の導出」と同様の手法を用いた。
括弧の中身を考えると
\begin{align*}
(r\cos\theta-r_0\cos\theta_0)^2+(r\sin\theta-r_0\sin\theta_0)^2
&=
r^2\cos^2\theta-2rr_0\cos\theta\cos\theta_0+r_0^2\cos\theta_0^2+r^2\sin^2\theta-2rr_0\sin\theta\sin\theta_0+r_0^2\sin\theta_0^2 \\ \\
&=
r^2(\cos^2\theta+\sin^2\theta)-2rr_0(\cos\theta\cos\theta_0+\sin\theta\sin\theta_0)+r_0^2(\cos\theta_0^2+\sin\theta_0^2) \\ \\
&=
r^2-2rr_0\cos(\theta-\theta_0)+r_0^2&&...\text{三角関数の性質より} \\ \\
&=
1+r_0^2-2r_0\cos(\theta-\theta_0)&&...r=1\text{より} \\ \\
\end{align*}
と導出できる。
式(2.179)を用いると
\begin{align*}
\ln p(\mathcal{D}|\theta_0,m)
&=
\ln\displaystyle\prod_{n=1}^Np(\theta_n|\theta_0,m) \\ \\
&=
\ln\displaystyle\prod_{n=1}^N\frac{1}{2\pi I_0(m)}\exp\left\{m\cos(\theta_n-\theta_0)\right\} \\ \\
&=
\displaystyle\sum_{n=1}^N\ln\left[\frac{1}{2\pi I_0(m)}\exp\left\{m\cos(\theta_n-\theta_0)\right\}\right] \\ \\
&=
\displaystyle\sum_{n=1}^N\left[-\ln(2\pi)-\ln(I_0(m))+m\cos(\theta_n-\theta_0)\right] \\ \\
&=
-N\ln(2\pi)-N\ln(I_0(m))+m \displaystyle\sum_{n=1}^N\cos(\theta_n-\theta_0) \\ \\
\end{align*}
と導出できる。
式(2.182)を用いると
\begin{align*}
\displaystyle\sum_{n=1}^N\sin(\theta_n-\theta_0)
&=
\displaystyle\sum_{n=1}^N\left\{ \sin\theta_n\cos\theta_0 -\cos\theta_n\sin\theta_0\right\} \\ \\
&=
0 \\ \\
\Leftrightarrow
\displaystyle\sum_{n=1}^N\cos\theta_n\sin\theta_0&=\displaystyle\sum_{n=1}^N \sin\theta_n\cos\theta_0 \\ \\
\Leftrightarrow
\displaystyle\sum_{n=1}^N\cos\theta_n\tan\theta_0&=\displaystyle\sum_{n=1}^N \sin\theta_n \\ \\
\Leftrightarrow
\tan\theta_0&=\frac{\displaystyle\sum_{n=1}^N \sin\theta_n}{\displaystyle\sum_{n=1}^N\cos\theta_n} \\ \\
\Leftrightarrow
\theta_0&=\tan^{-1}\frac{\displaystyle\sum_{n=1}^N \sin\theta_n}{\displaystyle\sum_{n=1}^N\cos\theta_n} \\ \\
\end{align*}
と導出できる。
式(2.181)を用いる。
\begin{align*}
\frac{\partial}{\partial m}\ln p(\mathcal{D}|\theta_0,m)
&=
\frac{\partial}{\partial m}\ln\left[-N\ln(2\pi)-N\ln(I_0(m))+m \displaystyle\sum_{n=1}^N\cos(\theta_n-\theta_0)\right] \\ \\
&=
-0-N\frac{I_0^{\prime}(m)}{I_0(m)}+ \displaystyle\sum_{n=1}^N\cos(\theta_n-\theta_0) \\ \\
&=
-NA(m)+ \displaystyle\sum_{n=1}^N\cos(\theta_n-\theta_0)&&...\text{式(2.186)}\\ \\
&\Rightarrow
-NA(m_{\text{ML}})+ \displaystyle\sum_{n=1}^N\cos(\theta_n-\theta_0^{\text{ML}})
=
0 \\ \\
&\Leftrightarrow
A(m_{\text{ML}})=\frac{1}{N}\displaystyle\sum_{n=1}^N\cos(\theta_n-\theta_0^{\text{ML}})
\end{align*}
と導出できる。
\begin{align*}
p(k|\textbf{x})
&=
\frac{p(\textbf{x}|k)p(k)}{ p(\textbf{x})}&&...\text{式(1.43)より} \\ \\
&=
\frac{p(\textbf{x}|k)p(k)}{\sum_l p(\textbf{x}|l)p(l)}&&...\text{式(2.191)より} \\ \\
&=
\frac{p(\textbf{x}|k)\pi_k}{\sum_l p(\textbf{x}|l)\pi_l}&&...\text{式(2.191)上より} \\ \\
&=
\frac{\mathcal{N}(\textbf{x}|\boldsymbol{\mu}_k,\boldsymbol{\Sgima}_k)\pi_k}{\sum_l \mathcal{N}(\textbf{x}|\boldsymbol{\mu}_l,\boldsymbol{\Sgima}_l)\pi_l}&&...\text{式(2.191)上より} \\ \\
\end{align*}
と導出できる。
\begin{align*}
\ln p(\textbf{X}|\boldsymbol{\pi},\boldsymbol{\mu},\boldsymbol{\Sigma})
&=
\ln \displaystyle\prod_{n=1}^N p(\textbf{x}_n) \\ \\
&=
\displaystyle\sum_{n=1}^N \ln p(\textbf{x}_n) \\ \\
&=
\displaystyle\sum_{n=1}^N \ln \left[\displaystyle\sum_{k=1}^K\pi_k\mathcal{N}(\textbf{x}_n|\boldsymbol{\mu}_k,\boldsymbol{\Sigma}_k)\right]&&...\text{式(2.188)より}\\ \\
\end{align*}
と導出できる。