統計学の行間埋め 第3章
\(\S\)3.1 母集団と標本
- p.59上:全確率の公式を用いた式変形
- 式(3.1.7)の両辺の二乗の展開
繰り返し期待値の法則としてこちらなど参考。
式(3.1.7)の両辺をそれぞれ式変形する。
\begin{eqnarray}
\text{式(3.1.7)左辺}
&=&
E_{\theta}[(\delta_1(T)-\theta)^2] \\ \\
&=&
E_{\theta}[\delta_1(T)^2-2\delta_1(T)\theta-\theta^2] \\ \\
&=&
E_{\theta}[\delta_1(T)^2]-2E_{\theta}[\delta_1(T)]\theta-E_{\theta}[\theta^2] \\ \\
&=&
E_{\theta}[\delta_1(T)^2]-2E_{\theta}[\delta(X)]\theta-\theta^2&...&\text{p.59上:全確率の公式より} \\ \\
\text{式(3.1.7)右辺}
&=&
E_{\theta}[(\delta(X)-\theta)^2] \\ \\
&=&
E_{\theta}[\delta(X)^2]-2E_{\theta}[\delta(X)\theta]+E_{\theta}[\theta^2] \\ \\
&=&
E_{\theta}[\delta(X)^2]-2E_{\theta}[\delta(X)]\theta+\theta^2 \\ \\ \\
\therefore
E_{\theta}[\delta_1(T)^2]-2E_{\theta}[\delta(X)]\theta-\theta^2
&\leq&
E_{\theta}[\delta(X)^2]-2E_{\theta}[\delta(X)]\theta+\theta^2 \\ \\
\Leftrightarrow
E_{\theta}[\delta_1(T)^2]
&\leq&
E_{\theta}[\delta(X)^2]
\end{eqnarray}
と導出できる。
\(\S\)3.2 尤度と最尤推定
- p.61:\(\hat{\mu}_n^{\text{ML}}\)の導出
- p.61:\(\hat{v}_n^{\text{ML}}\)の導出
- p.61:\(v\)の代わりに\(v=\sigma^2\)を用いても\(\hat{v}_n^{\text{ML}}=(\hat{\sigma}_n^{\text{ML}})^2\)となること
密度関数\(f(x;\mu,v)\)の対数を\(\mu\)で微分して\(0\)とおく。
\begin{eqnarray}
\frac{\partial}{\partial \mu}\log f(x;\mu,v)
&=&
\frac{\partial}{\partial \mu}\log \frac{1}{(\sqrt{2\pi v})^{n}}\exp\left(-\frac{\sum_{i=1}^n(x_i-\mu)^2}{2v}\right) \\ \\
&=&
\frac{\partial}{\partial \mu}\left[\log \frac{1}{(\sqrt{2\pi v})^{n}}+\log\exp\left(-\frac{\sum_{i=1}^n(x_i-\mu)^2}{2v}\right)\right] \\ \\
&=&
\frac{\partial}{\partial \mu}\left[\underbrace{-\frac{n}{2}\log (2\pi v)}_{(1)}+\left(-\frac{\sum_{i=1}^n(x_i-\mu)^2}{2v}\right)\right] \\ \\
&=&
\underbrace{0}_{(1)}-\left(\frac{\sum_{i=1}^n-2(x_i-\mu)}{2v}\right)&...&\mu\text{が現れない項であるため} \\ \\
&=&
\frac{\sum_{i=1}^n(x_i-\mu)}{v} \\ \\
&=&
0 \\ \\
\end{eqnarray}
が得られる。この式を満たす\(\mu=\hat{\mu}_n^{\text{ML}}\)は
\begin{eqnarray}
&&\frac{\sum_{i=1}^n(x_i-\hat{\mu}_n^{\text{ML}})}{v}&=&0 \\ \\
&\Leftrightarrow&\hat{\mu}_n^{\text{ML}}&=&\frac{1}{n}\displaystyle\sum_{i=1}^n x_i=\overline{X}
\end{eqnarray}
と導出できる。
密度関数\(f(x;\mu,v)\)の対数を\(v\)で微分して\(0\)とおく。
\begin{eqnarray}
\frac{\partial}{\partial v}\log f(x;\mu,v)
&=&
\frac{\partial}{\partial v}\log \frac{1}{(\sqrt{2\pi v})^{n}}\exp\left(-\frac{\sum_{i=1}^n(x_i-\mu)^2}{2v}\right) \\ \\
&=&
\frac{\partial}{\partial v}\left[\log \frac{1}{(\sqrt{2\pi v})^{n}}+\log\exp\left(-\frac{\sum_{i=1}^n(x_i-\mu)^2}{2v}\right)\right] \\ \\
&=&
\frac{\partial}{\partial v}\left[-\frac{n}{2}\log (2\pi v)+\left(-\frac{\sum_{i=1}^n(x_i-\mu)^2}{2v}\right)\right] \\ \\
&=&
-\frac{n}{2}\frac{2\pi}{2\pi v}-\left(\frac{\sum_{i=1}^n-(x_i-\mu)^2}{2v^2}\right) \\ \\
&=&
-\frac{n}{2}\frac{1}{ v}+\left(\frac{\sum_{i=1}^n(x_i-\mu)^2}{2v^2}\right) \\ \\
&=&
0
\end{eqnarray}
が得られる。この式を満たす\(v=\hat{v}_n^{\text{ML}}\)は
\begin{eqnarray}
&&
-\frac{n}{2}\frac{1}{ \hat{v}_n^{\text{ML}}}-\left(\frac{\sum_{i=1}^n-(x_i-\mu)^2}{2(\hat{v}_n^{\text{ML}})^2}\right)
&=&
0 \\ \\
&\Leftrightarrow&
\hat{v}_n^{\text{ML}}&=&\frac{1}{n}\displaystyle\sum_{i=1}^n(x_i-\mu)^2 \\ \\
&&&=&
\frac{1}{n}\displaystyle\sum_{i=1}^n(x_i-\overline{x})^2&...&\text{p.61下部より} \\ \\
\end{eqnarray}
と導出できる。
密度関数\(f(x;\mu,v)\to g(x;\mu,\sigma)\)とすると
\begin{eqnarray}
g(x;\mu,\sigma)
&=&
\frac{1}{(\sqrt{2\pi \sigma^2})^{n}}\exp\left(-\frac{\sum_{i=1}^n(x_i-\mu)^2}{2\sigma^2}\right) \\ \\
&=&
\frac{1}{(\sqrt{2\pi}\sigma)^{n}}\exp\left(-\frac{\sum_{i=1}^n(x_i-\mu)^2}{2\sigma^2}\right) \\ \\
\end{eqnarray}
と書ける。この式の対数を\(\sigma\)で微分して\(0\)とおく。
\begin{eqnarray}
\frac{\partial}{\partial \sigma}\log g(x;\mu,\sigma)
&=&
\frac{\partial}{\partial \sigma}\log \frac{1}{(\sqrt{2\pi}\sigma)^{n}}\exp\left(-\frac{\sum_{i=1}^n(x_i-\mu)^2}{2\sigma^2}\right) \\ \\
&=&
\frac{\partial}{\partial \sigma}\left[\log \frac{1}{(\sqrt{2\pi}\sigma)^{n}}+\log\exp\left(-\frac{\sum_{i=1}^n(x_i-\mu)^2}{2\sigma^2}\right)\right] \\ \\
&=&
\frac{\partial}{\partial \sigma}\left[-\frac{n}{2}\log (2\pi)-n\log \sigma+\left(-\frac{\sum_{i=1}^n(x_i-\mu)^2}{2\sigma^2}\right)\right] \\ \\
&=&
0-n\frac{1}{\sigma}-\left(\frac{\sum_{i=1}^n-2(x_i-\mu)^2}{2\sigma^3}\right) \\ \\
&=&
-n\frac{1}{\sigma}+\left(\frac{\sum_{i=1}^n(x_i-\mu)^2}{\sigma^3}\right) \\ \\
&=&
0
\end{eqnarray}
が得られる。この式を満たす\(\sigma=\hat{\sigma}_n^{\text{ML}}\)は
\begin{eqnarray}
&&
-n\frac{1}{ \hat{\sigma}_n^{\text{ML}}}+\left(\frac{\sum_{i=1}^n(x_i-\mu)^2}{(\hat{\sigma}_n^{\text{ML}})^3}\right)
&=&
0 \\ \\
&\Leftrightarrow&
(\hat{\sigma}_n^{\text{ML}})^2&=&\frac{1}{n}\displaystyle\sum_{i=1}^n(x_i-\mu)^2 \\ \\
&&&=&
\frac{1}{n}\displaystyle\sum_{i=1}^n(x_i-\overline{x})^2&...&\text{p.61下部より} \\ \\
\end{eqnarray}
と導出できる。従って、\(\hat{v}_n^{\text{ML}}=(\hat{\sigma}_n^{\text{ML}})^2\)となることがわかる。
\(\S\)3.3 各種推定法
- p.65:\(\hat{\beta}=\displaystyle\sum_i\sum_jX_iY_j/\sum_i\sum_jX_iX_j\)が不偏推定量になっていること
\begin{eqnarray}
E[\hat{\beta}]
&=&
E\left[\frac{\displaystyle\sum_i\sum_jX_iY_j}{\displaystyle\sum_i\sum_jX_iX_j}\right] \\ \\
&=&
E\left[\frac{\displaystyle\sum_i\sum_jX_i(\beta X_j+\varepsilon_j)}{\displaystyle\sum_i\sum_jX_iX_j}\right]&...&\text{p.65:上より} \\ \\
&=&
E\left[\frac{\beta\displaystyle\sum_i\sum_jX_i X_j}{\displaystyle\sum_i\sum_jX_iX_j}+\frac{\displaystyle\sum_i\sum_jX_i\varepsilon_j}{\displaystyle\sum_i\sum_jX_iX_j}\right]& \\ \\
&=&
\beta+\frac{\displaystyle\sum_i\sum_jX_iE\left[\varepsilon_j\right]}{\displaystyle\sum_i\sum_jX_iX_j}& \\ \\
&=&
\beta&...&\text{p.65中段より、p.65下のガウス-マルコフの定理に従うため}\varepsilon\sim N(0,\sigma^2)\ \\ \\
\end{eqnarray}
と導出できる。
\(\S\)3.4 点推定量の性質
- 式(3.4.1)の導出
- p.67:標本分散の導出
- p.69:標本平均は平均パラメータの有効推定量であること
- p.69:バイアス補正をした標本分散は一様最小分散不偏推定量であるが有効推定量ではないこと
\begin{eqnarray}
E_{\theta}[(\hat{\theta}-\theta)^2]
&=&
E_{\theta}[(\hat{\theta}-\theta+E_{\theta}[\hat{\theta}]-E_{\theta}[\hat{\theta}])^2] \\ \\
&=&
E_{\theta}[\{(E_{\theta}[\hat{\theta}]-\theta)+(\hat{\theta}-E_{\theta}[\hat{\theta}])\}^2] \\ \\
&=&
E_{\theta}[(E_{\theta}[\hat{\theta}]-\theta)^2+2(E_{\theta}[\hat{\theta}]-\theta)(\hat{\theta}-E_{\theta}[\hat{\theta}])+(\hat{\theta}-E_{\theta}[\hat{\theta}])^2] \\ \\
&=&
E_{\theta}[(E_{\theta}[\hat{\theta}]-\theta)^2]+E_{\theta}[2(E_{\theta}[\hat{\theta}]-\theta)(\hat{\theta}-E_{\theta}[\hat{\theta}])]+E_{\theta}[(\hat{\theta}-E_{\theta}[\hat{\theta}])^2] \\ \\
&=&
(E_{\theta}[\hat{\theta}]-\theta)^2+2(E_{\theta}[\hat{\theta}]-\theta)(E_{\theta}[\hat{\theta}]-E_{\theta}[\hat{\theta}])+E_{\theta}[(\hat{\theta}-E_{\theta}[\hat{\theta}])^2]&...&\theta,E_{\theta}[\hat{\theta}]\text{は定数であるため} \\ \\
&=&
(E_{\theta}[\hat{\theta}]-\theta)^2+0+E_{\theta}[(\hat{\theta}-E_{\theta}[\hat{\theta}])^2]& \\ \\
&=&
(E_{\theta}[\hat{\theta}]-\theta)^2+V[\hat{\theta}]&...&\text{p.17中段の分散の式より} \\ \\
\end{eqnarray}
と導出できる。
こちらの解説など参考。
標本平均は
\begin{eqnarray}
E[\frac{1}{n}\displaystyle\sum_{i=1}^nX_i]
&=&
\frac{1}{n}n\mu \\
&=&
\mu
\end{eqnarray}
より
\begin{eqnarray}
E[\frac{1}{n}\displaystyle\sum_{i=1}^nX_i]-\mu&=&0 \\ \\
\end{eqnarray}
となることから、バイアスが\(0\)である。この分散は
\begin{eqnarray}
V\left[\frac{1}{n}\displaystyle\sum_{i=1}^nX_i\right]
&=&
\frac{1}{n^2}V\left[\displaystyle\sum_{i=1}^nX_i\right] \\ \\
&=&
\frac{1}{n^2}\displaystyle\sum_{i=1}^nV\left[X_i\right] \\ \\
&=&
\frac{1}{n^2}\displaystyle\sum_{i=1}^n\sigma^2 \\ \\
&=&
\frac{1}{n^2}n\sigma^2 \\ \\
&=&
\frac{\sigma^2}{n}
&...&(1)
\end{eqnarray}
が得られる。
フィッシャー情報量は \begin{eqnarray} f(x;\mu,\sigma) &=& \displaystyle\prod_{i=1}^n\frac{1}{\sqrt{2\pi}\sigma}\exp\left(-\frac{(x_i-\mu)^2}{2\sigma^2}\right) \\ \\ &=& \frac{1}{(2\pi)^{n/2}\sigma^n}\exp\left(-\displaystyle\sum_{i=1}^n\frac{(x_i-\mu)^2}{2\sigma^2}\right) \\ \\ \\ (2) &=& \frac{\partial}{\partial \mu}\log f(x;\mu) \\ \\ &=& \frac{\partial}{\partial \mu}\log \frac{1}{(2\pi)^{n/2}\sigma^n}\exp\left(-\displaystyle\sum_{i=1}^n\frac{(x_i-\mu)^2}{2\sigma^2}\right) \\ \\ &=& \frac{\partial}{\partial \mu}\left\{-\frac{n}{2}\log(2\pi)-n\log\sigma-\displaystyle\sum_{i=1}^n\frac{(x_i-\mu)^2}{2\sigma^2}\right\} \\ \\ &=& \displaystyle\sum_{i=1}^n\frac{x_i-\mu}{\sigma^2} \\ \\ \therefore J_n(\sigma) &=& E_{\mu}\left[\left(\underbrace{\frac{\partial}{\partial \mu}\log f(x;\sigma)}_{(2)}\right)^2\right] \\ \\ &=& E_{\mu}\left[\left(\underbrace{\displaystyle\sum_{i=1}^n\frac{x_i-\mu}{\sigma^2}}_{(2)}\right)^2\right] \\ \\ &=& E_{\mu}\left[\displaystyle\sum_{i=1}^n\frac{(x_i-\mu)^2}{\sigma^4}+\sum_{i\neq j}\frac{(x_i-\mu)}{\sigma^2}\frac{(x_j-\mu)}{\sigma^2}\right]&\\ \\ &=& E_{\mu}\left[\displaystyle\sum_{i=1}^n\frac{(x_i-\mu)^2}{\sigma^4}+2\sum_{i=1}^n\sum_{j=1}^i\frac{(x_i-\mu)}{\sigma^2}\frac{(x_j-\mu)}{\sigma^2}\right]&\\ \\ &=& \frac{1}{\sigma^4}\left\{E_{\mu}\left[\displaystyle\sum_{i=1}^n(x_i-\mu)^2\right]+2E_{\mu}\left[\sum_{i=1}^n\sum_{j=1}^i(x_i-\mu)(x_j-\mu)\right]\right\}&\\ \\ &=& \frac{1}{\sigma^4}\left\{\displaystyle\sum_{i=1}^nE_{\mu}\left[(x_i-\mu)^2\right]+2\sum_{i=1}^n\sum_{j=1}^iE_{\mu}\left[(x_i-\mu)\right]E_{\mu}\left[(x_j-\mu)\right]\right\}&...&i,j\text{はそれぞれ独立であるため}\\ \\ &=& \frac{1}{\sigma^4}\left\{\displaystyle\sum_{i=1}^n\sigma^2+2\sum_{i=1}^n\sum_{j=1}^i0\right\}&\\ \\ &=& \frac{1}{\sigma^4}n\sigma^2&\\ \\ &=& \frac{n}{\sigma^2}&\\ \\ \end{eqnarray} が得られる。(1)と比較すると \begin{eqnarray} \frac{J_n(\sigma)^{-1}}{V[\hat{\mu}]} &=& \frac{\frac{\sigma^2}{n}}{\frac{\sigma^2}{n}} \\ \\ &=& 1\\ \\ \end{eqnarray} であることから、有効推定量である。
フィッシャー情報量は \begin{eqnarray} f(x;\mu,\sigma) &=& \displaystyle\prod_{i=1}^n\frac{1}{\sqrt{2\pi}\sigma}\exp\left(-\frac{(x_i-\mu)^2}{2\sigma^2}\right) \\ \\ &=& \frac{1}{(2\pi)^{n/2}\sigma^n}\exp\left(-\displaystyle\sum_{i=1}^n\frac{(x_i-\mu)^2}{2\sigma^2}\right) \\ \\ \\ (2) &=& \frac{\partial}{\partial \mu}\log f(x;\mu) \\ \\ &=& \frac{\partial}{\partial \mu}\log \frac{1}{(2\pi)^{n/2}\sigma^n}\exp\left(-\displaystyle\sum_{i=1}^n\frac{(x_i-\mu)^2}{2\sigma^2}\right) \\ \\ &=& \frac{\partial}{\partial \mu}\left\{-\frac{n}{2}\log(2\pi)-n\log\sigma-\displaystyle\sum_{i=1}^n\frac{(x_i-\mu)^2}{2\sigma^2}\right\} \\ \\ &=& \displaystyle\sum_{i=1}^n\frac{x_i-\mu}{\sigma^2} \\ \\ \therefore J_n(\sigma) &=& E_{\mu}\left[\left(\underbrace{\frac{\partial}{\partial \mu}\log f(x;\sigma)}_{(2)}\right)^2\right] \\ \\ &=& E_{\mu}\left[\left(\underbrace{\displaystyle\sum_{i=1}^n\frac{x_i-\mu}{\sigma^2}}_{(2)}\right)^2\right] \\ \\ &=& E_{\mu}\left[\displaystyle\sum_{i=1}^n\frac{(x_i-\mu)^2}{\sigma^4}+\sum_{i\neq j}\frac{(x_i-\mu)}{\sigma^2}\frac{(x_j-\mu)}{\sigma^2}\right]&\\ \\ &=& E_{\mu}\left[\displaystyle\sum_{i=1}^n\frac{(x_i-\mu)^2}{\sigma^4}+2\sum_{i=1}^n\sum_{j=1}^i\frac{(x_i-\mu)}{\sigma^2}\frac{(x_j-\mu)}{\sigma^2}\right]&\\ \\ &=& \frac{1}{\sigma^4}\left\{E_{\mu}\left[\displaystyle\sum_{i=1}^n(x_i-\mu)^2\right]+2E_{\mu}\left[\sum_{i=1}^n\sum_{j=1}^i(x_i-\mu)(x_j-\mu)\right]\right\}&\\ \\ &=& \frac{1}{\sigma^4}\left\{\displaystyle\sum_{i=1}^nE_{\mu}\left[(x_i-\mu)^2\right]+2\sum_{i=1}^n\sum_{j=1}^iE_{\mu}\left[(x_i-\mu)\right]E_{\mu}\left[(x_j-\mu)\right]\right\}&...&i,j\text{はそれぞれ独立であるため}\\ \\ &=& \frac{1}{\sigma^4}\left\{\displaystyle\sum_{i=1}^n\sigma^2+2\sum_{i=1}^n\sum_{j=1}^i0\right\}&\\ \\ &=& \frac{1}{\sigma^4}n\sigma^2&\\ \\ &=& \frac{n}{\sigma^2}&\\ \\ \end{eqnarray} が得られる。(1)と比較すると \begin{eqnarray} \frac{J_n(\sigma)^{-1}}{V[\hat{\mu}]} &=& \frac{\frac{\sigma^2}{n}}{\frac{\sigma^2}{n}} \\ \\ &=& 1\\ \\ \end{eqnarray} であることから、有効推定量である。
バイアス補正をした標本分散
\begin{eqnarray}
\frac{1}{n-1}\displaystyle\sum_{i=1}^n(X_i-\overline{X})^2
\end{eqnarray}
は、p.67下の式より、
\begin{eqnarray}
&&E[\frac{1}{n}\displaystyle\sum_{i=1}^n(X_i-\overline{X})^2]&=&\frac{n-1}{n}\sigma^2 \\ \\
&\Leftrightarrow&
\frac{n-1}{n}E[\frac{1}{n-1}\displaystyle\sum_{i=1}^n(X_i-\overline{X})^2]&=&\frac{n-1}{n}\frac{n-1}{n}\sigma^2 \\ \\
&\Leftrightarrow&
E[\frac{1}{n-1}\displaystyle\sum_{i=1}^n(X_i-\overline{X})^2]&=&\sigma^2 \\ \\
\end{eqnarray}
が得られ、
\begin{eqnarray}
E[\frac{1}{n-1}\displaystyle\sum_{i=1}^n(X_i-\overline{X})^2]-\sigma^2&=&0 \\ \\
\end{eqnarray}
となることから、バイアスが\(0\)であり、p.67より一様最小分散不偏推定量であることがわかる。この分散は
\begin{eqnarray}
V\left[\frac{1}{n-1}\displaystyle\sum_{i=1}^n(X_i-\overline{X})^2\right]
&=&
\frac{1}{(n-1)^2}V\left[\displaystyle\sum_{i=1}^n(X_i-\overline{X})^2\right] \\ \\
&=&
\frac{1}{(n-1)^2}V\left[\sigma^2\frac{1}{\sigma^2}\displaystyle\sum_{i=1}^n(X_i-\overline{X})^2\right] \\ \\
&=&
\frac{1}{(n-1)^2}\left(\sigma^2\right)^2V\left[\frac{1}{\sigma^2}\displaystyle\sum_{i=1}^n(X_i-\overline{X})^2\right] \\ \\
&=&
\frac{\sigma^4}{(n-1)^2}V\left[\underbrace{\frac{1}{\sigma^2}\displaystyle\sum_{i=1}^n(X_i-\overline{X})^2}_{(1)}\right] \\ \\
&=&
\frac{\sigma^4}{(n-1)^2}\underbrace{\frac{\frac{n-1}{2}}{(\frac{1}{2})^2}}_{(1)} \\ \\
&=&
\frac{2\sigma^4}{n-1}&...&(2)
\end{eqnarray}
が得られる。(1)ではp.47定理(2.3.3)より、分散の中身が自由度\(n-1\)の\(\chi^2\)分布になっていることを用いて、分散は式(2.2.7)において、定理(2.3.1)より\(\alpha=\frac{n-1}{2},\beta=\frac12\)を代入した。
フィッシャー情報量は \begin{eqnarray} f(x;\mu,\sigma) &=& \displaystyle\prod_{i=1}^n\frac{1}{\sqrt{2\pi}\sigma}\exp\left(-\frac{(x_i-\mu)^2}{2\sigma^2}\right) \\ \\ &=& \frac{1}{(2\pi)^{n/2}\sigma^n}\exp\left(-\displaystyle\sum_{i=1}^n\frac{(x_i-\mu)^2}{2\sigma^2}\right) \\ \\ \\ (3) &=& \frac{\partial}{\partial \sigma}\log f(x;\sigma) \\ \\ &=& \frac{\partial}{\partial \sigma}\log \frac{1}{(2\pi)^{n/2}\sigma^n}\exp\left(-\displaystyle\sum_{i=1}^n\frac{(x_i-\mu)^2}{2\sigma^2}\right) \\ \\ &=& \frac{\partial}{\partial \sigma}\left\{-\frac{n}{2}\log(2\pi)-n\log\sigma-\displaystyle\sum_{i=1}^n\frac{(x_i-\mu)^2}{2\sigma^2}\right\} \\ \\ &=& -\frac{n}{\sigma}+\displaystyle\sum_{i=1}^n\frac{(x_i-\mu)^2}{\sigma^3} \\ \\ \therefore J_n(\sigma) &=& E_{\sigma}\left[\left(\underbrace{\frac{\partial}{\partial \sigma}\log f(x;\sigma)}_{(3)}\right)^2\right] \\ \\ &=& E_{\sigma}\left[\left(\underbrace{-\frac{n}{\sigma}+\displaystyle\sum_{i=1}^n\frac{(x_i-\mu)^2}{\sigma^3}}_{(3)}\right)^2\right] \\ \\ &=& E_{\sigma}\left[\left(-\frac{n}{\sigma}+\displaystyle\sum_{i=1}^n\frac{(x_i-\mu)^2}{\sigma^3}\right)^2\right] \\ \\ &=& E_{\sigma}\left[\frac{n^2}{\sigma^2}-2\frac{n}{\sigma}\displaystyle\sum_{i=1}^n\frac{(x_i-\mu)^2}{\sigma^3}+\left(\displaystyle\sum_{i=1}^n\frac{(x_i-\mu)^2}{\sigma^3}\right)^2\right] \\ \\ &=& \frac{n^2}{\sigma^2}-2\frac{n}{\sigma}\cdot n\frac{\sigma^2}{\sigma^3}+E_{\sigma}\left[\left(\displaystyle\sum_{i=1}^n\frac{(x_i-\mu)^2}{\sigma^3}\right)^2\right]&...&E[(x-\mu)^2]=\sigma^2\text{より} \\ \\ &=& -\frac{n^2}{\sigma^2}+E_{\sigma}\left[\displaystyle\sum_{i=1}^n\frac{(x_i-\mu)^4}{\sigma^6}+\sum_{i\neq j}\frac{(x_i-\mu)^2}{\sigma^3}\frac{(x_j-\mu)^2}{\sigma^3}\right]&\\ \\ &=& -\frac{n^2}{\sigma^2}+E_{\sigma}\left[\displaystyle\sum_{i=1}^n\frac{(x_i-\mu)^4}{\sigma^6}+2\sum_{i=1}^n\sum_{j=1}^i\frac{(x_i-\mu)^2}{\sigma^3}\frac{(x_j-\mu)^2}{\sigma^3}\right]&\\ \\ &=& -\frac{n^2}{\sigma^2}+\frac{1}{\sigma^6}\left\{E_{\sigma}\left[\displaystyle\sum_{i=1}^n(x_i-\mu)^4\right]+2E_{\sigma}\left[\sum_{i=1}^n\sum_{j=1}^i(x_i-\mu)^2(x_j-\mu)^2\right]\right\}&\\ \\ &=& -\frac{n^2}{\sigma^2}+\frac{1}{\sigma^6}\left\{\displaystyle\sum_{i=1}^nE_{\sigma}\left[(x_i-\mu)^4\right]+2\sum_{i=1}^n\sum_{j=1}^iE_{\sigma}\left[(x_i-\mu)^2\right]E_{\sigma}\left[(x_j-\mu)^2\right]\right\}&...&i,j\text{はそれぞれ独立であるため}\\ \\ &=& -\frac{n^2}{\sigma^2}+\frac{1}{\sigma^6}\left\{\displaystyle\sum_{i=1}^n3\sigma^4+2\sum_{i=1}^n\sum_{j=1}^i\sigma^2\cdot\sigma^2\right\}&...&\text{正規分布の尖度が}3\text{であるため}\\ \\ &=& -\frac{n^2}{\sigma^2}+\frac{1}{\sigma^6}\left\{n3\sigma^4+2\frac{n(n-1)}{2}\sigma^4\right\}&\\ \\ &=& \frac{2n}{\sigma^4}&\\ \\ \end{eqnarray} が得られる。(2)と比較すると \begin{eqnarray} \frac{J_n(\sigma)^{-1}}{V[\hat{\sigma}]} &=& \frac{\frac{\sigma^4}{2n}}{\frac{2\sigma^4}{(n-1)}} \\ \\ &=& \frac{(n-1)}{4n}\lt 1\\ \\ \end{eqnarray} であることから、有効推定量ではないことがわかる。
フィッシャー情報量は \begin{eqnarray} f(x;\mu,\sigma) &=& \displaystyle\prod_{i=1}^n\frac{1}{\sqrt{2\pi}\sigma}\exp\left(-\frac{(x_i-\mu)^2}{2\sigma^2}\right) \\ \\ &=& \frac{1}{(2\pi)^{n/2}\sigma^n}\exp\left(-\displaystyle\sum_{i=1}^n\frac{(x_i-\mu)^2}{2\sigma^2}\right) \\ \\ \\ (3) &=& \frac{\partial}{\partial \sigma}\log f(x;\sigma) \\ \\ &=& \frac{\partial}{\partial \sigma}\log \frac{1}{(2\pi)^{n/2}\sigma^n}\exp\left(-\displaystyle\sum_{i=1}^n\frac{(x_i-\mu)^2}{2\sigma^2}\right) \\ \\ &=& \frac{\partial}{\partial \sigma}\left\{-\frac{n}{2}\log(2\pi)-n\log\sigma-\displaystyle\sum_{i=1}^n\frac{(x_i-\mu)^2}{2\sigma^2}\right\} \\ \\ &=& -\frac{n}{\sigma}+\displaystyle\sum_{i=1}^n\frac{(x_i-\mu)^2}{\sigma^3} \\ \\ \therefore J_n(\sigma) &=& E_{\sigma}\left[\left(\underbrace{\frac{\partial}{\partial \sigma}\log f(x;\sigma)}_{(3)}\right)^2\right] \\ \\ &=& E_{\sigma}\left[\left(\underbrace{-\frac{n}{\sigma}+\displaystyle\sum_{i=1}^n\frac{(x_i-\mu)^2}{\sigma^3}}_{(3)}\right)^2\right] \\ \\ &=& E_{\sigma}\left[\left(-\frac{n}{\sigma}+\displaystyle\sum_{i=1}^n\frac{(x_i-\mu)^2}{\sigma^3}\right)^2\right] \\ \\ &=& E_{\sigma}\left[\frac{n^2}{\sigma^2}-2\frac{n}{\sigma}\displaystyle\sum_{i=1}^n\frac{(x_i-\mu)^2}{\sigma^3}+\left(\displaystyle\sum_{i=1}^n\frac{(x_i-\mu)^2}{\sigma^3}\right)^2\right] \\ \\ &=& \frac{n^2}{\sigma^2}-2\frac{n}{\sigma}\cdot n\frac{\sigma^2}{\sigma^3}+E_{\sigma}\left[\left(\displaystyle\sum_{i=1}^n\frac{(x_i-\mu)^2}{\sigma^3}\right)^2\right]&...&E[(x-\mu)^2]=\sigma^2\text{より} \\ \\ &=& -\frac{n^2}{\sigma^2}+E_{\sigma}\left[\displaystyle\sum_{i=1}^n\frac{(x_i-\mu)^4}{\sigma^6}+\sum_{i\neq j}\frac{(x_i-\mu)^2}{\sigma^3}\frac{(x_j-\mu)^2}{\sigma^3}\right]&\\ \\ &=& -\frac{n^2}{\sigma^2}+E_{\sigma}\left[\displaystyle\sum_{i=1}^n\frac{(x_i-\mu)^4}{\sigma^6}+2\sum_{i=1}^n\sum_{j=1}^i\frac{(x_i-\mu)^2}{\sigma^3}\frac{(x_j-\mu)^2}{\sigma^3}\right]&\\ \\ &=& -\frac{n^2}{\sigma^2}+\frac{1}{\sigma^6}\left\{E_{\sigma}\left[\displaystyle\sum_{i=1}^n(x_i-\mu)^4\right]+2E_{\sigma}\left[\sum_{i=1}^n\sum_{j=1}^i(x_i-\mu)^2(x_j-\mu)^2\right]\right\}&\\ \\ &=& -\frac{n^2}{\sigma^2}+\frac{1}{\sigma^6}\left\{\displaystyle\sum_{i=1}^nE_{\sigma}\left[(x_i-\mu)^4\right]+2\sum_{i=1}^n\sum_{j=1}^iE_{\sigma}\left[(x_i-\mu)^2\right]E_{\sigma}\left[(x_j-\mu)^2\right]\right\}&...&i,j\text{はそれぞれ独立であるため}\\ \\ &=& -\frac{n^2}{\sigma^2}+\frac{1}{\sigma^6}\left\{\displaystyle\sum_{i=1}^n3\sigma^4+2\sum_{i=1}^n\sum_{j=1}^i\sigma^2\cdot\sigma^2\right\}&...&\text{正規分布の尖度が}3\text{であるため}\\ \\ &=& -\frac{n^2}{\sigma^2}+\frac{1}{\sigma^6}\left\{n3\sigma^4+2\frac{n(n-1)}{2}\sigma^4\right\}&\\ \\ &=& \frac{2n}{\sigma^4}&\\ \\ \end{eqnarray} が得られる。(2)と比較すると \begin{eqnarray} \frac{J_n(\sigma)^{-1}}{V[\hat{\sigma}]} &=& \frac{\frac{\sigma^4}{2n}}{\frac{2\sigma^4}{(n-1)}} \\ \\ &=& \frac{(n-1)}{4n}\lt 1\\ \\ \end{eqnarray} であることから、有効推定量ではないことがわかる。
\(\S\)3.5 情報量基準
- p.72下の対数尤度の導出
- p.74上:\(KL(f||g)\)の計算
多項式回帰の誤差項の確率密度関数は
\begin{eqnarray}
\frac{1}{\sqrt{2\pi}\sigma}\exp\left(-\frac{(y_i-f(x_i;a))^2}{2\sigma^2}\right)
\end{eqnarray}
と書けることを用いると
\begin{eqnarray}
f(y;\hat{a},\hat{\sigma})
&=&
\displaystyle\prod_{i=1}^n\frac{1}{\sqrt{2\pi}\hat{\sigma}}\exp\left(-\frac{(y_i-f(x_i;\hat{a}))^2}{2\hat{\sigma}^2}\right) \\ \\
&=&
\frac{1}{(2\pi)^{n/2}\hat{\sigma}^n}\exp\left(-\displaystyle\sum_{i=1}^n\frac{(y_i-f(x_i;\hat{a}))^2}{2\hat{\sigma}^2}\right) \\ \\ \\
\log f(y;\hat{a},\hat{\sigma})
&=&
\log\frac{1}{(2\pi)^{n/2}\hat{\sigma}^n}-\left(\displaystyle\sum_{i=1}^n\frac{(y_i-f(x_i;\hat{a}))^2}{2\hat{\sigma}^2}\right) \\ \\
&=&
-\frac{n}{2}\log(2\pi)-\log\hat{\sigma}^n-\left(\displaystyle\sum_{i=1}^n\frac{(y_i-f(x_i;\hat{a}))^2}{2\hat{\sigma}^2}\right) \\ \\
&=&
-\frac{n}{2}\log(2\pi)-n\log\hat{\sigma}-\frac{n}{2\hat{\sigma}^2}\left(\displaystyle\sum_{i=1}^n\frac{(y_i-f(x_i;\hat{a}))^2}{n}\right) \\ \\
&=&
-\frac{n}{2}\log(2\pi)-n\log(\hat{\sigma}^{2})^{\frac12}-\frac{n}{2\hat{\sigma}^2}\hat{\sigma}^2&...&\text{p.61:分散の最尤推定量より} \\ \\
&=&
-\frac{n}{2}\log(2\pi)-\frac{n}{2}\log\hat{\sigma}^2-\frac{n}{2} \\ \\
\end{eqnarray}
と導出できる。
イェンセンの不等式(連続値)を用いることではじめの不等式を示すことができる(参考)
\begin{eqnarray}
\int f(x)\left(-\log\frac{g(x)}{f(x)}\right)dx
&\geq&
\log\left(\int f(x)\frac{g(x)}{f(x)}dx\right) \\ \\
&=&
\log\left(\int g(x)dx\right) \\ \\
&=&
\log\left(1\right)&...&g(x)\text{は確率密度関数であるため全領域で積分すると}1\text{になる} \\ \\
&=&
0
\end{eqnarray}
と導出できる。
\(\S\)3.6 漸近的性質など
- p.76下:\(J_n(\theta)=V_{\theta}\left[\frac{\partial}{\partial \theta}\log f(X;\theta)\right]\)の導出
- 式(3.6.1)の導出
- p.78中段の式の導出
- p.78下段:\(\frac{1}{\sqrt{n}}\displaystyle\sum_{i=1}^n \frac{\partial}{\partial \theta}\log f(X_i;\theta)\to N(0,J_1(\theta))\)の導出
- p.78下段:\(\frac{1}{n}\displaystyle\sum_{i=1}^n \frac{\partial^2}{\partial \theta^2}\log f(X_i;\theta)\to -J_1(\theta)\)の導出
\begin{eqnarray}
E_{\theta}\left[\frac{\partial}{\partial \theta}\log f(X;\theta)\right]
&=&
E_{\theta}\left[V(\theta)\right]&...&\text{p.62下部} \\ \\
&=&
0&...&\text{式(3.2.1)}
\end{eqnarray}
であるから、式(3.4.3)より
\begin{eqnarray}
J_n(\theta)
&=&
E_{\theta}\left[\left(\frac{\partial}{\partial \theta}\log f(X;\theta)\right)^2\right] \\ \\
&=&
E_{\theta}\left[\left(\frac{\partial}{\partial \theta}\log f(X;\theta)\right)^2\right]-\underbrace{\left(E_{\theta}\left[\frac{\partial}{\partial \theta}\log f(X;\theta)\right]\right)^2}_{=0} \\ \\
&=&
V_{\theta}\left[\frac{\partial}{\partial \theta}\log f(X;\theta)\right] \\ \\
\end{eqnarray}
と導出できる。
\begin{eqnarray}
E_{\theta}\left[\left(\hat{\theta}(X)-\theta\right)\frac{\partial}{\partial \theta}\log f(X;\theta)\right]
&=&
E_{\theta}\left[\left(\hat{\theta}(X)-\theta\right)\left(\frac{\partial}{\partial \theta}\log f(X;\theta)-\underbrace{E_{\theta}\left[\frac{\partial}{\partial \theta}\log f(X;\theta)\right]}_{(1)=0}\right)\right]&...&(1)\text{式(3.2.1)より} \\ \\
&=&
E_{\theta}\left[\left(\hat{\theta}(X)-\theta-\underbrace{E_{\theta}\left[\hat{\theta}(X)-\theta\right]}_{(2)=0}\right)\left(\frac{\partial}{\partial \theta}\log f(X;\theta)-E_{\theta}\left[\frac{\partial}{\partial \theta}\log f(X;\theta)\right]\right)\right]&...&(2)\hat{\theta}(X)\text{は不偏推定量なので}E_{\theta}\left[\hat{\theta}(X)-\theta\right]=\theta-\theta=0 \\ \\
&=&
Cov_{\theta}\left[\left(\hat{\theta}(X)-\theta\right)\left(\frac{\partial}{\partial \theta}\log f(X;\theta)\right)\right]&...&\text{p.18:下部より} \\ \\
&\leq&
\sqrt{V_{\theta}[\hat{\theta}(X)-\theta]V_{\theta}\left[\frac{\partial}{\partial \theta}\log f(X;\theta)\right]}&...&\text{(3)} \\ \\
\end{eqnarray}
と導出できる。(3)ではコーシーシュワルツの不等式を用いた。参考
\(\log f(X_i;\theta)\)の\(\hat{\theta}\)周りのテイラー展開は
\begin{eqnarray}
\log f(X_i;\theta)
\sim
\log f(X_i;\hat{\theta})(\theta-\hat{\theta})^0+\frac{1}{1!}\left.\frac{\partial}{\partial \theta}\log f(X_i;\hat{\theta})\right|_{\theta=\hat{\theta}}(\theta-\hat{\theta})^1+\ldots
\end{eqnarray}
と書けることから、
\begin{eqnarray}
&&\displaystyle\sum_{i=1}^n\log f(X_i;\theta)
&\sim&
\displaystyle\sum_{i=1}^n\log f(X_i;\hat{\theta})(\theta-\hat{\theta})^0+\frac{1}{1!}\left.\frac{\partial}{\partial \theta}\log f(X_i;\hat{\theta})\right|_{\theta=\hat{\theta}}(\theta-\hat{\theta})^1+\ldots \\ \\
&\Rightarrow&
\frac{1}{\sqrt{n}}\frac{\partial}{\partial \theta}\displaystyle\sum_{i=1}^n\log f(X_i;\theta)
&\sim&
\frac{1}{\sqrt{n}}\frac{\partial}{\partial \theta}\left\{\displaystyle\sum_{i=1}^n\log f(X_i;\hat{\theta})(\theta-\hat{\theta})^0+\frac{1}{1!}\left.\frac{\partial}{\partial \theta}\log f(X_i;\hat{\theta})\right|_{\theta=\hat{\theta}}(\theta-\hat{\theta})^1+\ldots\right\} \\ \\
&&&=&
\frac{1}{\sqrt{n}}\left\{\displaystyle\sum_{i=1}^n\left.\frac{\partial}{\partial \theta}\log f(X_i;\hat{\theta})\right|_{\theta=\hat{\theta}}(\theta-\hat{\theta})^0+\frac{1}{1!}\left.\frac{\partial^2}{\partial \theta^2}\log f(X_i;\hat{\theta})\right|_{\theta=\hat{\theta}}(\theta-\hat{\theta})^1+\ldots\right\} \\ \\
&&&=&
\frac{1}{\sqrt{n}}\displaystyle\sum_{i=1}^n\left.\frac{\partial}{\partial \theta}\log f(X_i;\hat{\theta})\right|_{\theta=\hat{\theta}}+\frac{1}{n}\left.\frac{\partial^2}{\partial \theta^2}\log f(X_i;\hat{\theta})\right|_{\theta=\hat{\theta}}\sqrt{n}(\theta-\hat{\theta})+\ldots \\ \\
\end{eqnarray}
と導出できる。
p.76下より、\(\displaystyle\sum_{i=1}^n\frac{\partial}{\partial \theta}\log f(X_i;\theta)\)の分散はフィッシャー情報量となることから\(J_n(\theta)\)になることがわかる。
また、式(3.2.1)より期待値は\(0\)になっている。
これに加えて、p.25の中心極限定理や統計学実践ワークブックのp.55より、 \begin{eqnarray} \frac{1}{\sqrt{n}}\displaystyle\sum_{i=1}^n\frac{X_i-\mu}{\sqrt{\sigma^2}}\to N(0,1) \end{eqnarray} に収束することを示しているため、 \begin{eqnarray} \frac{1}{\sqrt{n}}\displaystyle\sum_{i=1}^n\frac{\partial}{\partial \theta}\log f(X_i;\theta) &=& \sqrt{J_1(\theta)}\frac{1}{\sqrt{n}}\displaystyle\sum_{i=1}^n\frac{\frac{\partial}{\partial \theta}\log f(X_i;\theta)-\overbrace{E\left[\frac{\partial}{\partial \theta}\log f(X_i;\theta)\right]}^{=0}}{\sqrt{J_1(\theta)}} \\ \\ &\sim& \sqrt{J_1(\theta)}N(0,1) \\ \\ \end{eqnarray} と書ける。この式は、標準正規分布に従う確率変数が\(J_1\)倍されたものとして考えられるため、その確率分布は\(N(0,J_1)\)になる。
また、式(3.2.1)より期待値は\(0\)になっている。
これに加えて、p.25の中心極限定理や統計学実践ワークブックのp.55より、 \begin{eqnarray} \frac{1}{\sqrt{n}}\displaystyle\sum_{i=1}^n\frac{X_i-\mu}{\sqrt{\sigma^2}}\to N(0,1) \end{eqnarray} に収束することを示しているため、 \begin{eqnarray} \frac{1}{\sqrt{n}}\displaystyle\sum_{i=1}^n\frac{\partial}{\partial \theta}\log f(X_i;\theta) &=& \sqrt{J_1(\theta)}\frac{1}{\sqrt{n}}\displaystyle\sum_{i=1}^n\frac{\frac{\partial}{\partial \theta}\log f(X_i;\theta)-\overbrace{E\left[\frac{\partial}{\partial \theta}\log f(X_i;\theta)\right]}^{=0}}{\sqrt{J_1(\theta)}} \\ \\ &\sim& \sqrt{J_1(\theta)}N(0,1) \\ \\ \end{eqnarray} と書ける。この式は、標準正規分布に従う確率変数が\(J_1\)倍されたものとして考えられるため、その確率分布は\(N(0,J_1)\)になる。
大数の法則より
\begin{eqnarray}
\frac{1}{n}\displaystyle\sum_{i=1}^n\frac{\partial^2}{\partial\theta^2}\log f(X_i;\theta)=E\left[\frac{\partial^2}{\partial\theta^2}\log f(X_i;\theta)\right]
\end{eqnarray}
になる。この右辺はフィッシャー情報量として扱え、関数が正則のときに
\begin{eqnarray}
\frac{1}{n}\displaystyle\sum_{i=1}^n\frac{\partial^2}{\partial\theta^2}\log f(X_i;\theta)
&=&
E\left[\frac{\partial^2}{\partial\theta^2}\log f(X_i;\theta)\right] \\ \\
&=&
-J_1(\theta)
\end{eqnarray}
となる(参考)。
\(\S\)3.7 区間推定
- p.83下:相関係数\(r\)を\(z\)変換した\(\zeta(r)\)が正規分布で近似できること
こちらの導出など参考。