library(tidyverse)
はじめに
各分布がそれぞれどんな状況を想定しているかがだいたい分かればよい
また、再生性などの性質については押さえておくと良い
平均や分散はできれば暗記したいが、最悪確率密度関数が与えられていればモーメント母関数から導出は可能
キーワード
- 連続一様分布
- 正規分布
- 指数分布
- ガンマ分布
- ベータ分布
- コーシー分布
- 対数正規分布
- 2変量正規分布
- 多変量正規分布
- 混合正規分布
- カイ二乗分布
- t分布
- F分布 (非心分布を含む)
一般に、標本に基づく統計量の分布を標本分布という
ここでは正規分布からの無作為標本に基づく統計量の標本分布に現れる
カイ二乗分布、t分布、F分布も扱う
連続一様分布
定義
\(a < b\) を満たす \(a,b\) に対し、確率密度関数
\[ f(x) = \left\{ \begin{array}{ll} \frac{1}{b - a} & (a \le x \le b)\\ 0 & (otherwise) \end{array} \right. \]
をもつ分布を 連続一様分布 (continuous uniform distribution) といい、\(U(a,b)\) で表す
期待値と分散・モーメント母関数
\(X \sim U(a,b)\) の期待値と分散、モーメント母関数は以下の通り
\[ E[X] = \frac{a + b}{2},\:\: V[X] = \frac{(b - a)^2}{12} \\ M(t) = E\left[e^{tX}\right] = \frac{e^{bt} - e^{at}}{(b - a)t},\:\: -\infty < t < \infty \]
正規分布
定義
実数 \(\mu \in \mathbb R\) と \(\sigma > 0\) に対し、確率密度関数
\[ f(x) = \frac{1}{\sqrt{2\pi} \sigma}\exp\left(-\frac{(x - \mu)^2}{2\sigma^2}\right) \]
をもつ分布を 正規分布 (normal distribution) または ガウス分布 (Gaussian distribution) といい、
\(N\left(\mu,\sigma^2\right)\) で表す
library(ggplot2)
<- expand.grid(mu = c(0, 2), sigma = c(.5, 1, 3))
ab ggplot(data.frame(X = c(-6, 6)), aes(x = X)) +
mapply(
function(mu, sigma, co) stat_function(fun = dnorm, args = list(mean = mu, sd = sigma), aes_q(color = co)),
$mu, ab$sigma, sprintf("mu=%.0f sigma=%.1f", ab$mu, ab$sigma)) +
ablabs(color = "parameter")
標準正規分布
特に \(\mu = 0, \sigma^2 = 1\) のときの \(N\left(0,1\right)\) は 標準正規分布 (standard normal distribution) という
\(Z \sim N(0,1)\) の確率密度関数 \(\varphi(z)\)、累積分布関数 \(\Phi(z)\) は
\[ \varphi(z) := \frac{1}{\sqrt{2\pi}}\exp\left(-\frac{z^2}{2}\right)\\ \Phi(z) := P(Z \le z) = \int^{z}_{-\infty} \varphi(z)dt,\:\: Z \sim N(0,1) \tag{6.1} \]
期待値と分散・モーメント母関数・累積分布関数
\(X \sim U(a,b)\) の期待値と分散、モーメント母関数は以下の通り
\[ E[X] = \mu,\:\: V[X] = \sigma^2 \]
\[ M(t) = E\left[e^{tX}\right] = \exp\left(\mu t + \frac{1}{2}\sigma^2 t^2 \right),\:\: -\infty < t < \infty \tag{6.2} \]
\(X \sim U(a,b)\) のとき、標準化した \(Z = \frac{X - \mu}{\sigma}\) は標準正規分布に従う
よって、\(X \sim U(a,b)\) の累積分布関数は
\[ P(X \le x) = P\left(\frac{X - \mu}{\sigma} \le \frac{x - \mu}{\sigma}\right) = \Phi\left(\frac{x - \mu}{\sigma}\right),\:\: Z \sim N(0,1) \]
正規分布の再生性
\(X_1 \sim N\left(\mu_1,\sigma^2_1\right)\) と \(X_2 \sim N\left(\mu_2,\sigma^2_2\right)\) が独立ならば、\(X_1 + X_2 \sim N\left(\mu_1 + \mu_2, \sigma^2_1 + \sigma^2_2\right)\) となる
(証明) 式 (6.2) より \(X_1 + X_2\) のモーメント母関数が
以下のように \(N\left(\mu_1 + \mu_2, \sigma^2_1 + \sigma^2_2\right)\) のモーメント母関数に一致することからわかる
\[ E\left[e^{t\left(X_1 + X_2\right)}\right] = E\left[e^{tX_1}e^{tX_2}\right] = E\left[e^{tX_1}\right]E\left[e^{tX_2}\right] = \exp\left(\mu_1 t + \frac{1}{2}\sigma^2_1 t^2 \right) \exp\left(\mu_2 t + \frac{1}{2}\sigma^2_2 t^2 \right) \]
指数分布
定義
\(\lambda > 0\) に対し、確率密度関数
\[ f(x) = \lambda e^{-\lambda x},\:\:x > 0 \]
をもつ分布を 指数分布 (exponential distribution) といい、 \(Exp\left(\lambda\right)\) で表す
library(ggplot2)
<- expand.grid(lambda = c(0.5, 1, 1.5))
ab ggplot(data.frame(X = c(0, 5)), aes(x = X)) +
mapply(
function(lambda, co) stat_function(fun = dexp, args = list(rate = lambda), aes_q(color = co)),
$lambda,sprintf("lambda=%.1f", ab$lambda)) +
ablabs(color = "parameter")
\(X \sim Exp\left(\lambda\right)\) の累積分布関数は
\[ F(x) = P(X \le x) = 1 - e^{-\lambda x},\:\:x > 0 \]
期待値と分散・モーメント母関数
\(X \sim Exp\left(\lambda\right)\) の期待値と分散、モーメント母関数は以下の通り
\[ E[X] = \frac{1}{\lambda},\:\: V[X] = \frac{1}{\lambda^2} \\ M(t) = E\left[e^{tX}\right] = \frac{\lambda}{\lambda - t} = \left(1- \frac{1}{\lambda}t\right)^{-1} ,\:\: t < \lambda \]
指数分布の無記憶性
\(X \sim Exp\left(\lambda\right)\) のとき、以下が成り立つことを、
指数分布の 無記憶性 (memoryless property) という
\[ P\left(X \ge t_1 + t_2|X \ge t_1 \right) = P\left(X \ge t_2\right),\:\:t_1,t_2 \ge 0 \]
(証明)
\(t \ge 0\) に対して \(P\left(X \ge t\right) = 1 -F(t) = e^{-\lambda t}\) となるため、\(t_1,t_2 \ge 0\) に対して
\[ P\left(X \ge t_1 + t_2 |X \ge t_1\right) = \frac{e^{-\lambda(t_1 + t_2)}}{e^{-\lambda t_1}} = e^{-\lambda t_2} = P\left(X \ge t_2\right) \]
ガンマ分布
定義
\(a >0,b > 0\) に対し、確率密度関数
\[ f(x) = \frac{1}{\Gamma(a)b^a}x^{a - 1}e^{-\frac{x}{b}},\:\:x > 0 \]
をもつ分布を、形状母数 \(a\)、尺度母数 \(b\) の ガンマ分布 (gamma distribution) といい、
\(Ga\left(a,b\right)\) で表す
ここで、\(\Gamma(a)\) はガンマ関数を表す
\[ \Gamma(a) := \int^{\infty}_{0} x^{a -1}e^{-x}dx,\:\:a >0 \]
特に \(a = 1\) の場合のガンマ分布 \(Ga(1,b)\) は \(\lambda = \frac{1}{b}\) とした指数分布 \(Exp\left(\frac{1}{b}\right)\) である
- ガンマ分布の確率密度関数を描画 (参考:https://qiita.com/hoxo_b/items/a6522a6e6561f8ca7b96)
library(ggplot2)
<- expand.grid(a = c(1, 2), b = c(.5, 1, 2))
ab ggplot(data.frame(X = c(0, 6)), aes(x = X)) +
mapply(
function(a, b, co) stat_function(fun = dgamma, args = list(shape = a, rate = b), aes_q(color = co)),
$a, ab$b, sprintf("a=%.0f b=%.1f", ab$a, ab$b)) +
ablabs(color = "parameter")
期待値と分散・モーメント母関数
\(X \sim Ga\left(a,b\right)\) の期待値と分散、モーメント母関数は以下の通り
\[ E[X] = ab,\:\: V[X] = ab^2 \tag{6.3} \]
\[ M(t) = E\left[e^{tX}\right] = (1 - bt)^{-a} ,\:\: t < \frac{1}{b} \tag{6.4} \]
ガンマ分布の再生性
\(X_1 \sim Ga\left(a_1,b \right)\) と \(X_2 \sim Ga\left(a_2, b \right)\) が独立ならば、\(X_1 + X_2 \sim Ga\left(a_1 + a_2, b \right)\) となる
これはガンマ分布のモーメント母関数 (6.4) の形からわかる
ベータ分布
定義
\(a > 0,b > 0\) に対し、確率密度関数
\[ f(x) = \frac{1}{B(a,b)}x^{a - 1}(1 - x)^{b - 1},\:\:0 < x < 1 \]
をもつ区間 \((0,1)\) 上の分布を ベータ分布 (beta distribution) といい、
\(Be\left(a,b\right)\) で表す
library(ggplot2)
<- expand.grid(a = c(.5, 1, 2), b = c(.5, 1, 2))
ab ggplot(data.frame(X = c(0, 1)), aes(x = X)) +
mapply(
function(a, b, co) stat_function(fun = dbeta, args = list(shape1 = a, shape2 = b), aes_q(color = co)),
$a, ab$b, sprintf("a=%.0f b=%.1f", ab$a, ab$b)) +
ablabs(color = "parameter") +
ylim(0,2)
ここで、\(B(a,b)\) はベータ関数を表す
\[ B(a,b) := \int^{1}_{0} x^{a -1}(1 - x)^{b - 1}dx,\:\:a > 0, b > 0 \]
期待値と分散
\(X \sim Be\left(a,b\right)\) の期待値と分散は以下の通り
\[ E[X] = \frac{a}{a + b},\:\: V[X] = \frac{ab}{(a + b)^2(a + b + 1)} \]
モーメント母関数は複雑なため省略
ベータ分布とガンマ分布の関連
\(X_1 \sim Ga\left(a_1,b \right)\) と \(X_2 \sim Ga\left(a_2, b \right)\) が独立ならば、\(\frac{X_1}{X_1 + X_2}\) は \(X_1 + X_2\) と独立で、\(\frac{X_1}{X_1 + X_2} \sim Be(a_1 ,a_2)\) となる
コーシー分布
定義
確率密度関数
\[ f(x) = \frac{1}{\pi(1 + x^2)} \tag{6.5} \]
をもつ分布を コーシー分布 (Cauchy distribution) という
library(ggplot2)
<- expand.grid(x0 = c(0), gamma = c(1))
ab ggplot(data.frame(X = c(-5, 5)), aes(x = X)) +
mapply(
function(x0, gamma, co) stat_function(fun = dcauchy, args = list(location = x0, scale = gamma), aes_q(color = co)),
$x0, ab$gamma, sprintf("x0=%.0f gamma=%.1f", ab$x0, ab$gamma)) +
ablabs(color = "parameter")
コーシー分布は裾が重い分布であり、平均やより高次のモーメントが存在しない
式 (6.5) より、原点に関して左右対称であることがわかるが、平均が \(0\) というわけではない
より一般には、位置母数 \(\mu\) と尺度母数 \(\sigma >0\) を導入し、式 (6.5) の \(f(x)\) に対して
\[ \frac{1}{\sigma}f\left(\frac{x - \mu}{\sigma}\right) = \frac{1}{\pi\sigma\left(1 + \left(\frac{x - \mu}{\sigma}\right)^2\right)} \]
を確率密度関数とする分布をコーシー分布と考えることもある
対数正規分布
定義
\(Y \sim N\left(\mu, \sigma^2\right)\) のとき、\(X = e^Y \:(> 0)\) は確率密度関数
\[ f(x) = \frac{1}{\sqrt{2\pi} \sigma x}\exp\left(-\frac{(\log x - \mu)^2}{2\sigma^2}\right),\:\:x > 0 \tag{6.6} \]
をもつ分布に従う
この分布を 対数正規分布 (log-normal distribution) といい、
\(\Lambda\left(\mu, \sigma^2\right)\) で表す
\(X \sim \Lambda\left(\mu, \sigma^2\right)\) のとき、\(\log X \sim N\left(\mu, \sigma^2\right)\) である
モーメント母関数
対数正規分布 \(\Lambda\left(\mu, \sigma^2\right)\) の原点まわりの \(k\) 次のモーメント \(E\left[X^{k}\right]\) は、式 (6.2)
\[ M(t) = E\left[e^{tX}\right] = \exp\left(\mu t + \frac{1}{2}\sigma^2 t^2 \right),\:\: -\infty < t < \infty \tag{6.2} \]
の \(t = k\) における値に等しい
これは、\(X \sim \Lambda\left(\mu, \sigma^2\right)\) のとき、 \(Y = \log X \sim N\left(\mu, \sigma^2\right)\) を用いて、
\[ E\left[X^{k}\right] = E\left[e^{kY}\right] \]
と書けることからわかる
期待値と分散
前節の議論より、\(X \sim \Lambda\left(\mu, \sigma^2\right)\) のとき、
\[ E[X] = \exp\left(\mu + \frac{1}{2}\sigma^2 \right),\:\:V[X] = \exp\left(2\mu + \sigma^2 \right)\left(\exp(\sigma^2) - 1\right) \]
2変量正規分布、多変量正規分布
定義 (2変量正規分布)
実数 \(\mu_1,\mu_2 \in \mathbb R\) と \(\sigma_1 > 0,\sigma_2 > 0\) 、\(-1 < \rho < 1\) を満たす \(\rho\) に対し、
確率ベクトル \(\boldsymbol{X}\) \(= (X_1,X_2)^\top\) が確率密度関数
\[ \begin{align*} & f(x_1,x_2) = \frac{1}{2 \pi \sigma_1 \sigma_2 \sqrt{1 - \rho^2}} \\ &\times \exp\left[-\frac{1}{2(1 - \rho^2)} \left(\left(\frac{x_1 - \mu_1}{\sigma_1}\right)^2 -2 \rho \left(\frac{x_1 - \mu_1}{\sigma_1}\right) \left(\frac{x_2 - \mu_2}{\sigma_2}\right) + \left(\frac{x_2 - \mu_2}{\sigma_2}\right)^2\right)\right] \tag{6.7} \end{align*} \]
をもつとき、\(X\) は平均ベクトル \(\boldsymbol \mu\)、分散共分散行列 \(\bf \Sigma\) の 2変量正規分布 (2-variate normal distribution) に
従うといい、\(N_2\left(\boldsymbol \mu,\bf \Sigma\rm\right)\) で表す
ただし、
\[ \boldsymbol \mu \rm = (\mu_1,\mu_2)^\top,\:\: \bf \Sigma \rm = \begin{pmatrix} \sigma_1^2 & \rho \sigma_1 \sigma_2 \\ \rho \sigma_1 \sigma_2 & \sigma_2^2 \\ \end{pmatrix} \tag{6.8} \]
とする
特に \(\mu_1 = \mu_2 = 0,\sigma_1^2 =\sigma_2^2 = 1,\rho = 0\) のとき2変量標準正規分布と呼ばれる
期待値と分散 (2変量正規分布)
\(\boldsymbol \mu\) と \(\bf \Sigma\) はそれぞれ \(\boldsymbol X\) の平均ベクトルと分散共分散行列
\[ E[\boldsymbol X] = \boldsymbol \mu,\:\:V[\boldsymbol X] = \boldsymbol \Sigma \]
式 (6.8) より、\(X_1\) と \(X_2\) の分散はそれぞれ \(\sigma_1^2,\sigma_2^2\) なので、
式 (6.7) の \(\sigma_1,\sigma_2\) はそれぞれ \(X_1\) と \(X_2\) の標準偏差
また式 (6.8) より、\(X_1\) と \(X_2\) の共分散は \(\sigma_1\sigma_2\) なので、\(\rho\) は \(X_1\) と \(X_2\) の相関係数
\(\rho = 0\) のとき、式 (6.7) の同時確率密度関数 \(f(x_1,x_2)\) が、
\(N\left(\mu_1,\sigma^2_1\right)\) の確率密度関数と \(N\left(\mu_2,\sigma^2_2\right)\) の確率密度関数の積に分かれ、\(X_1\) と \(X_2\) は独立になる
周辺分布,条件付き分布 (2変量正規分布)
\(X_1\) と \(X_2\) の周辺分布は、それぞれ \(N\left(\mu_1,\sigma^2_1\right)\) と \(N\left(\mu_2,\sigma^2_2\right)\) になる
また、\(X_1 = x_1\) が与えられた時の \(X_2\) の条件付き分布は正規分布となり、その期待値と分散は以下となる
(式(6.7) を \(N\left(\mu_1,\sigma^2_1\right)\) の確率密度で割ればよい)
\[ E\left[X_2|X_1 = x_1\right] = \mu_2 + \rho \cdot \frac{\sigma_2}{\sigma_1}(x_1 - \mu_1) = \mu_2 + \frac{\sigma_{12}}{\sigma_1^2}(x_1 - \mu_1) \\ V\left[X_2|X_1 = x_1\right] = \sigma_2^2\left(1 - \rho^2\right) \]
ここで、\(\sigma_{12} := \rho \sigma_1 \sigma_2\) は \(X_1\) と \(X_2\) の共分散を表す
モーメント母関数 (2変量正規分布)
\(\boldsymbol X \sim N_2\left(\boldsymbol \mu,\bf \Sigma\rm\right)\) のモーメント母関数は
\[ M(\boldsymbol t) = E\left[e^{\boldsymbol t^\top \boldsymbol X}\right] = \exp\left(\boldsymbol \mu^\top \boldsymbol t + \frac{1}{2}\boldsymbol t^\top \boldsymbol \Sigma \boldsymbol t \right),\:\: \boldsymbol t \in \mathbb R^2 \tag{6.9} \]
定義 (多変量正規分布)
これまでの2変量正規分布の議論は、一般に多変量に拡張できる
\(p\) 次元ベクトル \(\boldsymbol \mu = \left(\mu_1,\dots,\mu_p\right)^\top\) と \(p \times p\) の正定値行列 \(\bf \Sigma\) に対し、
確率ベクトル \(\boldsymbol{X}\) \(= \left(X_1,\dots ,X_p\right)^\top\) が同時確率密度関数
\[ f(\boldsymbol x) = \frac{1}{\left(2 \pi\right)^{\frac{p}{2}} \left(\det \boldsymbol \Sigma\right)^{\frac{1}{2}}} \exp\left(-\frac{1}{2} \left(\boldsymbol x - \boldsymbol \mu \right)^\top \boldsymbol \Sigma^\top \left(\boldsymbol x - \boldsymbol \mu \right) \right) \]
をもつとき、\(\boldsymbol X\) は平均ベクトル \(\boldsymbol \mu\)、分散共分散行列 \(\bf \Sigma\) の
多変量正規分布 (multivariate normal distribution) に従うといい、\(N_p\left(\boldsymbol \mu,\bf \Sigma\rm\right)\) で表す
2変量正規分布について述べた独立性、周辺分布、条件付き分布に関する結果を
多変量に自然に拡張したものが、一般の多変量正規分布においても成り立つ (詳細は省略)
モーメント母関数は、\(\boldsymbol t \in \mathbb R^p\) に対して式 (6.9) と同じ形となる
混合正規分布
定義
\(j = 1,\dots,K\) に対し、\(f_j(x) = \frac{1}{\sigma_j}\varphi \left(\frac{x - \mu_j}{\sigma_j}\right)\) を \(N\left(\mu_j,\sigma_j^2\right)\) の確率密度関数とする
また \(p_1,\dots,p_K\) は \(p_j > 0\:\: (j = 1,\dots,K)\) と \(p_1 + \cdots + p_K = 1\) を満たすとする
このとき確率密度関数
\[ f(x) = p_1f_1(x) + \cdots + p_Kf_K(x) \]
をもつ分布を、(1変量の) 混合正規分布 (mixture of normal distribution, Gaussian mixture distribution) という
各 \(N\left(\mu_j,\sigma_j^2\right)\) を混合要素といい、\(p_1,\dots,p_K\) を混合比率 (混合係数) という
累積分布関数 \(F(x)\) は、\(F_j(x) = \Phi\left(\frac{x - \mu_j}{\sigma_j}\right)\) を \(N\left(\mu_j,\sigma_j^2\right)\) の累積分布関数とするとき
\[ F(x) = p_1F_1(x) + \cdots + p_KF_K(x) \]
である
\(K = 2\) 、つまり2要素のとき、確率密度関数は必ずしも二峰性を示すとは限らない
カイ二乗分布
定義
\(Z_i \sim N(0,1),\:\:i = 1,\dots,n\) でこれらが互いに独立なとき
\[ Y = Z_1^2 + \cdots + Z_n^2 \tag{6.10} \]
が従う分布を 自由度 \(n\) のカイ二乗分布 (\(\chi^2\) 分布, chi-square distribution with n degrees of freedom) といい、
\(\chi^2(n)\) で表す
\(\chi^2(n)\) の確率密度関数は
\[ f(y) = \frac{1}{\Gamma\left(\frac{n}{2}\right)2^{\frac{n}{2}}}y^{\frac{n}{2}-1}e^{-\frac{y}{2}},\:\:y > 0 \]
となる
それゆえ \(\chi^2(n)\) は、形状母数が \(a = \frac{n}{2}\)、尺度母数が \(b = 2\) のガンマ分布 \(Ga\left(\frac{n}{2},2\right)\) と一致する
期待値と分散・モーメント母関数
\(Y \sim \chi^2(n)\) の平均、分散、モーメント母関数は一般のガンマ分布の結果 (6.3),(6.4)より
\[ E[Y] = n,\:\: V[Y] = 2n,\\ M(t) = E\left[e^{tY}\right] = \left(1 -2t\right)^{-\frac{n}{2}},\:\: t < \frac{1}{2} \]
カイ二乗分布の再生性
\(Y_1 \sim \chi^2\left(n_1\right)\) と \(Y_2 \sim \chi^2\left(n_2\right)\) が独立ならば、\(Y_1 + Y_2 \sim \chi^2\left(n_1 + n_2\right)\) となる
標本分散の標本分布
正規分布からの標本に基づく標本分散の標本分布を考える際に、以下のようにカイ二乗分布が現れる
\(N\left(\mu,\sigma^2\right)\) からの無作為標本 \(X_1,\dots,X_n\) に対し、標本平均を \(\bar{X}\)、不偏分散を \(s^2 = \sum^{n}_{i = 1}\left(X_i - \bar{X}\right)^2/n-1\) とすると、
\(\bar X\) と \(s^2\) は独立
\[ \frac{\bar X - \mu}{\frac{\sigma}{\sqrt{n}}} = \frac{\sqrt{n}(\bar X - \mu)}{\sigma} \sim N(0,1) \tag{6.11} \]
\[ \frac{(n-1)s^2}{\sigma^2} = \sum^n_{i = 1}\left(\frac{X_i - \bar X}{\sigma}\right)^2 \sim \chi^2(n -1) \]
非心カイ二乗分布の定義
カイ二乗分布の定義 (6.10) において、\(Z_i \sim N(\mu_i,1),\:\:i = 1,\dots,n\) とし、\(\lambda = \mu_1^2 + \cdots + \mu_n^2\) とする
\[ Y = Z_1^2 + \cdots + Z_n^2 \tag{6.10} \]
このとき、式 (6.10) の \(Y\) が従う分布を、
自由度 \(n\) 、非心度 \(\lambda\) の非心カイ二乗分布 (noncentral chi-square distribution with n degrees of freedom and noncentrality parameter \(\lambda\)) といい、\(\chi^2\left(n,\lambda\right)\) で表す
\(\chi^2\left(n,0\right)\) は \(\chi^2\left(n\right)\) と一致する
非心カイ二乗分布のモーメント母関数と再生性
\(Y \sim \chi^2\left(n,0\right)\) のモーメント母関数は
\[ M(t) = E\left[e^{tY}\right] = \left(1 -2t\right)^{-\frac{n}{2}}\exp\left(\frac{\lambda t}{1 - 2t}\right),\:\: t < \frac{1}{2} \]
これより、\(Y_1 \sim \chi^2\left(n_1,\lambda_1\right)\) と \(Y_2 \sim \chi^2\left(n_2,\lambda_2\right)\) が独立ならば、\(Y_1 + Y_2 \sim \chi^2\left(n_1 + n_2,,\lambda_1 + ,\lambda_2 \right)\) となる
非心カイ二乗分布の期待値と分散
\(Y \sim \chi^2\left(n,0\right)\) の期待値と分散も、モーメント母関数より
\[ E[Y] = n + \lambda,\:\: V[Y] = 2n + 4\lambda \]
t分布
定義
\(Z \sim N\left(0,1\right), \:Y \sim \chi^2\left(n\right)\) で、これらが互いに独立であるとき、
\[ T = \frac{Z}{\sqrt{\frac{Y}{n}}} \tag{6.12} \]
が従う分布を 自由度 \(n\) の \(t\) 分布 (t-distribution with n degrees of freedom) といい、\(t\left(n\right)\) で表す
\(t\left(n\right)\) の確率密度関数は
\[ f(t) = \frac{\Gamma\left(\frac{n + 1}{2}\right)}{\sqrt{\pi n}\Gamma\left(\frac{n}{2}\right)}\left(1 + \frac{t^2}{n}\right)^{-\frac{n + 1}{2}},\:\: -\infty < t < \infty \tag{6.13} \]
式 (6.13) の \(\frac{1}{\sqrt{\pi}}\) を除く \(\frac{\Gamma\left(\frac{n + 1}{2}\right)}{\sqrt{\pi}\Gamma\left(\frac{n}{2}\right)}\) は、ベータ関数を用いて \(1/B(n/2,1/2)\) とも表せられる
また、式 (6.13) は \(n = 1\) のとき、裾が重いコーシー分布の確率密度関数 (6.5) と一致し、
\(n \rightarrow \infty\) のとき、標準正規分布の確率密度関数 (6.1) に収束する
平均と分散
\(T \sim t(n)\) の平均と分散は
\[ E[T] = 0 \:\:(n>1),\:\: V[T] = \frac{n}{n-2} \:\:(n > 2) \]
となる
\(n = 1\) のとき平均は存在せず、\(n = 1,2\) のとき分散は存在しない
\(t\) 分布は正規分布より裾が長い分布
非心t分布の定義
\(t\) 分布の定義 (6.12)
\[ T = \frac{Z}{\sqrt{\frac{Y}{n}}} \tag{6.12} \]
において、\(Z \sim N(\lambda,1)\) とした場合を考える
このとき式 (6.12) が従う分布を、
自由度 \(n\) 、非心度 \(\lambda\) の非心 \(t\) 分布 (noncentral t-distribution with n degrees of freedom and noncentrality parameter \(\lambda\)) といい、\(t\left(n,\lambda\right)\) で表す
\(t\left(n,0\right)\) は \(t\left(n\right)\) と一致する
正規分布の平均の検定
\(t\) 分布と非心 \(t\) 分布が現れる例のひとつ
\(N\left(\mu,\sigma^2\right)\) からの無作為標本 \(X_1,\dots,X_n\) に対し、
不偏分散 \(s^2 = \sum^n_{i = 1}\left(X_i -\bar X\right)^2/(n-1)\) を用いて定義される \(t\) 統計量 (t-statistic) がある
\[ t = \frac{\bar X}{\frac{s}{\sqrt{n}}} = \frac{\sqrt{n}\bar X}{s}\tag{6.14} \]
\(t\) 統計量 (6.14)は、\(\mu = 0\) のとき自由度 \(n-1\) の \(t\) 分布に従い、
\(\mu \neq 0\) のとき自由度 \(n-1\)、非心度 \(\sqrt{n}\mu/\sigma\) の非心 \(t\) 分布に従う
これは式 (6.14) を以下のように書き直すことで、式 (6.11) よりわかる
\[ t = \frac{\frac{\bar X}{\frac{\sigma}{\sqrt{n}}}}{\frac{\frac{(n -1)s^2}{\sigma^2}}{n-1}} \]
\(\sigma^2\) が未知の場合の帰無仮説 \(\mu = 0\) の \(t\) 検定において、
\(t\) 分布は検定統計量としての \(t\) 統計量 (6.14) の帰無分布に現れ、非心 \(t\) 分布は検出力に現れる
F分布
定義
\(Y_1 \sim \chi^2\left(n_1\right)\) と \(Y_2 \sim \chi^2\left(n_2\right)\) が独立なとき
\[ X = \frac{Y_1/n_1}{Y_2/n_2} \tag{6.15} \]
が従う分布を、
自由度 \((n_1,n_2)\) 、\(F\) 分布 (F-distribution with \(n_1\) and \(n_2\) degrees of freedom) といい、\(F\left(n_1,n_2\right)\) で表す
\(F\left(n_1,n_2\right)\) の確率密度関数は
\[ f(x) = \frac{n_1^{\frac{n_1}{2}} n_2^\frac{n_2}{2}}{B\left(\frac{n_1}{2},\frac{n_2}{2}\right)} \cdot \frac{x^{\frac{n_1}{2}-1}}{\left(n_2 + n_1x\right)^{\frac{n_1 + n_2}{2}}} = \frac{1}{B\left(\frac{n_1}{2},\frac{n_2}{2}\right)} \cdot \frac{\left(\frac{n_1}{n_2}\right)^{\frac{n_1}{2}} x^{\frac{n_1}{2}-1}}{\left(1 + \frac{n_1}{n_2}x\right)^{\frac{n_1 + n_2}{2}}}, \:\:x > 0 \]
となる
期待値と分散
\(X \sim F\left(n_1,n_2\right)\) の平均と分散は
\[ E[X] = \frac{n_2}{n_2 - 2} \:\: (n_2 > 2),\:\: V[X] = 2 \left(\frac{n_2}{n_2 - 2}\right)^2 \frac{n_1 + n_2 -2}{n_1(n_2 - 4)} \:\: (n_2 > 4) \]
となる
\(n_2 \le 2\) のとき平均は存在せず、\(n_2 \le 4\) のとき分散は存在しない
2標本の標本分散の比の標本分布
\(X_1,\dots,X_{n_{1}}\) は \(N\left(\mu_1,\sigma^2_1\right)\) からの無作為標本とし、
\(Y_1,\dots,Y_{n_{2}}\) は \(N\left(\mu_2,\sigma^2_2\right)\) からの無作為標本とする
さらに、\(X_1,\dots,X_{n_{1}},Y_1,\dots,Y_{n_{2}}\) が全て互いに独立とすると
\(s^2_1 = \sum^{n_1}_{i = 1}\left(X_i - \bar{X}\right)^2/(n_1 - 1), s^2_2 = \sum^{n_2}_{i = 1}\left(Y_i - \bar{Y}\right)^2/(n_2 - 1)\) に対して
\[ \frac{s^2_1/\sigma^2_1}{s^2_2/\sigma^2_2} \sim F(n_1-1,n_2 -1) \]
となる
非心F分布の定義
\(F\) 分布の定義 (6.15)
\[ X = \frac{Y_1/n_1}{Y_2/n_2} \tag{6.15} \]
において、\(Y_1 \sim \chi^2\left(n_1,\lambda\right)\) とする
このとき、式 (6.15) の \(X\) が従う分布を 自由度 \((n_1,n_2)\) 、非心度 \(\lambda\) の非心 \(F\) 分布 (noncentral F-distribution with \(n_1\) and \(n_2\) degrees of freedom and noncentrality parameter \(\lambda\)) といい、\(F\left(n_1,n_2,\lambda\right)\) で表す
\(F\left(n_1,n_2,0\right)\) は \(F\left(n_1,n_2\right)\) と一致する
(非心度がゼロのときも含め) \(T \sim t(n,\mu)\) のとき、\(T^2 \sim F(1, n,\mu^2)\) となる
(非心カイ二乗分布、非心 \(t\) 分布、非心 \(F\) 分布の定義より明らか)
非心 \(F\) 分布は回帰モデルや分散分析モデルにおける \(F\) 検定の検出力の計算などに現れる