中心極限定理

中心極限定理とは

一言でいうと、確率変数列の和がある条件下で正規分布に法則収束する(=漸近正規性を持つ)

$\{X_n\}$を確率変数列とする。
\displaystyle
\frac{S_n-E(S_n)}{\sqrt{Var(S_n)}} \xrightarrow{d} \mathcal{N}(0,1)
となるとき、$\{S_n\}$は漸近的に平均$E(S_n)$、(漸近)分散Var(S_n)正規分布に従うという

$n$が十分大きければ、$S_n$に関する確率を\mathcal{N}(E(S_n),Var(S_n))で近似的に求められるということを意味する
あるいは、
\displaystyle
\frac{\sqrt{n}(\overline{X}-\mu)}{\sigma} \xrightarrow{d} \mathcal{N}(0,1)
の形で用いられることも多い。

リンデベルグ・レヴィの定理

容易に示せる中心極限定理。実際にはもっと仮定を緩めることができる。

$\{X_n\}$がiidで E(X_i)=\mu, \ Var(X_i)=\sigma^2\ (0 < \sigma^2 < \infty)であるとき、
 \sqrt{n}(\overline{X}-\mu) \xrightarrow{d} \mathcal{N}(0,\sigma^2)

$\overline{X}$が$\sqrt{n}$の速度で$\mu$に収束する。
証明:連続定理を用いる。
$\phi$を$X_i-\mu$の特性関数とし、$Y_n=\sqrt{n}(\overline{X}-\mu)$とすると、$Y_n=\frac{1}{\sqrt{n}}(\sum_{i=1}^n X_i - n\mu)=\frac{1}{\sqrt{n}}\sum_{i=1}^n (X_i - \mu)$より、
 \phi_{Y_n}(t) = (\phi(t/ \sqrt{n}))^n = (1-\frac{t^2 \sigma^2}{2n} + o( \frac{t^2}{n}))^n  \rightarrow e^{-\frac{1}{2} t^2 \sigma^2} (\mathcal{N}(0,\sigma^2)の特性関数)


特に、$X_i \sim Bern(p)$であるとき、$S_n=\sum_{i=1}^n X_i$とすると、 \overline{X}=\frac{S_n}{n}, \ \mu=p, \ \sigma^2=p(1-p)より
\displaystyle
\frac{\sqrt{n}(S_n/n-p)}{\sqrt{p(1-p)}} \rightarrow \mathcal{N}(0,1) \Leftrightarrow \frac{S_n-np}{\sqrt{np(1-p)}} \rightarrow \mathcal{N}(0,1)
これをド・モアブル=ラプラスの定理という。これはnが十分大きいときに、二項分布に従う離散型の確率変数の分布関数が正規分布で近似できることを言っている。
$P(S_n \le b) = P(\frac{S_n-np}{\sqrt{np(1-p)}} \le \frac{b-np}{\sqrt{np(1-p)}}) \approx P(Z \le \frac{b-np}{\sqrt{np(1-p)}}) \ \ (Z \sim \mathcal{N}(0,1))$
ここで$b' \in (b,b+1)$なる$\forall b'$で$P(S_n \le b) = P(S_n \le b')$である。そこで、連続型の分布関数で近似したのは、$(b,b+1)$の中間の$b'=b+1/2$と考えて、
$P(S_n \le b) \approx P(Z \le \frac{b+1/2-np}{\sqrt{np(1-p)}})$とすると、近似がよくなる(連続修正という)。

t統計量の漸近正規性

確率変数列$X_1,X_2,\cdots$を平均$\mu$と分散\sigma^2を持つ分布に従うとするとき、
大数の法則より、
$\overline{X}_n \xrightarrow{d} \mu$(ここで添え字の$n$はn個での標本平均を示す)
$\frac{1}{n}\sum_{i=1}^n X_i^2 \xrightarrow{d} E(X^2)$
また、標本分散$s_n^2$は
$s_n^2 = \frac{1}{n}\sum_{i=1}^n X_i^2 - \overline{X}_n^2$
右辺第一項は$E(X^2)$に法則収束し、第二項はcontinuous mappingより$\mu^2$に法則収束するので、
 s_n^2 \xrightarrow{d} E(X^2)-\mu^2 = \sigma^2
(この結果自体は標本分散の(弱)一致性を示す)
さらに、中心極限定理より
\displaystyle
\sqrt{n}(\overline{X}_n-\mu) \xrightarrow{d} \mathcal{N}(0,\sigma^2)
よって、スラツキーの定理より
\displaystyle
\frac{\sqrt{n}(\overline{X}_n-\mu)}{s_n} \xrightarrow{d} \mathcal{N}(0,1)
これよりt統計量の漸近正規性がいえる。
\displaystyle
t_{n-1}=\frac{\sqrt{n-1}(\overline{X}_n-\mu)}{s_n} \xrightarrow{d} \mathcal{N}(0,1)
これは多変量にも拡張できる。

リンデベルグ=フェラーの定理

リンデベルグ・レヴィの定理のiid仮定を緩める。

$\{X_n\}$を独立な確率変数列、$X_i$の分布関数を$F_i$、平均を$\mu_i$、分散を\sigma_i^2 \ (0 < \sigma_i^2 < \infty)とする。
 S_n = \sum_{i=1}^n X_n, \ B_n^2=\sum_{i=1}^n \sigma_i^2とする。
すべての$\epsilon > 0$で
 \displaystyle
\lim_{n\to\infty}\frac{1}{B_n^2}\sum_{k=1}^n \int_{x-\mu_k \ge \epsilon B_n}(x-\mu_k)^2dF_k(x)=0 \ \ \ (L)
$\Leftrightarrow$
 \displaystyle 1. \ \lim_{n\to\infty} \max_{1 \le k \le n}\frac{\sigma_k^2}{B_n^2} = 0 \ \ \ (F)
 \displaystyle2. \ \frac{S_n-E(S_n)}{B_n} \xrightarrow{d} \mathcal{N}(0,1)

標本平均に関して言い換えると、この定理は
$\overline{X}=1/n \sum_{i=1}^n X_i$は漸近的に平均$\overline{\mu}=1/n \sum_{i=1}^n \mu_i$、分散$\frac{B_n^2}{n^2}$の正規分布に従う
ことを主張している。

(L)をリンデベルグ条件、(F)をフェラーの条件という。
iidのときは(L)を満足することを確認できる。

(L)は直感的に分かりにくいが、チェビシェフの不等式を用いるともう少し理解しやすい定理が主張できる。

$\{X_n\}$が独立な確率変数列であるとき、$|X_i| \le K$なる定数が存在し、$B_n \to \infty \ (n \to \infty)$ならば、
\displaystyle
\frac{S_n-E(S_n)}{B_n} \xrightarrow{d} \mathcal{N}(0,1)

証明:
チェビシェフの不等式
$P(|X-E(X)| \ge a) \le \frac{Var(X)}{a^2}$
より、
\displaystyle
\begin{aligned}
\int_{|x-\mu_k| \ge \epsilon B_n}(x-\mu_k)^2dF_k(x) &\le \int_{|x-\mu_k| \ge \epsilon B_n}(2K)^2dF_k(x) \ \ (\because -K \le X_i \le K, -K \le \mu \le K) \\
&= (2K)^2P(|X_k-\mu_k| \ge \epsilon B_n) \\
&\le (2K)^2 \frac{\sigma_k^2}{\epsilon^2B_n^2} \rightarrow 0
よって、(L)が成立。
\end{aligned}
他にもリアプノフの条件でも(L)の成立が示せる(野田本p110)

ベリー=エシーンの定理

中心極限定理の収束は、仮定する分布に依存しているので、一様ではない。例えば、標本数nを固定したときに$\sqrt{n}(\overline{X}_n-\mu)$の分布への正規近似がいくらでも貧弱になるような分布が存在する。しかし、 E|X-\mu|^3/sigma^3有界であるような分布族においては、中心極限定理の近似誤差に上界が存在して、収束が一様であることが示せる。

$\{X_n\}$が独立な確率変数列とし、 E(X_i)=0, \ E(X_i^2)=\sigma_i^2 (< \infty), \ S_n=\sum_{i=1}^n X_i, \ B_n^2=\sum_{i=1}^n \sigma_i^2
またある$0 < \delta < 1$について、$\gamma_n^{2+\delta} = \sum_{i=1}^n E|X_i|^{2+\delta} < \infty$とするとき、次の定数$c_{\delta}$が存在。
\displaystyle
\sup_{x} |P(\frac{S_n}{B_n} \le x)-\Phi(x)| \le c_{\delta}(\frac{\gamma_n}{B_n})^{2+\delta}
ここで、$\Phi$は標準正規分布の分布関数である。

特にiidの場合には、 E(X_i)=\mu, \ Var(X_i)=\sigma^2 (< \infty)とするとき、$E|X_i| < \infty$であれば、
\displaystyle
\sup_{x} |P(\frac{\sqrt{n}(\overline{X}-\mu)}{\sigma} \le x)-\Phi(x)| \le \frac{c}{\sqrt{n}}\frac{E(X_i-\mu)^3}{\sigma^3}
ここで、cは0.4~0.8程度の定数である。

エッジワース展開

 真の母集団分布は分からなくても平均、分散だけでなく、仮定している分布の3次および4次の積率に関する情報があれば、特性関数を展開した高次の項を考慮することにより、正規近似を改良することができる。
\displaystyle
F_n(x) \sim \Phi(x)-\frac{\beta_1(x^2-1)}{6\sqrt{n}}\phi(x)-\left( \frac{\beta_2(x^3-3x)}{24n}+\frac{\beta_1^2(x^5-10x^3+15x)}{72n} \right)\phi(x)
ここで、\beta_1=E(X-\mu)^3/\sigma^3は歪度、\beta_2=E(X-\mu)^4/\sigma^4-3は尖度、$\phi(x)$は標準正規分布の密度関数である。

変数変換

 0 < \sigma_n, \ \sigma_n \to 0 \ (n\to\infty), \ \frac{X_n-\mu}{\sigma_n} \xrightarrow{d} \mathcal{N}(0,1)となる確率変数列$\{X_n\}$について

  • gが実数値関数で$\mu$で微分可能で、$g'(\mu) \neq 0$ならば

\displaystyle
\frac{(g(X_n)-g(\mu))}{g'(\mu)\sigma_n} \xrightarrow{d} \mathcal{N}(0,1)

  • gが$\mu$のまわりで微分可能で、$g'$が$\mu$で連続ならば

\displaystyle
\frac{(g(X_n)-g(\mu))}{g'(X_n)\sigma_n} \xrightarrow{d} \mathcal{N}(0,1)

  • さらに\sigma_n^2=\sigma^2(\mu)/nで、\sigma(\mu)は$\mu$の連続関数ならば

\displaystyle
\frac{\sqrt{n}(g(X_n)-g(\mu))}{g'(X_n)\sigma(X_n)} \xrightarrow{d} \mathcal{N}(0,1)

  • gが実数値関数で、$\mu$でm階微分可能でg^{(m)}(\mu) \neq 0, \ g^{(j)}(\mu)=0, j < mならば

\displaystyle
\frac{(g(X_n)-g(\mu))}{g^{(m)}(\mu)\sigma_n^m/m!} \xrightarrow{d} Z^m \ \ (Z \sim \mathcal{N}(0,1))

多変量中心極限定理

クラメール=ウォルド法を用いれば、多変量の中心極限定理も容易に示せる。

$\{\boldsymbol{X}_i\}$がiidのk次元確率ベクトル列とし、平均ベクトル$\boldsymbol{\mu}$、共分散行列\boldsymbol{\Sigma}とすると、
 \sqrt{n}(\overline{\boldsymbol{X}}-\boldsymbol{\mu}) \xrightarrow{d} \mathcal{N}_k(\boldsymbol{0},\boldsymbol{\Sigma})

証明:
$\boldsymbol{a}$を任意のk次元ベクトル、$Y_i = \boldsymbol{a}^t \boldsymbol{X}_i \ (i=1,\cdots,n)$とすると、$Y_i$はiidで平均$\boldsymbol{a}^t \boldsymbol{\mu}$、分散\boldsymbol{a}^t \boldsymbol{\Sigma}\boldsymbol{a}である。よって、$Y_i$に関して中心極限定理より
\displaystyle
\begin{aligned}
\frac{\sqrt{n}(\overline{Y}-\boldsymbol{a}^t \boldsymbol{\mu})}{\sqrt{\boldsymbol{a}^t \boldsymbol{\Sigma}\boldsymbol{a}}} \xrightarrow{d} \mathcal{N}(0,1) \\
\Leftrightarrow \sqrt{n}(\frac{1}{n}\sum_{i=1}^n \boldsymbol{a}^t \boldsymbol{X}_i - \boldsymbol{a}^t \boldsymbol{\mu}) \xrightarrow{d} \mathcal{N}(0,\boldsymbol{a}^t \boldsymbol{\Sigma}\boldsymbol{a}) \\
\Leftrightarrow \sqrt{n}(\boldsymbol{a}^t \overline{\boldsymbol{X}} - \boldsymbol{a}^t \boldsymbol{\mu}) \xrightarrow{d} \mathcal{N}(0,\boldsymbol{a}^t \boldsymbol{\Sigma}\boldsymbol{a})
\end{aligned}
クラメール=ウォルド法より、\sqrt{n}(\overline{\boldsymbol{X}} - \boldsymbol{\mu}) \xrightarrow{d} \mathcal{N}(0,\boldsymbol{\Sigma})

これは$\overline{\boldsymbol{X}}$が平均ベクトル$\boldsymbol{\mu}$、共分散行列\boldsymbol{\Sigma}/n正規分布に従うことを主張している。



デルタ法

$\{a_n\}$を$a_n \rightarrow \infty$なる定数列とし、cをある定数とする。$\{Y_n\}$を確率変数の列、Yを確率変数とし、$a_n(Y_n-c) \xrightarrow{d} Y$が成り立つとき、$a_n(g(Y_n)-g(c)) \xrightarrow{d} g'(c)Y$
ただし微分係数$g'(c)$が存在し、0でないとする。

イメージ:$a_n$の速さで$Y_n-c$が$Y$に法則収束するとき、$g(Y_n)-g(c)$は同じく$a_n$の速さで$g'(c)Y$に収束する。
証明:
$g(Y_n)$をg(c)の周りでテイラー展開すると、
$g(Y_n)=g(c) +(Y_n-c)(g'(c)+R_n)$
ここで$a_n(Y_n-c) \xrightarrow{d} Y$より、$Y_n \xrightarrow{P} c$。よって、$P(|R_n| < \epsilon) \geq P(|Y_n-c| < \delta) \rightarrow 1$。
よって、$R_n \xrightarrow{P} 0$。
以上からスラツキーの定理を使うと、$a_n(g(Y_n)-g(c))=a_n(Y_n-c)(g'(c)+R_n)=a_n(Y_n-c)g'(c)+a_n(Y_n-c)R_n \xrightarrow{d} g'(c)Y$


補足:$g'(c)=0$のときはさらに高階までテイラー展開してから近似することが行われる。
このような方法で漸近分布を求めることをデルタ法という。

$X_n$がk次元確率ベクトルのときは、

$a_n(\boldsymbol{Y}_n-\boldsymbol{c}) \xrightarrow{d} \boldsymbol{Y} \Rightarrow a_n(g(\boldsymbol{Y}_n)-g(\boldsymbol{c})) \xrightarrow{d} (\nabla g(\boldsymbol{c}))^t\boldsymbol{Y}$
ただし、$\nabla g(\boldsymbol{x})=(\frac{\partial g(\boldsymbol{x})}{\partial x_1},\cdots,\frac{\partial g(\boldsymbol{x})}{\partial x_k})^t$は勾配ベクトル($\neq \boldsymbol{0}$)で、$\boldsymbol{c}$はk次元定数ベクトルである。

上で示したデルタ法のよく使われる形がクラメールの定理である。

関数$\boldsymbol{g}:\mathbb{R}^d \to \mathbb{R}^k$の導関数$\nabla \boldsymbol{g}(\boldsymbol{x})$は$\boldsymbol{\mu} \in \mathbb{R}^d$の近傍で連続であるとする。$\overline{\boldsymbol{X}}_n$はd次元確率ベクトルで、$\sqrt{n}(\overline{\boldsymbol{X}}_n -\boldsymbol{\mu}) \xrightarrow{d} \boldsymbol{X}$ならば、$\sqrt{n}(\boldsymbol{g}(\overline{\boldsymbol{X}}_n) -\boldsymbol{g}(\boldsymbol{\mu})) \xrightarrow{d} \nabla\boldsymbol{g}(\boldsymbol{\mu})\boldsymbol{X}$である。
特に、\boldsymbol{X} \sim \mathcal{N}(\boldsymbol{0},\boldsymbol{\Sigma})ならば、
\sqrt{n}(\boldsymbol{g}(\overline{\boldsymbol{X}}_n) -\boldsymbol{g}(\boldsymbol{\mu})) \xrightarrow{d} \mathcal{N}(\boldsymbol{0},\nabla\boldsymbol{g}(\boldsymbol{\mu})\boldsymbol{\Sigma}\nabla\boldsymbol{g}(\boldsymbol{\mu})^t)

標本積率の関数

クラメールの定理を用いると、法則収束する確率変数の標本積率の関数について漸近分布を求めることができる。また、統計的検定を構成する際の観点が分かる。
 \sqrt{n}(X_n-\mu) \xrightarrow{d} Y \sim \mathcal{N}(0,\sigma^2)が成立するとする。

$\overline{X}_n^2$の漸近分布
クラメールの定理において、$g(x)=x^2$とすると、$g'(\mu)=2\mu$より
 \sqrt{n}(\overline{X}_n^2-\mu^2) \xrightarrow{d} \mathcal{N}(0,4\mu^2\sigma^2)

このことは、収束率(漸近分布の分散)は$g$や$\mu$に依存し、変動することを示している。
また、$\mu=0$のときは、漸近分散が0になる($\sqrt{n}\overline{X}_n^2$が退化する)ので、$\sqrt{n}$ではなく、$a_n\overline{X}_n^2$が非退化な分布になるように漸近的に増加する$a_n$を見つけたい。
これを見つければ、$\mu=0$の検定統計量が得られる。実際、$\mu=0$のとき、n\overline{X}_n^2 \xrightarrow{d} \sigma^2\chi_1^2である。
これは、スラツキーの定理から、 n\overline{X}_n^2=(\sqrt{n}\overline{X_n})^2 \xrightarrow{d} Y^2であり、(Y/ \sigma)^2 \in \chi_1^2であることより示せる。


 上の例では$\mu \neq 0$であっても、0に近い場合は、やはりnを非常に大きくしないと\mathcal{N}(0,4\mu^2\sigma^2)で考えるのは危険。
そこで、クラメールの定理において、より高次項まで考慮に入れて近似を改良することを考える。

デルタ法の証明におけるテイラー展開を2次の項まで行う。
\displaystyle
g(x)-g(\mu) \sim g'(\mu)(x-\mu) + (1/2)g''(\mu)(x-\mu)^2 = (1/2)g''(\mu)( (x-\mu+\frac{g'(\mu)}{g''(\mu) } )^2-\frac{g'(\mu)^2}{g''(\mu)^2 } )
これを確率変数$X_n$に置き換えると
\displaystyle
n(g(X_n)-g(\mu)) \sim (1/2)\sigma^2g''(\mu)( (\frac{\sqrt{n}(X_n-\mu)}{\sigma}+\gamma_n)^2-\gamma_n^2)
ただし、\displaystyle \gamma_n = \frac{\sqrt{n}g'(\mu)}{\sigma g''(\mu)}

ここで、平均$\gamma$と分散$1$をもつ正規確率変数の平方の分布は非心度$\gamma^2$をもつ自由度1の非心$\chi^2$分布である($\chi_1^2(\gamma^2)$)。continuous mappingを使って、剰余項の0への確率収束を使うと、
\displaystyle
n(g(X_n)-g(\mu)) \sim (1/2)\sigma^2g''(\mu)(\chi_1^2(\gamma_n^2)-\gamma_n^2)
今、$\overline{X}_n^2$の漸近分布を求めるために、$g(x)=x^2$とすると、
\displaystyle
n(\overline{X}_n^2-\mu^2) \sim \sigma^2(\chi_1^2(\gamma_n^2)-\gamma_n^2)
ここで、\displaystyle \gamma_n = \sqrt{n}\mu/\sigmaである。
これは$\mu$が0に近くても離れていても使える安定した統計量になっている。


$1/\overline{X_n}$の漸近分布
クラメールの定理において、$g(x)=1/x$とすると、$g'(\mu)=-1/\mu^2$より$\mu \neq 0$のとき
 \sqrt{n}(1/\overline{X_n} - 1/\mu) \xrightarrow{d} \mathcal{N}(0,\sigma^2/\mu^4)
このように確率分布は求まるが、$\overline{X_n}$は原点で正の密度値をとるので、$E(1/\overline{X_n})$は存在しない。

標本分散s_n^2 = (1/n)\sum_{i=1}^n (X_i-\overline{X_n})^2の漸近分布

 s_n^2 = (1/n)\sum_{i=1}^n X_i^2 - \overline{X}_n^2なので、この2つの標本積率の漸近結合分布を求める必要がある。
標本分散は$\mu$に依存しないので、$\mu=0$と仮定しておく。また、$m_{xx}=(1/n)\sum_{i=1}^n X_i^2, \ m_{x}=(1/n)\sum_{i=1}^n X_i$とおく。
中心極限定理より、
\displaystyle
\sqrt{n}( (m_x \ m_{xx})^t - (0 \ \sigma^2)^t) \xrightarrow{d} \mathcal{N}(\boldsymbol{0},\boldsymbol{\Sigma})
ここで、 \boldsymbol{\Sigma}=
\begin{pmatrix}
V(X) & Cov(X^2,X) \\
Cov(X^2,X) & V(X^2) \\
\end{pmatrix}
標本分散の漸近分布をクラメールの定理を用いて求めるために、$\boldsymbol{g}(m_x,m_{xx})=m_xx-m_x^2$とすると、$\nabla \boldsymbol{g}(m_x,m_{xx})=(-2m_x,1)$より、\nabla \boldsymbol{g}(0,\sigma^2)=(0,1)である。よって、
\displaystyle
\begin{aligned}
\sqrt{n}(s_n^2-\sigma^2) &\xrightarrow{d} \mathcal{N}(0,\nabla \boldsymbol{g}(0,\sigma^2)\boldsymbol{\Sigma} \nabla \boldsymbol{g}(0,\sigma^2)^t) \\
&= \mathcal{N}(0,V(X^2)) \\
&= \mathcal{N}(0,E(X^4)-(E(X^2) )^2)
&= \mathcal{N}(0,\mu_4-\sigma^4)
\end{aligned}
$\mu_4$があるので、$X_1,X_2,\cdots$の平均$\mu$と分散\sigma^2だけでは漸近分布は決まらず、母集団の分布によることを意味する(これを漸近的に頑健でないという)。
例えば、正規分布だとすると、\mu_4 = 3\sigma^4なので、漸近分布は\mathcal{N}(0,2\sigma^4)となる。
より一般に\mu_4 = 3\sigma^4なる真の分布に対してこの検定は漸近的に妥当であるが、標本分布が正規分布よりも少々重い裾を持つような場合、例えば両側指数分布の場合は、\mu_4 = 6\sigma^4となり、正規分布を仮定した場合の統計量は妥当性を失う。

標本相関係数r = s_{xy}/(s_x s_y)の漸近分布

頑健性に関していえば、相関係数\rho=\sigma_{xy}/(\sigma_x \sigma_y)の検定に用いる標本相関係数$r=s_{xy}/(s_x s_y)$の場合、真の分布への依存性が大きい(漸近的に頑健でない)。まずは通常の方法で漸近分布を求めた上で、それを頑健化する方法を扱う。

$(X_1,Y_1),(X_1,Y_1)\cdots$を有限な4次の積率$E(X^4),E(Y^4)$を持つ2次元分布からの標本とする。このとき、
(a)
\displaystyle
\sqrt{n}\left(
\begin{pmatrix}
s_x^2  \\
s_{xy} \\
s_y^2 \\
\end{pmatrix}
-
\begin{pmatrix}
\sigma_x^2  \\
\sigma_{xy}^2 \\
\sigma_y^2 \\
\end{pmatrix}
\right)
\xrightarrow{d}

\mathcal{N} \left(0,
\begin{pmatrix}
C_{XX,XX} & C_{XX,XY} & C_{XX,YY}  \\
C_{XX,XY} & C_{XY,XY} & C_{XY,YY} \\
C_{XX,YY} & C_{XY,YY} & C_{YY,YY}  \\
\end{pmatrix}
\right)
ただし、
C_{XX,XX} = V( (X-\mu_x)^2) = E(X-\mu_x)^4-\sigma_x^4
C_{XX,XY} = Cov( (X-\mu_x)^2,(X-\mu_x)(Y-\mu_y) = E(X-\mu_x)^3(Y-\mu_y)-\sigma_x^2 \sigma_{xy}
C_{XX,YY} = Cov( (X-\mu_x)^2,(Y-\mu_y)^2) = E(X-\mu_x)^2(Y-\mu_y)^2 - \sigma_x^2\sigma_y^2
C_{XY,XY} = V( (X-\mu_x)(Y-\mu_y) )=E(X-\mu_x)^2(Y-\mu_y)^2-\sigma_{xy}^2
C_{XY,YY} = Cov( (X-\mu_x)(Y-\mu_y),(Y-\mu_y)^2)=E(X-\mu_x)(Y-\mu_y)^3-\sigma_{xy} \sigma_y^2
C_{YY,YY} = V( (Y-\mu_y)^2 ) = E(Y-\mu_y)^4-\sigma_y^4

(b)
 \sqrt{n}(r-\rho) \xrightarrow{d} \mathcal{N}(0,\gamma^2)
ただし、\displaystyle
\gamma^2 = \frac{1}{4} \rho^2 \left( \frac{C_{XX,XX}}{\sigma_x^4}+2\frac{C_{XX,YY}}{\sigma_x^2 \sigma_y^2}+\frac{C_{YY,YY}}{\sigma_y^4} \right) -\rho \left( \frac{C_{XX,XY}}{\sigma_x^3 \sigma_y}+\frac{C_{XY,YY}}{\sigma_x \sigma_y^3} \right) + \frac{C_{XX,XY}}{\sigma_x^2 \sigma_y^2}

証明の方針:
一般性を失わずに$\mu_x=\mu_y=0$とする。多変量中心極限定理を用いて、$(m_x,m_y,m_{xx},m_{xy},m_{yy})^t$の漸近分布を求める。
ここで、
\displaystyle m_x = (1/n)\sum_{i=1}^n X_i ,\ \ \displaystyle m_y = (1/n)\sum_{i=1}^n Y_i ,\ \ \displaystyle m_{xx} = (1/n)\sum_{i=1}^n X_i^2, \ \ \displaystyle m_{yy} = (1/n)\sum_{i=1}^n Y_i^2 , \ \ \displaystyle m_{xy} = (1/n)\sum_{i=1}^n X_i Y_iである。
次に、クラメールの定理で関数$\boldsymbol{g}(m_x,m_y,m_{xx},m_{xy},m_{yy}) = (m_{xx}-m_x^2,m_{xy}-m_x m_y,m_{yy}-m_y^2)^t$とする。

具体的に$\gamma^2$の値を求めるには、真の分布の仮定が必要。平均0、分散1としても一般性を失わない。正規母集団のときに$\gamma^2$の値を求めると、$(1-\rho^2)^2$となる。
よって、$\sqrt{n}(r-\rho) \xrightarrow{d} \mathcal{N}(0,(1-\rho^2)^2)$


分散安定化変換

相関係数の検定において、$\sqrt{n}(r-\rho) \xrightarrow{d} \mathcal{N}(0,(1-\rho^2)^2)$であるが、これを$\rho$によって、漸近分散が変わらないようにしたい。つまり、$\sqrt{n}(g(r)-g(\rho) ) \xrightarrow{d} \mathcal{N}(0,1)$となるような変換$g(r)$を見つけたい。この変換を分散安定化変換という。クラメールの定理から、$\sqrt{n}(g(r)-g(\rho) ) \xrightarrow{d} \mathcal{N}(0,g'(\rho)^2(1-\rho^2)^2 )$なので、$g'(\rho)^2(1-\rho^2)^2=1$という微分方程式を解けばよい。解のひとつは$g'(\rho)=1/(1-\rho^2)$より、
\displaystyle
g(\rho) = \int \frac{1}{1-\rho^2}d\rho = \int \left( \frac{1}{2(1-\rho)}+\frac{1}{2(1+\rho)} \right) d\rho = (1/2)\log \frac{1+\rho}{1-\rho} = tanh^{-1}\rho
よって、
\displaystyle
\sqrt{n}( (1/2)\log \frac{1+r}{1-r}-(1/2)\log \frac{1+\rho}{1-\rho} ) \xrightarrow{d} \mathcal{N}(0,1)


より一般に、

\displaystyle \frac{X_n-\theta}{\sigma(\theta)b_n} \xrightarrow{d} \mathcal{N}(0,1) \ (b_n \to 0, n \to \infty)のとき、適当な変換$g(X_n)$が存在して、
\displaystyle
\frac{g(X_n)-g(\theta)}{cb_n} \xrightarrow{d} \mathcal{N}(0,1)
となる場合がある。ここで、cはパラメータ$\theta$に依存しない定数、このような変換を分散安定化変換という。
 特に、$g'(\theta)$が存在し、0でない場合には上の変数変換の定理より、
\displaystyle
\frac{(g(X_n)-g'(\theta))}{g'(\theta)\sigma(\theta)b_n} \xrightarrow{d} \mathcal{N}(0,1)
ここで、このような変換とは以下の微分方程式を満足するものである。
\displaystyle
\frac{dg(\theta)}{d\theta} = \frac{c}{\sigma(\theta)}