大数の法則 - 元材料研究者、統計学者を目指す

大数の法則とは
強法則と弱法則
チェビシェフの弱法則
ヒンチンの弱法則
平均2次収束
コルモゴロフの強法則
経験分布関数の一致性とグリベンコ・カンテリの定理
回帰係数の最小2乗推定量の一致性
AR(1)の標本平均の収束

大数の法則とは

おおざっぱにいうと、$(1/n)(S_n-E(S_n))$が0に収束するということ、あるいは、ある分布からの標本平均がその分布の平均にある意味で収束するということ。その収束が確率収束（この場合定数への収束なので法則収束と同値）ならば弱法則、概収束ならば強法則といわれる。一方、統計学で最もよく使われるのは、分布が2次の積率を持ち、収束が$L_2$収束になるときである。

強法則と弱法則

$\{X_i\}$の性質（条件）によって、強法則or弱法則になる。

強法則：
$\displaystyle \frac{1}{n}\sum_{i=1}^n \{X_i - E(X_i)\} \xrightarrow{a.s.} 0$
弱法則：
$\displaystyle \frac{1}{n}\sum_{i=1}^n \{X_i - E(X_i)\} \xrightarrow{P} 0$

この意味の違いについて（国沢、確率統計演習1、p183）
”銅貨を無限回投げる”ことを1回の試行としてこの試行をN回行ったとき、このN回の各試行のうち”n回目までに表が出た割合”が1/2に近いことが多いということ（nはもちろんNも十分大きいとしている）が弱法則の意味するところである。これに対して強法則は各試行でN回とも$\lim_{n\to\infty}(X_1+\cdots+X_n)=1/2$が成り立つことの数学的表現である。

チェビシェフの弱法則

これは分かりやすいが、条件としては実際上過分であることが分かっている。

$E(X_i) = \mu_i < \infty, \ Var(X_i) = \sigma_i^2 < \infty, Cov(X_i,X_j) = 0 (i \neq j)$ なる確率変数列$\{X_i\}$について、 $\overline{X}-\overline{\mu} \xrightarrow{P} 0$

$\because$ $\frac{1}{n^2}\sum_{i=1}^n \sigma_i^2 = Var(\overline{X})\rightarrow 0$ より$Var(\overline{X})$が有界であること（存在すること）を仮定しているので、チェビシェフの不等式より、$\forall \epsilon > 0$に対して
$\displaystyle P(|\overline{X}-\overline{\mu}| > \epsilon) \leq \frac{1}{n^2\epsilon^2}\sum_{i=1}^n \sigma_i^2$ 。右辺は0に収束するので、題意の確率収束が示せた。

特に、$\{X_i\}$がi.i.dであるなら、 $\mu_1=\cdots=\mu, \ \sigma_1^2=\cdots=\sigma^2$ とすると、 $\overline{X}-\mu \xrightarrow{P} 0$

i.i.d.の場合、特性関数の収束を用いれば、1次のモーメントの存在だけで弱法則が言える。確率そのものをChebyshev boundで抑えて近似するか、特性関数をテイラー展開で近似するかの違いといってもよい。

ヒンチンの弱法則

i.i.d.であるときに、$E(X_i)=\mu < \infty$であれば、 $\overline{X}-\mu \xrightarrow{P} 0$

（$\because$）$\phi_{X_i}(t)$を$X_i$の特性関数とすると、$\overline{X}$の特性関数は$\phi_{\overline{X}}(t)=E(e^{it\overline{X}})=[\phi(\frac{t}{n})]^n=[1+i\frac{t}{n}\mu+o(\frac{t}{n})]^n \rightarrow e^{it\mu}$。よって連続定理より、$\overline{X}_n \xrightarrow{d} \mu \Rightarrow \overline{X}_n \xrightarrow{P} \mu$

厳密には、チェビシェフの弱法則では確率変数列の独立ではなく無相関を仮定している違いはあるが、実用上あまり緩くなることにはならない。

平均2次収束

確率変数列が無相関で同じ平均と分散を持つ（独立性や独立同分布は仮定しない）とき（もちろん平均および分散が存在することも仮定）、 $\overline{X}-\mu \xrightarrow{L_2} 0$

$(\because)$（多次元の一般的な場合を示す）
$\displaystyle \begin{aligned} E|\overline{X}-\mu|^2&=E(\overline{X}-\mu)^t(\overline{X}-\mu) \\ &=E(\frac{X_1+\cdots+X_n}{n}-\mu)^t(\frac{X_1+\cdots+X_n}{n}-\mu) \\ &=\frac{1}{n^2}(E(X_1-\mu)^t(X_1-\mu)+\cdots+E(X_n-\mu)^t(X_n-\mu)) \\ &=\frac{1}{n}E(X-\mu)^t(X-\mu) \ \ (\because 分散同じ) \\ & \rightarrow 0 \ \ (分散有限) \end{aligned}$

上記の証明法は統計的推定問題において一致性を示すときに有用。考える確率分布が母数$\theta \in \Theta \subset \mathbb{R}^d$に依存し、$\theta$の推定量$\hat{\theta_n}$は確率変数列として与えられる。任意の$\theta \in \Theta$に関して考えている確率分布が真の確率分布であるとき$\hat{\theta_n} \xrightarrow{P} \theta$であれば、$\hat{\theta_n}$は一致性を持つという。特にこれが概収束の意味で成立するなら強一致性を持つといい、$L_2$収束するなら$L_2$一致性を持つという。

$L_2$収束するなら、確率収束もする。証明を見る限り、その収束率は少なくとも$1/n$である。実際にはさらに早く指数的に減少することが示せる（大偏差理論）。

コルモゴロフの強法則

確率変数列が独立で、 $Var(X_i) = \sigma_i^2 < \infty$ であるとき、$S_n = \sum_{i=1}^n X_i$とすると、
$\displaystyle \sum_{k=1}^{\infty}\frac{1}{k^2}\sigma_k^2 < \infty \Rightarrow \frac{1}{n}(S_n-E(S_n)) \xrightarrow{a.s.} 0$

部分和と部分和の期待値は$n$より小さい速度で大きくなる。

特に、$\{X_i\}$がi.i.d.系列であれば、その他同一条件において、
$\displaystyle \sum_{k=1}^{\infty}\frac{1}{k^2}\sigma_k^2 < \infty$ が成立するので、 $\overline{X}-\mu \xrightarrow{a.s.} 0$

また、$\{X_i\}$がi.i.d.系列であれば、$E(|X_i|) < \infty$がいえれば、これは
$\overline{X}-\mu \xrightarrow{a.s.} 0$ の必要十分条件となる。

経験分布関数の一致性とグリベンコ・カンテリの定理

上記の大数の法則より経験分布関数の一致性とそれを改良したグリベンコ・カンテリの定理が示せる。

$X_1,\cdots,X_n$を$\mathbb{R}$上の独立同分布な確率変数列とし、分布関数を$F(x)=P(X \leq x)$、経験分布関数を$F_n(x)=\frac{1}{n}\sum_{i=1}^n I(X_i \leq x)$とする。このとき、任意にxを固定すると、大数の強法則より$F_n(x) \xrightarrow{a.s.} F(x)$である。

$X_i$は確率変数であるので、$I(X_i \leq x)$も$F_n(x)$も確率変数である。今、$X_i$が独立同分布であるので、$I(X_i \leq x)$も独立同分布な確率変数列である。よって、任意のxを固定したとき、大数の強法則よりこの標本平均（＝経験分布関数）は期待値（＝分布関数）に等しい。
結局、$F_n(x)$は$F(x)$の強一致推定量である。

グリベンコ・カンテリの定理は、まず収束は確率1の集合上で起こるが、その集合はxに無関係にとれること、また収束はxに関して一様であることの２点において上記の定理を改良する。

$\displaystyle P(\sup_x |F_n(x)-F(x)|\rightarrow 0) = 1$

回帰係数の最小2乗推定量の一致性

与えられた$z_1,z_2,\cdots$に対して、$X_1,X_2,\cdots$は独立で線形回帰$E(X_i)=\alpha+\beta z_i$で平均が与えられ、一定の分散 $V(X_i)=\sigma^2$ を持つとする。このとき、$alpha, \beta$の最小二乗推定量は次で与えられる。
$\displaystyle \hat{\beta_n} = \sum_{i=1}^n \frac{(z_i-\overline{z_n})}{\sum_{i=1}^n (z_i-\overline{z_n})^2}X_i$
$\hat{\alpha_n} = \overline{X_n}-\hat{\beta_n}\overline{z_n}$
これらが$\beta, \alpha$に$L_2$収束する条件を求める。

まず推定量の不偏性を調べる。不偏性を持つなら、平均二次収束を言うには、分散が0に収束することを言えばよい。$z_i$は確率変数ではなく、確率的な変動もしない（分散を生じない）ことに注意。$X_i$（あるいは明示していないが誤差項$\epsilon_i$が確率的に変動する確率変数である）。この最小二乗推定量自体の導出や、ガウス・マルコフの定理より最小二乗推定量が最良線形不偏推定量であることは統計モデルの記事で示す。

AR(1)の標本平均の収束

$\epsilon_1,\epsilon_2,\cdots$は独立で、すべて同じ平均$\mu$と分散 $\sigma^2$ をもつ。定常AR(1)：$X_n = \beta X_{n-1}+\epsilon_n \ (|\beta| < 1)$（初期値$X_1=\epsilon_1$とする）の標本平均$\overline{X}_n \xrightarrow{L_2} \mu/1-\beta$を示す。

MA過程で表現すると、$X_n=\sum_{i=1}^n \epsilon_i \beta^{n-i}$より
$\displaystyle \overline{X}_n = \frac{1}{n}\sum_{j=1}^n \sum_{i=1}^j \epsilon_i \beta^{j-i} = \frac{1}{n}\sum_{j=1}^n \frac{\epsilon_i(1-\beta^{n-i+1})}{1-\beta}$
よって、期待値は
$\displaytyle \begin{aligned} E(\overline{X}_n) &= \frac{1}{n} \frac{\mu}{1-\beta} \sum_{i=1}^n (1-\beta^i) \\ &= \frac{1}{n} \frac{\mu}{1-\beta}(n-\frac{\beta(1-\beta^n)}{1-\beta}) \\ &= \frac{\mu}{1-\beta}-\frac{\beta \mu}{n}\frac{1-\beta^n}{(1-\beta)^2} \rightarrow \frac{\mu}{1-\beta} \end{aligned}$
また、$E(\overline{X}_n-\mu/(1-\beta))^2 = V(\overline{X}_n)+(E(\overline{X}_n)-\mu/(1-\beta))^2$であり、
$\displaystyle V(\overline{X}_n)=\frac{1}{n^2}\sum_{i=1}^n \frac{\sigma^2(1-\beta^{n-i+1})^2}{1-\beta^2} \le \frac{4\sigma^2}{n(1-\beta)^2} \rightarrow 0$
以上より$L_2$収束が示せた。