確率変数の収束


準備

  • 確率ベクトル:$\textbf{X}=(X_1,X_2,\dots,X_d)^t \in \mathbb{R}^d $
  • $\textbf{X}$の分布関数:$F_{\textbf{X}}(\textbf{x}) = P(\textbf{X} \leq \textbf{x}) = P(X_1 \leq x_1,X_2 \leq x_2,\dots,X_d \leq x_d)$

ただし、$\textbf{x}=(x_1,x_2,\dots,x_d)^t \in \mathbb{R}^d$である。

  • 確率ベクトル$\textbf{X} \in \mathbb{R}^d$がある定数$\textbf{c} \in \mathbb{R}^n$に対して、$P(\textbf{X}=\textbf{c})=1$となるとき、

点$\textbf{c}$に退化しているという。

  • ベクトル$\textbf{x}=(x_1,x_2,\dots,x_d)^t$のユークリッドノルム$| \textbf{x} |=(x_1^2,x_2^2,\dots,x_d^2)^{1/2}$



収束を議論するということは何らかの列を考えているわけである。何の列を考えているかで様々な収束が考えられる。まず確率変数の収束を定義する。

確率変数の収束

確率変数は($\mathcal{F}$可測な)関数なので、関数列の収束(https://karate-odori.hatenablog.com/entry/2019/09/24/094931)で収束を考えることができる。

すべての$\omega \in D_0$で、すべての$\epsilon > 0$に対して、整数$n_0(\epsilon,\omega)$が存在して、$n \geq n_0(\epsilon,\omega)$ならば、$|X_n(\omega) - X(\omega)| < \epsilon$になるとき、$\{X_n\}$は$D_0$上のいたるところでXに収束するという。つまり、すべての$\omega \in D_0$で$\lim_{n\to\infty}X_n(\omega) = X(\omega)$

f:id:karate_odori:20191030015343p:plain

  • $n_0(\epsilon,\omega)$は$\omega$に依存しているので、関数列の各点収束の考え方である($\omega$に依存しなければ一様収束となる)
  • 上記は制限された$D_0$上での収束なので、$\{\omega : \lim_{n\to\infty}X_n(\omega) = X(\omega)\}$なる集合を考えることができる(この事象の確率が1であることが後述する確率1収束である)。
  • 上記の「すべての$\epsilon > 0$に対して」を「すべての$\epsilon_k \downarrow 0 \ (k\to\infty)$なる数列$\{\epsilon_k\}$に対して」と言い換えることができる。例えば、整数$n_0(\epsilon,\omega)$が存在して、$n \geq n_0(\epsilon,\omega)$ならば、$|X_n(\omega)-X(\omega)| \le 1/k, \ k=1,2,\cdots$。
  • 実数列の収束の時同様コーシー列を定義できる。すべての$\omega \in D_0$で、すべての$\epsilon > 0$に対して、整数$n_0(\epsilon,\omega)$が存在して、$n,m \geq n_0(\epsilon,\omega)$ならば、$|X_n(\omega)-X_m(\omega)| < \epsilon$になるとき、$\{X_n\}$は$D_0$上のいたるところでコーシー列という。コーシー列で着目している差は収束先との差ではなく、列の任意の2点間の差であることに注意。

f:id:karate_odori:20191030015756p:plain


$X_1,X_2,X_3,\cdots$を確率空間$(\Omega,\mathcal{F},P)$で定義された確率変数とする。

確率1収束(概収束)

\displaystyle
P(\lim_{n\to\infty}\boldsymbol{X}_n = \boldsymbol{X}) = 1
であるとき、$\boldsymbol{X}_n$は$\boldsymbol{X}$に概収束するという

これは、$\omega \in E^c$ならば、$\lim_{n\to\infty}X_n(\omega) = X(\omega)$となる確率0事象$E \in \mathcal{F}$が存在するということである。
$\boldsymbol{X}_n \xrightarrow{a.s.} \boldsymbol{X}$と表記する。強収束ともいわれる。
標本空間を$\Omega$とするとき、概収束は”ほとんどすべての”$\omega \in \Omega$を固定したときにできる数列$\{ X_n(\omega)\}$の収束であり、関数の各点収束の概念に相当する。上極限・下極限を用いれば各$\omega \in \Omega$に対して、$\{ X_n\}$の上極限・下極限をそれぞれ\displaystyle\lim_{n\to\infty} \sup X_n (\omega) = \lim_{n\to\infty} \left\{ \sup_{k \geq n} X_n (\omega) \right\}, \displaystyle \lim_{n\to\infty} \inf X_n (\omega) = \lim_{n\to\infty} \left\{ \inf_{k \geq n} X_n (\omega) \right\}と定義したときに、\displaystyle \lim_{n\to\infty} \sup X_n (\omega) = \lim_{n\to\infty} \inf X_n (\omega)の場合にそれを\displaystyle \lim_{n\to\infty} X_nと表現する。
このような$X$が確率変数であることが保証されるためには、確率空間が完備であればよい。このような$X$を概収束極限という。

以下の性質を持つ。

1. 概収束先は確率1で一意
$X_n \xrightarrow{a.s.} X$で、かつ、$X_n \xrightarrow{a.s.} X*$なら、$P(X=X*)=1$,つまり、$X=X* , a.s.$

2. 確率1収束とコーシー列の関係
$X_n \xrightarrow{a.s.} X \Leftrightarrow |X_m - X_n| \xrightarrow{a.s.} 0, \ \ \ \ \ m,n \to \infty$

イメージ:任意の2点間の確率変数が近くなることと同値

3. $X_n \xrightarrow{a.s.} X \Leftrightarrow P(|X_n - X| \geq \frac{1}{k}, \ i.o.) = 0, \ \ \ \ \ k=1,2,\cdots$

イメージ:右辺はある$\omega$について、有限個のnのみで$|X_n(\omega)-X(\omega)| \ge 1/k$を主張。よって、$n\to\infty$で$|X_n(\omega)-X(\omega)| \to 0$

4. 確率1収束のそのほかの同値表現

すべての$\epsilon > 0$で、\displaystyle \lim_{n\to\infty}P(\sup_{m \geq n}|X_m-X| \geq \epsilon)=0
\displaystyle\Leftrightarrow  \lim_{n\to\infty}P(あるm \geq nで|X_m-X| \geq \epsilon)=0
\displaystyle\Leftrightarrow  \lim_{n\to\infty}P(すべてのm \geq nで|X_m-X| \le \epsilon)=1
イメージ:確率変数列の収束の代わりに、収束先との差のsupを考えている。

すべての$\epsilon > 0$で、\displaystyle\lim_{n\to\infty} P(\sum_{m \geq n}|X_{m+n}-X_n| \geq \epsilon) = 0
\displaystyle \Leftrightarrow  \lim_{n\to\infty}P(\bigcup_{m=1}^{\infty}|X_{m+n}-X_n| \geq \epsilon)=0
\displaystyle \Leftrightarrow  \lim_{n\to\infty}P(あるm' \ge m \geq nで、|X_{m'}-X_m| \geq \epsilon)=0
イメージ:確率変数列の収束の代わりに、確率変数間の差のsupを考えている。

f:id:karate_odori:20191030021518p:plain


確率1収束の十分条件(確率1収束が成立するためには)

1. すべての$\epsilon > 0$で、\displaystyle \sum_{n=1}^{\infty}P[|X_n - X| \geq \epsilon] \le \infty \Rightarrow X_n \xrightarrow{a.s.} X

これはボレル=カンテリの補題より上の3の右から左を考えているのと等価。

2. すべての正の整数列$\{\epsilon_n\},\epsilon \downarrow 0 (n\to\infty)$で
\displaystyle \sum_{n=1}^{\infty}P[|X_n - X| \geq \epsilon_n] \le \infty \Rightarrow X_n \xrightarrow{a.s.} X

これも上と同様。

3. $r > 0, \ \sum_{n=1}^{\infty}E(|X_n-X|^r) < \infty \Rightarrow X_n \xrightarrow{a.s.} X$

マルコフの不等式により平均と確率の関係を評価できることを利用する。


確率1収束の必要条件(確率1収束成立で言えること)

$\{X_n\}$が独立な確率変数列であるとき、$0 < \epsilon < \infty$で、$X_n \xrightarrow{a.s.} X \Rightarrow \sum_{n=1}^{\infty}P[|X_n| \geq \epsilon] \le \infty$

$\{X_n\}$が互いに独立だと、十分条件の逆が言えることを主張。


概収束の例

$\{X_n\}$を確率変数の列とし、$P(X_n=1/n)=P(X_n=-1/n)=1/2$とすると、$\epsilon > 0$に対し、$P(|X_n \geq \epsilon|)$について、$n > 1/\epsilon$とすると、
$P(|X_n \geq \epsilon|) \leq P(|X_n| \ge 1/n) = 0$。よって、$X_n \xrightarrow{a.s.} 0$



確率収束

任意の$\epsilon > 0$に対して

P(|\textbf{X}_n - \textbf{X}| \ge \epsilon) \rightarrow 0 \ (n \rightarrow \infty)
または
P(|\textbf{X}_n - \textbf{X}| \le \epsilon) \rightarrow 1 \ (n \rightarrow \infty)
であるとき、$\textbf{X}_n$は$\textbf{X}$に確率収束するという

$X_n$が確率ベクトルの場合、絶対値の代わりにノルムを用いる。この収束は解析的な意味での$X_n$の$X$への収束を言っているのではなく、実数列$\{P[|X_n-X| < \epsilon]\}$の1への収束を言っている。
f:id:karate_odori:20191031211412p:plain

  • $\textbf{X}_n \xrightarrow{P} \textbf{X}$と表記する。
  • 以下の性質を持つ

1. 確率収束先は確率1で一意(概収束の場合と同じ)
$X_n \xrightarrow{P} X, \ X_n \xrightarrow{P} X* \ \Rightarrow P(X=X*)=1(つまりX=X* , a.s.)$

2. 確率1収束なら確率収束する(収束の強弱:確率1収束>確率収束)
$X_n \xrightarrow{a.s.} X \ \Rightarrow X_n \xrightarrow{P}X$

3. 任意の狭義の単調増加な自然数列$n'$に対してその部分列$n''$を選んで$X_{n''} \xrightarrow{a.s.} X$とできることと同値

これを使うと、確率収束を扱うときに概収束を利用することができる。一般に概収束は扱いやすい(まるで普通の実数列や関数列の収束のように扱えるという意味で)。例えば、$g(x)$が$x$に関して連続の時、確率1で$X_n \rightarrow X$(概収束)ならば、確率1で$g(X_n) \rightarrow g(X)$である(continuous mapping)。これが確率収束でも成り立つことを言うために上記の性質を利用できる。つまり、$g(X_n) \xrightarrow{P} g(X)$を示すには、任意の部分列$n'$
に対して$g(X_{n''}) \xrightarrow{a.s.} g(X)$であるようなさらなる部分列$n''$が存在することを示せばよい。今、$X_n \xrightarrow{P} X$のとき、任意の部分列$n'$に対して$X_{n''} \xrightarrow{a.s.} X$となるようなさらなる部分列が存在する。そのとき、$g(X_{n''}) \xrightarrow{a.s.} g(X)$となるので、証明ができる。


4. 確率収束とコーシー列との関係
すべての$\epsilon > 0$について、$P(|X_n-X_m| \geq \epsilon) \rightarrow 0, \ \ m,n \rightarrow \infty$と同値

確率収束の十分条件(確率収束が言えるためには)

$r > 0, \ \lim_{n\to\infty} E(|X_n-X|^r)=0 \Rightarrow X_n \xrightarrow{P} X$

($\because$)
マルコフの不等式より$P(|X_n-X| \geq \epsilon) = P(|X_n-X|^r \geq \epsilon^r) \leq \frac{E[|X_n-X|^r]}{\epsilon^r} \rightarrow 0$

これは後述のr次平均収束$E(|X_n-X|^r) \rightarrow 0$が確率収束$X_n \xrightarrow{P} X$よりも強いことを主張している。

確率収束の必要条件(確率収束が言えると言えること)

$X_n \xrightarrow{P} X \ \Rightarrow X_{n_k} \xrightarrow{a.s.} X$なる部分列$\{X_{n_k}\}$が存在

イメージ:f:id:karate_odori:20191031224102p:plain

確率収束の例

$\{X_n\}$を確率変数の列とし、$P(X_n=1)=1/n , P(X_n=0)=1-1/n$とすると、

P(|X_n| \geq \epsilon)= 
   \left\{
    \begin{array}{l}
      P(X_n=1)=1/n \ \ 0 < \epsilon \leq 1\\
      0 \ \ \epsilon > 1
    \end{array}
  \right.
よって、$P(|X_n| > \epsilon) \rightarrow 0$。したがって、$X_n \xrightarrow{P} 0$

確率収束と概収束の違いを厳密に考える

すでに上で2つの収束の違いのイメージを述べたが、ここではより厳密に考える。
確率収束は任意の$\epsilon > 0$に対して、$X_n$が$X$の$\epsilon$近傍にある確率が1に収束することを主張するのに対し、概収束は任意の$\epsilon > 0$に対して、$k \geq n$なるすべてのkについて$X_k$が$X$の$\epsilon$近傍にある確率が1に収束することを主張する。

f:id:karate_odori:20190928120400p:plain
確率収束と概収束の違い
これを示すために、概収束を次のように言い換える

補題
$X_n \xrightarrow{a.s.} X$は次に同値。任意の$\epsilon \ge 0$に対して
$P(すべてのk \geq nに対して|X_k - X| \le \epsilon) \rightarrow 1 \ (n \rightarrow \infty)$

$\because$
\begin{aligned}
&[\lim_{n\to\infty} X_n = X] \\
& = [任意の\epsilon \ge 0に対して、あるn \geq 1$存在して、すべてのk \geq nに対して|X_k - X| \le \epsilon] \\
& = \bigcap_{\epsilon \ge 0}[あるn \geq 1$存在して、すべてのk \geq nに対して|X_k - X| \le \epsilon] \\
& = \bigcap_{\epsilon \ge 0} \bigcup_{n=1}^{\infty} A_{n,\epsilon}
\end{aligned}
ここで、$A_{n,\epsilon}$は集合$[すべてのk \geq nに対して|X_k - X| \le \epsilon]$である。
さて、$\bigcup_{n=1}^{\infty} A_{n,\epsilon}$は$\epsilon \rightarrow 0$に対して単調減少なので、$\bigcap_{\epsilon \ge 0} \bigcup_{n=1}^{\infty} A_{n,\epsilon}$に収束する。したがって
$X_n \xrightarrow{a.s.} X \ \Leftrightarrow \ P\left( \bigcap_{\epsilon \ge 0} \bigcup_{n=1}^{\infty} A_{n,\epsilon}\right) = 1$であり、さらに任意の$\epsilon \ge 0$に対して、$P( \bigcup_{n=1}^{\infty} A_{n,\epsilon}) = 1$に同値である。また、$A_{n,\epsilon}$は$n \rightarrow \infty$のとき単調増加なので、$\bigcup_{n=1}^{\infty} A_{n,\epsilon}$に収束する。したがって、上はさらにいかに同値。
任意の$\epsilon \ge 0$に対して $P(A_{n,\epsilon}) \rightarrow 1 \ (n \rightarrow \infty)$
よって題意は示された。               



平均r次収束($L_r$収束)

ある正数$r > 0$に対して、$E|X|^r < \infty , E|X_n|^r < \infty$であり、

E|\boldsymbol{X}_n - \boldsymbol{X}|^r  \rightarrow 0 \ \ \ (n \rightarrow \infty)
であるとき、$\boldsymbol{X}_n$は$\boldsymbol{X}$に$L_r$収束する(あるいはr次の平均収束する)という

  • $\boldsymbol{X}_n \xrightarrow{L_r} \boldsymbol{X}$と表記する。
  • 2次の平均収束(平均二乗収束)が最も重要。
  • 以下の性質を持つ。

1. 平均r次収束におけるコーシー列
$X_n \xrightarrow{L_r} X \Leftrightarrow E[|X_m-X_n|^r] \rightarrow 0, \ \ \ m,n \rightarrow \infty$

$\because$$c_r$不等式より明らか

2. より低次の平均収束が言える
$0 < s < r$ならば、$X_n \xrightarrow{L_r} X \Rightarrow X_n \xrightarrow{L_s} X$

3.$X_n \xrightarrow{L_r} X \Rightarrow E(|X_n|^r) \rightarrow E(|X|^r)$

平均r次収束の例

$\{X_n\}$を確率変数の列とし、$P(X_n=1)=1/n , P(X_n=0)=1-1/n$とすると、
$E|X|^r=1/n \rightarrow 0$より、$X_n \xrightarrow{L_r} 0 $



法則収束

$X,X_1,X_2,X_3,\cdots$を確率変数とし、$F,F_1,F_2,F_3,\cdots$、および、$P,P_1,P_2,P_3,\cdots$をそれぞれ対応する分布関数および確率分布とする。

$F_{\boldsymbol{X}}$の任意の連続点$\boldsymbol{x}$において、$F_{\boldsymbol{X}_n}(\boldsymbol{x}) \rightarrow F_{\boldsymbol{X}}(\boldsymbol{x})$が成立するとき、$\boldsymbol{X}_n$は$\boldsymbol{X}$に法則収束するという

  • $\textbf{X}_n \xrightarrow{d} \textbf{X}$と表記する。このとき$X$の分布を$X_n$の漸近分布または極限分布という。
  • 最もよく用いられる収束である(多くの場合これで十分なことが多い)。
  • 分布関数列$\{F_n\}$が分布関数$F$に弱収束するともいい、$F_n \rightarrow F$とかく。
  • 基本的には各点収束の考えだが、任意の$F_X$の連続点だけ考えているので、そういう意味では微妙に違う。

収束先の分布関数が連続のときは、自動的に関数の一様収束を考えていることになることが知られている。つまり、$F_{X_n}(x) \rightarrow F_X(x) \Rightarrow \sup_{x}|F_{X_n}(x)-F_X(x)| \rightarrow 0$

  • 注意:「確率変数が同じ」≠「等しい分布を持つ」例えば、独立な2つのサイコロの出目は確率変数としては異なるが、等しい確率分布を持つ。
  • 法則収束を調べるだけなら、$\textbf{X}_n$と$\textbf{X}$の同時分布について知る必要はない。一方、確率収束や$L_r$収束の場合、確率計算が必要なので、同時分布が定義されていなければならない。例えば、$X_1,X_2,\dots$がi.i.d.で平均0分散1の正規分布に従っている場合、$X_n \xrightarrow{d} X_1$だが、$X_n \xrightarrow{P} X_1$でない。

法則収束の同値表現

1. ヘリー=ブレイの定理
分布関数の収束をその分布関数によるある条件の関数の期待値の収束に言い換える
すべての有界な連続関数gに対して\displaystyle \lim_{n\to\infty}\int_{-\infty}^{\infty}gdF_n = \int_{-\infty}^{\infty}gdF
$\Leftrightarrow$すべての閉集合Cに対し$\overline{ \lim_{n\to\infty} }P_n(C) \leq P(C)$
$\Leftrightarrow$すべての開集合Vに対し$\underline{\lim_{n\to\infty}}P_n(V) \geq P(V)$

開集合および閉集合に関してはこちら*1を参照

2. 連続定理
特性関数の収束と法則収束はある条件で同値
$\phi_n(t), \phi(t)$をそれぞれ$X_n, X$の特性関数とし、$\phi(t)$は0で連続であるとすると、$\phi_n(t) \to \phi(t) \Leftrightarrow X_n \xrightarrow{d} X$

特性関数$\phi_n(t) \rightarrow \phi(t)$はtについての各点収束をいっている
例えば、$\{X_n\}$について、それぞれ正規分布に従い、$E(X_n)=1/2^n, V(X_n)1/3^n$とするとき、$Y_n=X_1+\cdots+X_n$の法則収束を考える。
特性関数とは任意の$\boldsymbol{X} \in \mathbb{R}^d, \boldsymbol{t} \in \mathbb{R}^d$に対して$\phi_\boldsymbol{X}(\boldsymbol{t})=E\exp(i\boldsymbol{t}^t\boldsymbol{X})=Eexp(i(t_1X_1+\cdots+t_dX_d))$である。
また、互いに独立な確率変数の和の特性関数はそれらの特性関数の積になることから、$Y_n$の特性関数を$\phi_n(t)$とすると
\begin{aligned}
\phi_n(t)&=\prod_{k=1}^{n} \phi_k(t)=\prod_{k=1}^{n} \exp(-\frac{V(X_k)t^2}{2})exp(itE(X_k)) \\
&=\exp\left\{ -\frac{t^2}{2}\left(\sum_{k=1}^n \frac{1}{3^k}\right) \right\}\exp\left\{ it\left(\sum_{k=1}^n \frac{1}{2^k}\right) \right\}
&\rightarrow \exp(-\frac{t^2}{4})\exp(it)
\end{aligned}
となり、これは分散$1/2$、平均$1$の正規分布の特性関数なので、$\forall t$について特性関数の収束が言えるから法則収束が言える。


注意:
特性関数の収束先が何らかの特性関数に収束することを仮定していない場合は各点収束では不十分であり、原点$t=0$付近での一様収束が言えると十分である(レビーの定理)

例えば、

p_n(x) = 
   \left\{
    \begin{array}{l}
      \frac{1}{2n} \ \ (|x| \le n)\\
      0 \ \ otherwise
    \end{array}
  \right.
のとき、特性関数は$\phi_n(t) = \int_{-\infty}^{\infty}e^{itx}p_n(x) dx = \int_{-n}^{n}e^{itx}1/2n dx = \frac{\sin nt}{nt}$
となる(最後の式は$t=0$で定義されないが、$t \rightarrow 0$の極限値と等しいので$t=0$も含める)。この特性関数は$n \rightarrow \infty$では

\phi_n(t) = 
   \left\{
    \begin{array}{l}
      0 \ \ (t \neq 0)\\
      1 \ \ (t = 0)
    \end{array}
  \right.
に各点収束する。しかしこれは$t=0$では$n \rightarrow \infty$としなくても1に収束するので、$t=0$近傍では明らかに一様収束にならない。したがって、これは何らかの確率変数の特性関数にはならず、法則収束もしない。

法則収束の十分条件

シェフェの(有用収束)定理
確率密度関数または確率関数の収束は法則収束を意味する
1. 確率変数$X_n$の確率密度関数を$f_n$とし、確率変数Xの確率密度関数をfとすると、(ルベーグ測度について)ほとんどすべての$x \in \mathbb{R}(a.e.)$で、\displaystyle \lim_{n\to\infty}f_n(x) = f(x) \Rightarrow X_n \xrightarrow{d} X

2. $X_n$を整数$0,1,2,\cdots$をとる離散型の確率変数とし、$f_n(k)$をその確率関数とするとき、すべての$x$で\displaystyle \lim_{n\to\infty}f_n(x) = f(x)なる$f$が存在$\Leftrightarrow X_n \xrightarrow{d} X$
ここで、Xはfを確率関数とする確率変数である

密度の各点収束は分布関数の収束としては法則収束よりもかなり強い。
法則収束⇒$A=\{x : x \leq a\}$という形のすべての集合において、$P(X_n \in A) \rightarrow P(X \in A)$
密度の収束⇒すべてのボレル集合Aにおいて$P(X_n \in A) \rightarrow P(X \in A)$かつその収束は一様、つまり$X_n$と$X$が同じ測度$\nu$に関して、それぞれ密度$f_n(x)$と$f(x)$を持つならば、任意のxにおいて$f_n(x) \rightarrow f(x)$のとき、$\sup_A|P(X_n \in A) - P(X \in A)| \rightarrow 0$



クラメール=ウォルドの方法

多変量の法則収束を一変量の法則収束に変換する

$\boldsymbol{X}_n$をk次元確率ベクトルとし、$\boldsymbol{a} \in \mathbb{R}^k$とする。
$\boldsymbol{X}_n \xrightarrow{d} \boldsymbol{X} \Leftrightarrow 任意の\boldsymbol{a} \in \mathbb{R}^kについて\boldsymbol{a}^t \boldsymbol{X}_n \xrightarrow{d} \boldsymbol{a}^t \boldsymbol{X}$

連続定理を用いると、
$a_1X_{n_1}+\cdots+a_kX_{n_k} \xrightarrow{d} a_1X_1+\cdots+a_kX_k$
$\Leftrightarrow \phi_n(t_1a_1,\cdots,t_ka_k) \to \phi(t_1a_1,\cdots,t_ka_k)$
$\boldsymbol{a}$は任意なので、$\Leftrightarrow \phi_n(t_1,\cdots,t_k) \to \phi(t_1,\cdots,t_k) \Leftrightarrow X_n \xrightarrow{d} X$


法則収束の例

1. $X_n \in \mathbb{R}$が1点$\frac{1}{n}$に退化していて、$X \in \mathbb{R}$が0に退化しているとする。このとき、
$X_n \xrightarrow{L} X$である。

直感的には点列$\frac{1}{n}$が0に収束するから明らかである。より厳密には
$X_n$の分布関数は$F_{X_n}(x) = I(\frac{1}{n} \leq x)$であり、$X$の分布関数は$F_{X}(x) = I(0 \leq x)$である。
$x \neq 0$の時、$F_{X_n}(x) \rightarrow F_{X}(x)$であるが、$x=0$のとき、$F_{X_n}(x) = 0$で、$F_{X}(x)=1$であるので、
$F_{X_n}(x) \rightarrow F_{X}(x)$は成立しない。しかし、$F_X(x)$は$x=0$で連続でないので、定義から法則収束は成立する。
$\Rightarrow$ 法則収束では分布関数の不連続点は除いておく必要がある。

2.$X_n$が集合\left\{\ \frac{1}{n},\frac{2}{n},\dots,1 \right\}の上で一様分布(離散)に従うとき、$X_n \xrightarrow{d} X \in \mathcal{U}(0,1)$を示せ。また$X_n \xrightarrow{p} X$は言えるか。

一様分布の分布関数は$P(X \leq x) = x$である。一方、$X_n$の分布関数は、$k/n \leq x \leq (k+1)/n$のとき、$P(X_n \leq x) = k/n$である。よって$|k/n - x| \le 1/n $なので、$P(X_n \le x) \rightarrow x$である。一方、題からは$X_n$と$X$の同時分布がわからないので確率収束するかどうかはわからない。




収束間の強弱関係

  1. $X_n \xrightarrow{a.s.} X \Rightarrow X_n \xrightarrow{P} X$ $(\because)$既出
  2. $X_n \xrightarrow{L_r} X \Rightarrow X_n \xrightarrow{P} X$ $(\because)$既出
  3. $X_n \xrightarrow{P} X \Rightarrow X_n \xrightarrow{d} X$ 

$\because$便利な不等式(https://karate-odori.hatenablog.com/entry/2019/10/22/104630)の3番目の不等式を用いる

収束間の強弱関係の部分的な逆

  1. (法則収束と確率収束)$X_n \xrightarrow{d} c \Leftrightarrow X_n \xrightarrow{P} c$ (cは定数) $\because$証明の方針:確率を分布関数で表現しなおして示す
  2. (確率収束と平均r次収束)$X_n \xrightarrow{P} X$で、ある確率変数Yがあって、すべてのnで$|X_n| \leq |Y|$であり、$E(|Y|^r) < \infty$ならば、$X_n \xrightarrow{L_r} X$
  3. (概収束と平均r次収束)$X_n \xrightarrow{a.s.} X$で、ある確率変数Yがあって、すべてのnで$|X_n| \leq |Y|, a.s.$であり、$E(|Y|^r) < \infty$ならば、$X_n \xrightarrow{L_r} X$

スラツキーの定理

大標本理論の多くの問題は確率ベクトル列とその法則収束が分かっているときに、ある関数$f$による$f(X_n)$の収束先を見つけることである。このとき以下に示すスラツキーの定理が役に立つ。

法則収束に関するスラツキーの定理

1.(continuous mapping)$g$を実数値連続関数とするとき、$X_n \xrightarrow{d} X \Leftrightarrow g(X_n) \xrightarrow{d} g(X)$
実際には、gは連続関数でなくてもその不連続な点が確率0であれば同じことが言える

2. (漸近的に同値なら同じ分布に従う)$X_n \xrightarrow{d} X$かつ$X_n - Y_n \xrightarrow{p} 0 \Rightarrow Y_n \xrightarrow{d} X$
$X_n - Y_n \xrightarrow{P} 0$のとき、$X_n$と$Y_n$は漸近的に同値であるという。

3. (同時分布の法則収束)$X_n \xrightarrow{d} X$かつ$Y_n \xrightarrow{d} c \Rightarrow (X_n \ Y_n)^t \xrightarrow{d} (X \ c)^t$
ただし、$X_n \xrightarrow{d} X$かつ$Y_n \xrightarrow{d} Y \Rightarrow (X_n \ Y_n)^t \xrightarrow{d} (X \ Y)^t$はいえないので注意

4. (複数の収束の混合)$X_n \xrightarrow{d} X$かつ$Y_n \xrightarrow{P} c$ ($c < \infty$の定数)とするとき、

  • $X_n + Y_n \xrightarrow{d} X + c$

$\because
3より(X_n \ Y_n)^t \xrightarrow{d} (X \ c)^t$であり、$f(x,y)=f(x)+f(y)$を考えた時のcontinuous mappingより導ける。
これは一般化でき、$f(X_n,Y_n) \xrightarrow{d} f(X,c)$

  • $X_nY_n \xrightarrow{d} cX$
  • $X_n/Y_n \xrightarrow{d} X/c$
確率収束に関するスラツキーの定理

1. (continuous mapping)$X_n \xrightarrow{P} X \Leftrightarrow g(X_n) \xrightarrow{P} g(X)$
2. $X_n \xrightarrow{P} X$かつ$X_n - Y_n \xrightarrow{P} 0 \Rightarrow Y_n \xrightarrow{P} X$
3. $X_n \xrightarrow{P} X$かつ$Y_n \xrightarrow{P} Y \Rightarrow (X_n \ Y_n)^t \xrightarrow{P} (X \ Y)^t$
これは法則収束の場合よりも強い主張になっている

確率収束に関するスラツキーの定理はそのまま概収束に置き換えても成立する。




確率ベクトルの線形写像の収束

確率ベクトル$\bf{X_k}$(k次元)、線形写像を表す行列$A (m \times k)$, $B (k \times k)$(対称行列)とすると
$\boldsymbol{X_n} \xrightarrow{a.s.} \boldsymbol{X} \Rightarrow \boldsymbol{A}\boldsymbol{X_n} \xrightarrow{a.s.} \boldsymbol{A}\boldsymbol{X}$(ベクトル) , \ $\boldsymbol{X_n}^t\boldsymbol{B}\boldsymbol{X_n} \xrightarrow{a.s.} \boldsymbol{X}^t\boldsymbol{B}\boldsymbol{X}$(スカラー

上記は概収束を確率収束、法則収束に置き換えても成立する



法則収束する確率変数と収束する実数列の収束

1. $a (< \infty)$,$b (< \infty)$,$a_n (< \infty)$,$b_n (< \infty)$、$a_n \rightarrow a$,$b_n \rightarrow b$なる定数とするとき、
$X_n \xrightarrow{d} X \Rightarrow a_nX_n+b_n \xrightarrow{d} aX+b$
2. $a_n(X_n - c) \xrightarrow{d} X$,$a_n \rightarrow \infty \Leftrightarrow X_n \xrightarrow{P} c$

参考

確率変数の収束についてまとめる - ブログ村の記述もわかりやすいです。