確率変数




説明的定義

それが起こる確率が定義された事象から別の事象への写像(関数と考えてよい)
f:id:karate_odori:20190925210741p:plain
当然、この像に対しても確率を定義することができる。

一方で、この写像によって、写像される元の事象の属する集合自体も別の集合に移される。この移された集合の視点に立つと、その中の事象について確率が定義されていてほしい。つまり、写像$X$による引き戻し$X^{-1}\{事象\} \in \mathcal{F}$($\mathcal{F}$はもとの各事象について確率が定義されている集合)である。

測度論では、可測空間$(\mathcal{X}, \mathcal{F})$から$(\mathcal{Y}, \mathcal{G})$への写像$f : \mathcal{X} \rightarrow \mathcal{Y}$が任意の$A \in \mathcal{G}$を満たすとき、$f$を$\mathcal{F}$-可測関数という。

つまり、確率変数とはある可測関数のことをいう。

ここで、根元事象とはそれぞれがある確率的現象に対応していれば表記は何でもよい、抽象的であよいといったことを思い出すと、まさにこれは確率変数の考え方である。
つまり、根元事象は定義された確率に応じてランダムに生じる(例えば$\omega_1$)。それに対応した確率的現象が生じ($X(\omega_1) = "サイコロで1の目が出る"$ )、その確率は元の根元事象に対する確率によって決まる($P(\omega_1)$)。逆に、ある確率的現象(例えば"サイコロで偶数の目が出る")の逆像($X^{-1}\{ "サイコロで偶数の目が出る"\}$)に対応する集合が元の根元事象に基づく完全加法族(=確率が定義されている集合)に属する($\{ \omega_2, \omega_4, \omega_6 \} \in 元の完全加法族$)。
これを図的に表現すると以下になる。

f:id:karate_odori:20190925213730p:plain
確率変数のイメージ2


確率変数の作る新たな確率空間

確率変数を使うことで、新たな確率空間を作ることができる。
写像$X$として特に$X : \Omega \rightarrow \mathbb{R}$を考えることにする。すると、$X$によって新たな標本空間$\mathbb{R}$が与えられる。これから適当な完全加法族$\mathcal{B}$を考える(実際には完備性を満足するように作る)。$\mathcal{B}$上の確率測度を考えるために、まず$B \in \mathbb{R}$に対して、$\{ X \in B \} = X^{-1} = \{ \omega \in \Omega | X(\omega) \in B \}$と定義する。よって、$P(X \in B) = P(\{ \omega \in \Omega | X(\omega) \in B \}) = P( X^{-1}(B) ) \in [0,1]$を$\mathcal{B}$上の集合関数$\mu : \mathcal{B} \rightarrow [0,1]$とみると、$\mu (B) = P( X \in B ) $である。これは

  • $\mu (\mathbb{R}) = 1$
  • 互いに素な集合列$\{ A_i \}_{i \in \mathbb{N}} \subset \mathcal{B}$をとれば、

\displaystyle
\{ \omega \in \Omega | X(\omega) \in \bigcup_{i=1}^{\infty} A_i \} = \bigcup_{i=1}^{\infty} \{ \omega \in \Omega | X(\omega) \in A_i \}
より、
\displaystyle
\mu ( \bigcup_{i=1}^{\infty} A_i ) = P( \bigcup_{i=1}^{\infty} \{ X \in A_i \}) = \sum_{i=1}^{\infty} P( \{ X \in A_i \} ) = \sum_{i=1}^{\infty} \mu (A_i)
よって、$\mu$は写像$X$によって可測空間$(\mathbb{R}, \mathcal{B})$上に誘導された確率測度といわれ、$(\mathbb{R}, \mathcal{B}, \mu)$は新たな確率空間となる。確率変数を通して現われる現象だけに興味があるので、この確率空間だけを考えて、元の確率空間は忘れてしまってよい(ランダムネス発生装置を切り離すということ)。また、写像としての確率変数と像を混同して、誘導された新たな確率空間における事象を確率変数の実現値と考える。


例を交えた追加説明

(村田「新版情報理論の基礎」p6-)

ふたつの確率変数XとYを考える。確率変数は確率空間上の関数として定義されるので、二つの確率変数XとYの関係を考える場合には、共通の原因となる$\omega$を考えて、$X=X(\omega)$と$Y=Y(\omega)$の関係を考えることになる。

f:id:karate_odori:20191012223428p:plain
確率変数XとYは確率空間の点$\omega$を通じて関連している
 例えば、$\Omega$をある大学の理工学部の1年生全員とする。Xを身長、Yを体重とすると、二つの確率変数の関係が考えられる。(略)原因となる$\omega$(今の場合、学生$\omega$が誰か)が測定されず、確率変数だけしか測定できない場合もある。もとの確率空間で定義された確率分布ではなく、確率変数のしたがう確率分布を直接用いる。確率変数の関係は、それを考えている確率空間に依存しているので、原因となる確率空間を異なるものにすると、その関係は違ってくる。例えば、理工学部ではなく、文学部の学生の身長と体重を調べれば、細かいところでは異なるだろう。

平たく言うと、確率空間とはランダムさを生んでいるものであり、上の例では理工学部の学生である。同時分布が考えられるのは、同じランダムさに基づいて確率的に変動する変数である。

実際的な確率変数の定義としての定理

$(\Omega,\mathcal{F},P)$上において、写像$X:\Omega \rightarrow \mathbb{R}$が確率変数であるための必要十分条件は、Xが
$X^{-1}((-\infty,x]) = \{\omega| X(\omega) leq x\} \in \mathcal{F}, \ x \in \mathbb{R}$
を満たすことである。

つまり、分布関数が定義されていることと確率変数であることは同値である。

性質

確率変数を変換した新しい確率変数も$\mathcal{F}$可測関数となる。
確率論や統計学において、ある確率変数を変換することを頻繁に行う。そのような変換をしたものに対しても確率空間を考えられることを保証する。

定理

$X$をd次元確率変数とする。任意の可測関数$f : \mathbb{R}^d \rightarrow \mathbb{R}^k$に対して、$Y = f(X)$は確率変数である

($\because$)$Y = f \circ X$なる合成関数であり、合成関数の逆関数について$(f \circ X)^{-1}(\cdots) = X^{-1} ( f^{-1} (\cdots) )$が成立するので、$\forall B \in \mathcal{B}_k$に対して、$Y^{-1} (B) = (f \circ X)^{-1} (B) = X^{-1}(f^{-1}(B))$。
ここで、$f^{-1}(B) \in \mathcal{B}_d$であり、$X$は$\mathcal{F}$可測なので、$Y^{-1} (B) \in \mathcal{F}$ \ $\Box$