確率

確率(probability)

私達は日常生活で確率(probability)を使用することがあります.例えば「今日は雨が降りそうだ」と考えれば傘を持って出かけるでしょう.

確率はある事象(event, action, observation)が起こる可能性を表すのに使われます.ここで,全ての事象を表す全体の空間を標本空間(sample space)$S$とします.また,全ての事象が起こる数(図の標本空間全体の面積)を$N(S)$とします.

ある事象$A$が起こる数(図の$A$の部分の面積)を$N(A)$とすると,事象$A$が起こる確率$P(A)$は

\begin{equation}
P(A) = \frac{N(A)}{N(S)}
\end{equation}

と表せます.また,$P(A)$の取りうる値の範囲は

\begin{equation}
0 \leq P(A) \leq 1
\end{equation}

となります.

同時確率(joint probability)

事象$A$が起こり,かつ事象$B$も起こる確率を$A$と$B$の同時確率(joint probability)と呼び,$P(A, B)$と表します.$A$が起こり,かつ$B$も起こる数(図の$A$と$B$の交わり部分の面積)を$N(A, B)$とすると,$P(A, B)$は

\begin{equation}
P(A, B) = \frac{N(A, B)}{N(S)}
\end{equation}

と表せます.

条件付き確率(conditional probability)

ある事象が起こる確率は,別のある事象が起こったと仮定すると変わることがあります.例えば,今日の晩ごはんにカレーを食べる確率は,今日の昼ごはんにカレーを食べた場合には変わるでしょう.この確率の変わり方を考えましょう.

今,$P(A|B)$を事象$B$が起こったという条件の下で事象$A$が起こる条件付き確率(conditional probability)とします.既に$B$が起こったと仮定していますので,確率を求める際の全体の集合が$S$から$B$に変わります.したがって,条件付き確率$P(A|B)$は

\begin{equation}
P(A|B) = \frac{N(A,B)}{N(B)}
\end{equation}

と表せます.また,分母分子を$N(S)$で割っても同じになることから

\begin{equation}
P(A|B) = \frac{\frac{N(A,B)}{N(S)}}{\frac{N(B)}{N(S)}}=\frac{P(A,B)}{P(B)} \label{conditional_ab}
\end{equation}

と確率を使って表すこともできます.

また,$A$が起こったという条件の下で$B$が起こる条件付き確率$P(B|A)$は

\begin{equation}
P(B|A) = \frac{P(A,B)}{P(A)} \label{conditional_ba}
\end{equation}

となります.

連鎖律(chain rule)

式(\ref{conditional_ab})と式(\ref{conditional_ba})を書き換えると,$A$と$B$の同時確率は

\begin{equation}
P(A,B) = P(A|B)P(B) \label{chain_ab}
\end{equation}

あるいは

\begin{equation}
P(A,B) = P(B|A)P(A) \label{chain_ba}
\end{equation}

と表せます.

これを複数の事象$A_1, A_2, \cdots, A_n$の同時確率に繰り返し適用すると

\begin{eqnarray}
P(A_1, A_2, \cdots, A_n) &=& P(A_2, A_3, \cdots, A_n | A_1)P(A_1) \nonumber\\
&=& P(A_3, A_4, \cdots, A_n | A_2, A_1)P(A_2 | A_1)P(A_1) \nonumber \\
&=& \cdots \nonumber \\
&=& P(A_n | A_1, \cdots, A_{n-1}) \cdots P(A_2 | A_1)P(A_1) \label{chain}
\end{eqnarray}

と表せます.式(\ref{chain})では,複数の事象が同時に起こる確率が条件付き確率の積の形に分解されています.解釈としては,$A_1$が起こり,$A_1$が起こった後に$A_2$が起こり,$A_1とA_2$が起こった後に$A_3$が起こり,…,最後に$A_n$が起こる条件付き確率を順に掛け算していることがわかります.このように,複数の事象が同時に起こる複雑な問題は各事象が順に起こる条件付き確率の問題に分解して考えることができます.

ベイズ則(Bayes’ rule)

式(\ref{chain_ab})と式(\ref{chain_ba})より

\begin{equation}
P(A|B)P(B) = P(B|A)P(A)
\end{equation}

と表わせ,

\begin{equation}
P(A|B) = \frac{P(B|A)P(A)}{P(B)} \label{bayes}
\end{equation}

となることがわかります.式(\ref{bayes})をベイズ則(Bayes’ rule)と呼びます.条件付き確率$P(A|B)$は直接求められないが,逆の条件付き確率$P(B|A)$は求められるような問題でベイズ則を使うことがあります.

独立事象(independent event)

今日の昼ごはんに食べた物は今日の晩ごはんに食べる物に影響を与えそうですが,今日の髪型は今日の晩ごはんに食べる物とは関係がなさそうです.このように,ある髪型にしたからといって晩ごはんに食べる物に影響を与えないような事象を独立事象(independent event)と言います.

事象$A$と事象$B$が独立だとすると,$B$が起ころうが起こるまいが$A$が起こる確率は変わりませんので,

\begin{equation}
P(A) = P(A|B) \label{independent}
\end{equation}

となります.式(\ref{independent})を式(\ref{chain_ab})あるいは式(\ref{chain_ba})に代入すると,

\begin{equation}
P(A, B) = P(A)P(B)
\end{equation}

となり,独立事象$A$と$B$の同時確率はそれぞれの確率の積として表せることがわかります.

したがって,複数の独立事象$A_1, A_2, \cdots, A_n$の同時確率は単純に各事象の確率の積として表せます.

\begin{equation}
P(A_1, A_2, \cdots, A_n) =P(A_1)P(A_2) \cdots P(A_n)
\end{equation}

排反事象(disjoint event)

図のように2つの事象$A, B$が同時に起こらない(交わりを持たない)ことを排反事象(disjoint event)と呼びます.

分割(partition)

$n$個の事象$A_1, A_2, \cdots, A_n$があり,$A_1, A_2, \cdots, A_n$がdisjointかつ$\bigcup_{i=1}^{n} A_i=S$のとき,事象$A_1, A_2, \cdots, A_n$は$S$を分割する($S$のpartitionになる)と言います.

周辺確率(marginal probability)

$S$のpartitionである($S$を分割する)$n$個の事象$A_1, A_2, \cdots, A_n$と事象$B$があるとすると,$B$の確率$P(B)$は

\begin{equation}
P(B) = \sum_{i=1}^{n} P(A_i, B) \label{marginal}
\end{equation}

と表せます.

式(\ref{marginal})を$B$の周辺確率(marginal probability)と言い,$B$の確率は同時確率の和として求められることがわかります.

また,このときベイズ則は

\begin{equation}
P(A_i|B) = \frac{P(B|A_i)P(A_i)}{P(B)} = \frac{P(B|A_i)P(A_i)}{\sum_{i=1}^{n} P(A_i, B)} \label{bayes_recognition}
\end{equation}

となり,認識問題でよく使われます.

ここでは,身長が180cmより高いかどうかで男か女かを認識する問題でベイズ則を説明します.今,事象$A_0$を「男である」,事象$A_1$を「女である」,事象$B$を「身長が180cmより高い」とします.このとき,$A_0$と$A_1$は$S$のpartitionになっていますので,式(\ref{bayes_recognition})が成り立ちます.式(\ref{bayes_recognition})の左辺は$i=0$のとき「身長が180cm以上あるという条件の下で,その人が男である確率」を表し,$i=1$のとき「身長が180cm以上あるという条件の下で,その人が女である確率」を表しています.これらの確率はデータが観測された後の確率ということで事後確率(posterior probability)と呼ばれます.この2つの事後確率$P(A_0|B), P(A_1|B)$が求められれば,大きい方を認識結果として出力すればよいことになります.一方,右辺の分母は$i$によらず一定ですので,大小比較するのであれば分子を求めればよいことになります.$P(A_i)$はデータが観測される前の確率ということで事前確率(prior probability)と呼ばれます.事前確率は男女がそれぞれどのくらいの割合で存在するかという確率になります.母集団が世界中の人なら$P(A_0)$と$P(A_1)$はおよそ0.5になるでしょうし,男子校であれば$P(A_0)$のほうが大きくなるでしょう.$P(B|A_i)$は尤度(likelihood)と呼ばれる確率で,$i=0$のとき「男の人のうち身長が180cm以上である確率」を,$i=1$のとき「女の人のうち身長が180cm以上である確率」を表します.これは事前に多くの身長のデータを集めれば知ることができます.事前確率$P(A_i)$も尤度$P(B|A_i)$も事前に知ることができますので,これらの積を求めて大小比較すれば対象を認識することができます.

確率変数

ここまでは事象$A$や事象$B$が起こる確率について考えてきましたが,ある値$x$がある確率$p(x)$に従って出現する場合について考えます.このとき,$x$を確率変数(random variable)といい,サイコロを振って出る目を確率変数$x \in \{ 1, 2, 3, 4, 5, 6 \}$と考える場合,$p(x)$は全て$\frac{1}{6}$となります.このように確率変数が離散値を取る場合,$p(x)$を確率分布(probability distribution)と呼びます.また,人の身長を確率変数$x$と考える場合,横軸に$x$を縦軸に$p(x)$を取るグラフは平均を中心に釣り鐘型になります.このように確率変数が連続値を取る場合,$p(x)$を確率密度関数(probability density function)と呼びます.

離散確率変数の場合も連続確率変数の場合も,条件付き確率・連鎖律・ベイズ則等は同様に成り立ちます.

期待値

あるパラメータを持つ認識器があり,観測された大量の学習データからある対象が正しく認識できるように学習することを考えます.このとき,正しく認識できたかどうかを評価する値を決め,その評価値が最大となるように認識器のパラメータを推定することが学習することになります.その際に,学習データに対する期待値を求めることがありますので,ここで期待値について説明します.

ある確率分布(あるいは確率密度関数)$p(x)$に従う確率変数$x$に対して,ある値$f(x)$の期待値$\mathbb{E}_{x \sim p(x)}\left[f(x)\right]$は,離散確率変数の場合

\begin{equation}
\mathbb{E}_{x \sim p(x)}\left[f(x)\right] = \sum_i p(x_i)f(x_i)
\end{equation}

と表され,連続確率変数の場合

\begin{equation}
\mathbb{E}_{x \sim p(x)}\left[f(x)\right] = \int p(x)f(x)dx
\end{equation}

と表されます.

$f(x)$の期待値は確率分布(あるいは確率密度関数)$p(x)$を省略して単に$\mathbb{E}_{x}\left[f(x)\right]$と書くこともあります.