確率の記法

確率の記法 (Notation of probability)†

↑

確率の記法について†

たまに集中講義や非常勤の講義で学習関係の話をすると、確率や統計に関する知識がかなり欠けていると感じます。　

これは高校の教育課程や大学のカリキュラムなどにも問題があって、線型代数や微分積分は必修なのに統計や確率は選択のことが多いことも一因でしょう。

確率について、そもそも記法の段階でつまずく人がいるのでここにメモしておきます。本書でも記法についてはかなり省略した書き方をしているので確率に慣れていない方は参考にしてください。

↑

"p" という字の特別性†

離散確率変数 \( X \) に対し、\( Pr[X=x] \) あるいは \( P[X=x] \) で、\( X \) が実現値 \( x \) を取る事象の確率を表す。　
でもどっちも変数で書いたら区別つかない、、、

ということで \( P[X] \) とか、\( P[x] \) とか省略し、小文字にして \( p(X) \) とか \( p(x) \) などと書き、すべて同じものをさす。
一応　\( p(X) \) と書くと関数を指し、\( p(x) \) とするとある特定の \( x \) に対する値を指すというニュアンスのはずだが、あまり大文字小文字区別せず書くことも多いので、\( p(x) \) が関数を指すことだって多い。

複数の確率変数が出てきても \( p(x, y) \) という具合だ。 (正式に書けば \( Pr[X=x, Y=y] \))
普通の関数なら２変数関数なら何か記号を変えたりするはずだが、\( p \) という記号は何でも使い回す。

例えば独立性の定義は \( p(x,y) = p(x) p(y) \) だが、それぞれの \( p \) は関数として見ればそれぞれまるで違うものを指しており、これらを文脈だけで判断する必要がある。

これが紛らわしい文脈では \( p_{xy}(x,y) = p_x(x) p_y(y) \) などと添え字をつけたりもするがごちゃごちゃするので避けることも多い。

追記１：以上のようなわけで、結局確率にはなんでも p で済ませる、、、ということをさらに進めると、確率分布であることがわかりきっている文脈では p すら不要ということになる。　実際、統計の論文などで \( [x | y] [y | z] \) みたいな書き方をしているが、素人が真似するには危険すぎる技であろう。

追記２：一般に離散変数に対する確率関数には大文字 P で，連続変数に対する確率密度関数には小文字 p をあてるということも多いです．連続変数に対しては，大文字は累積密度関数（確率分布関数）に使われます．しかし多くの場合，離散か連続の区別をする必要がないことも多いので，まとめて小文字 p を使うということもあります．（その場合離散確率変数は連続確率変数に埋め込まれたと考えることもできます．たとえば 3値を取る確率変数 "1", "2", "3" を実数の 1, 2, 3 に埋め込むなど）

↑

変数の順序†

また、条件付き確率が出てきたときに　\( p(y|x) p(x) = p(y, x) \) と書くことも多いが、この右辺は \( Pr[Y=y, X=x] \) なので実は \( p(x,y) \) と書いても同じで、\( x \) とか \( y \) とかの文字で判断する必要がある書き方である。
R の引数の取り方が f(X=x, Y=y) でも f(Y=y, X=x) でも OK なのに少し似ている。

↑

"p" が紛らわしい場合†

また、学習とか統計とかの話をするときは確率そのものが推定の対象だから \( x \) の確率分布といっても母集団の分布や推定した分布などいろいろ出てくるので、\( p(x) \) のほかにも \( q(x), r(x) \) とか適当なアルファベットがない場合など \( p^*(x) \) だの \( \hat{p}(x) \) だのいろいろ記号を使って区別することもある。
慣れていればそんなに難しくないのだが、やはりこのように書いてくると結構初学者にはごちゃごちゃした話かもしれない。

↑

条件付確率 †

条件付確率 \( p(x \mid y) \) はあくまで \( x \) の確率分布であり、\( y \) の確率分布ではないということである。

ときどき \( \sum_y p(x \mid y) = p(x) \) などとする誤りを見かけるが、正しい式 \( \sum_y p(x\mid y) p(y) = \sum_y p(x, y) = p(x) \) と混同しないように。 (もちろん \( p(y) \) が一様分布ということが断ってあれば問題ない...ちゃんと足して１に正規化すれば)

↑