たまに集中講義や非常勤の講義で学習関係の話をすると、確率や統計に関する知識がかなり欠けていると感じます。
これは高校の教育課程や大学のカリキュラムなどにも問題があって、線型代数や微分積分は必修なのに統計や確率は選択のことが多いことも一因でしょう。
確率について、そもそも記法の段階でつまずく人がいるのでここにメモしておきます。 本書でも記法についてはかなり省略した書き方をしているので確率に慣れていない方は参考にしてください。
離散確率変数 \( X \) に対し、\( Pr[X=x] \) あるいは \( P[X=x] \) で、\( X \) が実現値 \( x \) を取る事象の確率を表す。
でもどっちも変数で書いたら区別つかない、、、
ということで \( P[X] \) とか、\( P[x] \) とか省略し、小文字にして \( p(X) \) とか \( p(x) \) などと書き、すべて同じものをさす。
一応 \( p(X) \) と書くと関数を指し、\( p(x) \) とするとある特定の \( x \) に対する値を指すという
ニュアンスのはずだが、あまり大文字小文字区別せず書くことも多いので、\( p(x) \) が関数を指すことだって多い。
複数の確率変数が出てきても \( p(x, y) \) という具合だ。 (正式に書けば \( Pr[X=x, Y=y] \))
普通の関数なら2変数関数なら何か記号を変えたりするはずだが、\( p \) という記号は何でも使い回す。
例えば独立性の定義は \( p(x,y) = p(x) p(y) \) だが、それぞれの \( p \) は関数として見ればそれぞれまるで違うものを 指しており、これらを文脈だけで判断する必要がある。
これが紛らわしい文脈では \( p_{xy}(x,y) = p_x(x) p_y(y) \) などと添え字をつけたりもするがごちゃごちゃするので避けることも多い。
追記1:以上のようなわけで、結局確率にはなんでも p で済ませる、、、ということを さらに進めると、確率分布であることがわかりきっている文脈では p すら不要ということになる。 実際、統計の論文などで \( [x | y] [y | z] \) みたいな書き方をしているが、素人が真似するには危険すぎる技であろう。
追記2:一般に離散変数に対する確率関数には大文字 P で,連続変数に対する確率密度関数には小文字 p をあてるということも多いです. 連続変数に対しては,大文字は累積密度関数(確率分布関数)に使われます. しかし多くの場合,離散か連続の区別をする必要がないことも多いので,まとめて小文字 p を使うということもあります. (その場合離散確率変数は連続確率変数に埋め込まれたと考えることもできます. たとえば 3値を取る確率変数 "1", "2", "3" を実数の 1, 2, 3 に埋め込むなど)
また、条件付き確率が出てきたときに \( p(y|x) p(x) = p(y, x) \) と書くことも多いが、この右辺は \( Pr[Y=y, X=x] \) なので実は \( p(x,y) \) と書いても同じで、\( x \) とか \( y \) とかの文字で判断する必要がある書き方である。
R の引数の取り方が f(X=x, Y=y) でも f(Y=y, X=x) でも OK なのに少し似ている。
また、学習とか統計とかの話をするときは確率そのものが推定の対象だから \( x \) の確率分布といっても母集団の分布や推定した分布などいろいろ出てくるので、\( p(x) \) のほかにも \( q(x), r(x) \) とか
適当なアルファベットがない場合など \( p^*(x) \) だの \( \hat{p}(x) \) だのいろいろ記号を使って区別することもある。
慣れていればそんなに難しくないのだが、やはりこのように書いてくると結構初学者にはごちゃごちゃした話かもしれない。
条件付確率 \( p(x \mid y) \) はあくまで \( x \) の確率分布であり、\( y \) の確率分布ではないということである。
ときどき \( \sum_y p(x \mid y) = p(x) \) などとする誤りを見かけるが、 正しい式 \( \sum_y p(x\mid y) p(y) = \sum_y p(x, y) = p(x) \) と混同しないように。 (もちろん \( p(y) \) が一様分布ということが 断ってあれば問題ない...ちゃんと足して1に正規化すれば)
ベイズと頻度主義の違いはパラメータを確率変数とみなすかどうかということ。
したがってパラメータ \( \theta \) をもつ \( x \) の確率分布は 頻度主義では \( p(x;\theta) \) または単に \( p(x, \theta) \) と書くことも ある。
一方ベイズではパラメータも確率変数なので \( p(x \mid \theta) \) と書く。
しかし、これらは単なる立場の違いであり、どれも同じものをさしている。
以下の記法はかなり上級レベルの問題だが、実数上の測度 \( P \) で積分するとき
\( \int f(x) dP(x) \) あるいは単に \( \int f(x) dP \)
という書き方をするが、測度の記法に慣れていないとよくわからないので初等向けに書くときは
\( \int f(x) p(x) dx \)
という書き方をする。この場合は \( p(x) \) は確率密度である。
-- あかほ