ベイズ推定

新しい言葉や概念や式が沢山出てきてなかなか難しいので自分のメモ用に使っています。　まだまだ理解不足なので今後更新していくつもりです。　間違っているところがあればコメントから是非ご指摘いただけたら幸いです。

ベイズ推定は、ベイズ統計の考え方から出たベイズ定理を使い、観察したデータから確率分布を算出（推定）する手法。

ベイズの定理　基本形

\(\eqalign{\displaystyle P(\theta|x)&=\frac{P(x|\theta)P(\theta)}{P(x)} \\&= \displaystyle \frac{P(x,\theta)}{P(x)}}\)

\(\displaystyle P(原因|結果)=\frac{P(結果|原因)P(原因)}{P(結果)} \)

\(\displaystyle 事後確率=\frac{尤度 \times 事後確率}{周辺尤度} \)

観測した\(x\)（結果（＝観測データ））の確率が\(P(x)\)。　\(P(\theta|x)\)は観測したデータ\(x\)（結果）の時の確率の\(\theta\)（原因（＝母数））を求める。　通常は原因（＝母数）が分かっている時にある結果がでた時の確率を求める。　ベイズの定理は、結果がでた時の確率（原因（＝母数））を導き出す。

P(原因|結果）：事後確率(\(\approx\)事後分布、posterior）— 求める確率（分布）
P(原因) ：事前確率(\(\approx\)事前分布、主観確率、共役事前分布,prior）
P(結果|原因) ：尤度ーー結果だけからの尤もらしい確率（分布, Likelihood）
P(結果)　　　：周辺尤度（Marginal Likelihood＝証拠(Evidence))平均してそのデータが得られる確率。　絶対的な証拠の測定。　（ベイズ推定の計算では無視される）

ベイズの定理（離散型）

\(\displaystyle p(\theta_i|x)=\frac{p(x|\theta_i)p(\theta_i)}{\displaystyle \sum_{j=1}^np(x|\theta_j)p(\theta_j)}=\frac{p(x|\theta_i)p(\theta_i)}{p(x)}\)

\(\theta_i \ne \theta_j\)で\(\theta_i, \theta_j\)とするのは、事象が多項の為の一般化。
\(P(\theta_1)\cdots P(\theta_n) \)　：事前確率(事前分布、主観確率）
\(P(\theta_i|X)\)　：事後確率（事後分布）　(\(X=\{x_1, x_2,\cdots ,x_n\})\)である時の、\(\theta_i\)になる確率。　例、コインをn=10回投げて2回表が出る確率分布の平均と分散の事（正規分布の場合）。)
\(P(X|\theta_i)\)　：尤度
\(\sum_{i=1}^nP(X|\theta_i)P(\theta_i)\)　：周辺尤度
新しい情報\(X\)が得られた時に、既存の事象\(\theta_i\))の確率を更新できます。

\(\displaystyle P(\theta|X)=\frac{P(\theta \cap X)}{P(X)}, P(X|\theta)=\frac{P(\theta \cap X)}{P(\theta)}\)

\(\displaystyle P(X)=\sum_{i=1}^n P(\theta_i \cap X)= \sum_{i=1}^n P(X|\theta_i)P(\theta_i)\)

ベイズの定理（連続型）

現実世界では離散型でなく、身長や体重の様に連続値なので、積分型になります。

\(\displaystyle p(\theta|x)=\frac{p(x|\theta)p(\theta)}{\displaystyle \int_{\theta}p(x|\theta)p(\theta)d\theta}=\frac{p(x|\theta)p(\theta)}{p(x)}\)

\(\theta\)　：既知情報（=パラメータ、離散型の\(\theta_1 \cdots \theta_n\)の事。正規分布なら、平均と分散。）
\(x\)　：新規情報（=データ）　(離散型の\(X=\{x_1, x_2,\cdots ,x_n\})\)。例、n個のデータ。)
\(\pi(\theta)\)　：事前分布
\(\pi(\theta|x)\)　：事後分布
\(f(x|\theta)\)　：尤度
\(\int_{\theta}f(x|\theta)\pi(\theta)d\theta\)　：周辺尤度
『新しいデータ\(X\)が与えられた状況で、それまで既知だったパラメータ\(\theta\)がとり得る値の分布』を求めています。
\sum_{i=1}^nP(X|\theta_i)P(\theta_i)\)　：周辺尤度
新しい情報\(B\)が得られた時に、既存の事象\(\theta_i\))の確率を更新できます。

ベイズ推定は事後分布の期待値を計算できるかどうかによる。　計算可能にする為、共役分布、ラプラス近似、変分ベイズ法、MCMC法等の近似手法を用いる。

確率密度関数と記号

\(q(x)\) ：真の確率密度関数（True probability density function)

\(q(x)\)に従う\(n\)個の確率変数の集合、\(D=\{x_1,x_2, \ldots , x_n\}\)をサンプル（＝実現値）・データ・学習例・例と言う。

\(p(x|\theta)\)：確率モデル、統計モデル、学習モデル(Probabilistic, Statistical, Learning model)

ベイズ統計

古典統計学では、「大数の法則」を根拠にしているのでサイコロの目の出る確率は客観的に変わらない客観確率として計算する。　　サンプル数が大きいと真の確率の近似値となり精度が出せる。

ベイズ統計では、確率は他の何らかの要素が影響し主観確率として更新されると考える。

古典統計額とベイズ統計学は矛盾するものではない。
事前分布の設定が難しい。
モデルの未知数が非常に多かったり、モデルが複雑だったり、新しい情報が少ない場合でも柔軟に算出できる。

ベイズ推定は、ベイズ統計の考え方から出たベイズ定理を使い、観察したデータから確率分布を算出（推定）する手法。

未知の確率分布\(q(X)\)からの独立同分布(iid)な\(N\)個のサンプル（観測値）を\(\{x_n\}_{n=1}^N\)として、これらの観測値に基づいて\(x_{N+1}\)を予測したい場合状況を考える。　つまり、\(\{x_n\}_{n=1}^N\)の観測値が取れた時の、分布を\(q(X)=p(X|\{x_n\}_{n=1}^N)\)を推定する事。パラメータ\(\theta\)により分布が決まるパラメトリックモデル\(p(X|\theta)\)を導入すると。

\(\eqalign{\displaystyle p(X|\{x_n\}_{n=1}^N) &= \frac{p(X,\{x_n\}_{n=1}^N)}{p(\{x_n\}_{n=1}^N)} \\ \displaystyle &= \frac{1}{p(\{x_n\}_{n=1}^N)} \int p(X,\{x_n\}_{n=1}^N, \theta)d\theta \\ \displaystyle &= \frac{1}{p(\{x_n\}_{n=1}^N)} \int p(X,\{x_n\}_{n=1}^N|\theta)p(\theta)d\theta \\ \displaystyle &=\frac{1}{p(\{x_n\}_{n=1}^N)} \int p(X|\{x_n\}_{n=1}^N,\theta)p(\{x_n\}_{n=1}^N|\theta)p(\theta)d\theta \\ \displaystyle &= \int p(X|\theta) \frac{p(\{x_n\}_{n=1}^N|\theta)p(\theta)}{p(\{x_n\}_{n=1}^N)}d\theta \\ \displaystyle &= \int p(X|\theta)p(\theta|\{x_n\}_{n=1}^N)d\theta }\)

\(p(\theta|\{x_n\}_{n=1}^N)\)は、観測値\(\{x_n\}_{n=1}^N\)を基にしたパラメータ\(\theta\)の分布で、事後分布と呼ばれる。

ベイズ推定による予測分布は、\(p(\theta|\{x_n\}_{n=1}^N)\)による期待値で、ベイズ推定が出来るかどうかは、この期待値を計算できるかできまる。　計算の為に、共役事前分布を用いたり、ラプラス近似、変分ベイズ法、MCMC法等の近似を用いたりする。

\(p(X|\theta)\)はモデル（＝尤度関数）で、このモデルありきでベイズ推定する。予測に用いるモデル\(p(X|\theta)\)が\(\theta\)について既知の分布と同じ関数である場合だけ、共役事前分布を用いた推定ができるが、それ以外の時は変分ベイズ法やMCMC法を用いる。

モデルが当てはまっていなければ予測もかけ離れてしまう。　モデルの当てはまりを計る指標は周辺尤度。

上記はここを参照にさせて戴きました。

ベイズ推定量例　（不良率）

市場でのある不良現象の率が0.01%の時、あるユーザーからの返品5個全てこの不良現象であった時、そのユーザーで他に発生している他の20個の解析していない不良の原因がこの不良現象である確率を求める。（尤度（二項分布）、共役事前分布（ベータ分布））

ベイズ推定量\(T\)は、

\(\displaystyle T=\frac{x+\alpha}{n+\alpha+\beta}=\frac{5+0.0001}{5+0.0001+0.9999}\; \unicode{x2252} \; 83.3\%\)

\(n\)：解析した総数（5個）
\(x\)：この不良現象であった数（5個)
\(\alpha\)：この不良現象である確率（0.01%=0.0001)　過去の市場での実績より。
\(\beta\)：この不良現象でない確率（99.99%=0.9999)

ここを参照させて戴きました。

尤度・事前分布・事後分布

『京都大学　環境マーケティング論分野　ベイズ統計学』がめちゃくちゃ分かりやすかったです。(PDFよりサイトの方が丁寧で分かりやすいです。）

・

最大事後確率（MAP：Maximum A Posterior)法

事後確率（＝事前確率＋尤度）を最大化するベイズ統計の方法。

確率式（変形例一覧）

確率の表記と式の変形パターンの一覧。

以下、X,Y,Zは事象。
\(\displaystyle P(X)\):Xが起こる確率。
\(\displaystyle P(X,Y,Z)\):XとYとZが同時に起こる確率。
\(\displaystyle P(X|Y)=\frac{P(X \cap Y)}{P(Y)}\):Yが起こった状態で、Xが起こる確率。　
\(\displaystyle P(X|Y,Z)\):YとZが同時に起こった状態で、Xが起こる確率。
\(\displaystyle P(X,Y|Z)\):Zが起こった状態で、XとYが同時に起こる確率。

X,Y,Zが独立している場合が条件で以下が成り立つ。

\(\displaystyle P(X)＝\int P(X,Y)dY\) – – – （\(X\)についての周辺化）

\(\displaystyle P(X)＝\sum_iP(X,Y_i)\) – – – 加法定理（\(X\)についての周辺化）

\(\displaystyle P(X)＝\int P(X,Z)dZ=\int P(X,Z,\theta)dZd\theta\)

\(\displaystyle P(X|Y)＝\int P(X|\theta )P(\theta |Y)d\theta\)

\(\displaystyle P(H_i|X)＝\frac{P(D|H_i)(P(H_i)}{\sum_jP(X|H_j)P(H_j)}\) – – -（\(X\)についての周辺化）

\(\displaystyle f(\theta|x)＝\frac{f(x|\theta)(f(\theta)}{\int f(x|\theta)f(\theta)}\) – – – （\(x\)についての周辺化）

\(\displaystyle q(\mathbf{Z}) = \prod_iq_i(Z_i)\) – – – 因子分解による近似

\(\displaystyle P(\mathbf{A}|X)=\prod_{i=1}^nP(A_i|X)=P(A_1|X)\cdot P(A_2|X) \cdot \cdots \cdot P(A_n|X)\)

\(\displaystyle P(X|Y)=\frac{P(X,Y)}{P(Y)}=\frac{P(Y|X)P(X)}{P(Y)}\)

\(\displaystyle P(X|Y)=P(X)\) – – – X,Yが独立（無関係）の時（サイコロの目の様に）

\(\displaystyle P(X,Y)＝P(X|Y)P(Y)=P(Y|X)P(X)\) – – – 乗法定理

\(\displaystyle P(X,Y)=P(X)P(Y)=P(Y)P(X)\)

\(\displaystyle P(X,Y,Z)＝P(X)P(Y,Z)=P(X,Y)P(Z)＝P(X)P(Y)P(Z)\)

\(\displaystyle P(X,Y,Z)＝P(X,Y|Z)P(Z)＝P(Y,Z|X)P(X)=P(X|Y)P(Y|Z)P(Z)\)

\(\displaystyle P(X,Y,Z)＝P(X|Y,Z)P(Y,Z)\)

\(\displaystyle P(X,Y|Z)=\frac{P(X,Y,Z)}{P(Z)}=P(X|Y,Z)P(Y|Z)\)

\(\displaystyle P(X,Y|Z)=P(X|Z)P(Y|Z)\) – – – 成り立つとき、条件付独立である。

\(\displaystyle P(X \cap Y)=P(X)P(Y)\) – – – 独立の場合、同時確率(Joint probability)。

\(\displaystyle P(X \cap Y)=P(X|Y)P(Y)\) – – – 条件付確率の場合、同時確率(Joint probability)。

\(\displaystyle P(X \cap Y|Z)=P(X|Z)P(Y|Z)\) – – – 成り立つとき、条件付独立である。

\(\displaystyle P(X|Y,Z)=P(X|Z) – – – X,Y,Zが条件付独立の時

\(\displaystyle P(X|Y,Z)＝\frac{P(Y,Z|X)P(X)}{P(Y,Z)}=\frac{P(Z|X)}{P(Z)}\frac{P(Y|X)P(X)}{P(Y)}=\frac{P(Z|Y)}{P(Z)}P(X|Y)\) – – – ベイズ更新（多項）

書き方を変えているだけで式は加法定理と同じ。　
\(\displaystyle P(X=x)＝\sum_yP(X=x,Y=y)=\sum_yP(X=x|Y=y)P(Y=y)\)

連続型の時
\(\displaystyle f_X(x)＝\int_yf_{X,Y}(x,y)dy=\int_yf(x|y)f_Y(y)dy\)

\(\mathbb{E}_{q \theta(z|x)}[\log q_{\theta}(z|x)+\log p_{\theta}(x)]=\mathbb{E}_{q \theta(z|x)}[\log q_{\theta}(z|x)]+\log p_{\theta}(x)\)

\(\mathcal{L}_{\theta,\phi}(x)=\log p_{\theta}(x)-\mathrm{D}_{KL}[q_{\phi}(z|x)\|p_{\theta}(z|x)]\)

Kullback-Leibler Divergence

2つの確率分布の情報量の損失度合を表す。（ズレを表すようなもの。）ベイズ推定では完全に正解となる解を求める事が難しい事が多いので、近似を使う。　KLもベイズ推定の近似でよく使う。

\(\displaystyle \mathrm{D}_{KL}(p\|q)=\mathbb{E}_{(x\sim p)}[\log p(x)-\log q(x)]=\int q(x)\ln \frac{p(x)}{q(x)}dx \geq 0\)

\(\mathrm{D}_{KL}(p\|q) \neq \mathrm{D}_{KL}(q\|p)\)

独立・条件付独立

独立は、X,Yがあり、\(P(X|Y)=P(X)\)と\(Y\)が先に決まっていようがいまいが、\(P(X)\)の確率が同じの時をX,Yは独立と言う。　サイコロの目と同じ、２回転がして、最初に出た目に関わらず２回目の芽の出る確率は同じ。

条件付独立は\(P(X|Y)\)の時、\(Y\)の状態によって\(X\)の確率が異なる時。　例えば、100本のくじで20本あたりがあり、２本引く時、１本目が当たりが出たら、２本目もあたりになる確率は19/99となり、１本目がはずれの場合、２本目があたりになる確率は、20/99と１本目\(Y\)の状態によって２本目あたりを引く確率\(X\)を引く確率が異なる場合が条件付確率。

共役事前分布

尤度関数の分布のタイプによって、事前分布としてある確率分布を掛けると、事後分布も事前分布と同じ形で表せる。　この事前分布を共役事前分布という。　例えば尤度分布がベルヌーイ分布の場合、ベータ分布が共役事前分布となる。しかしMCMCを使えばわざわざ共役事前分布を用いる必要はない。

尤度関数\(f(\theta\|z)\)	共役事前分布\(w(\theta)\)
ベルヌーイ分布	ベータ分布
二項分布	ベータ分布
ポアソン分布	ガンマ分布
多項分布	ディリクレ分布
正規分布（分散既知）	正規分布
正規分布	逆ガンマ分布

ベイズの定理の導出｜AVILEN

ベイズ統計学は、ベイズの定理から発展した統計学です。ここでは、ベイズの定理とその式から得られる重要な考え方について、初学者にもわかりやすく説明していきます。

変分ベイズ

\(f(x)\)の微分は、変数\(x\)に対して微分（変数の微小変化の傾き）するが、変分法は\(g(f(x))\)の関数\(f(x)\)に対する微分（関数の形の微小変化の傾き）になる。　変分ベイズは変分法を使ってベイズ推定する真の分布を近似する手法。　　変分ベイズでは、関連度自動決定といい、不要な要素が0に近づき、主要要素数を減らすスパースな結果を学習する。

更新式の導出が難しい
重要な情報が抜け落ちる場合がある

周辺尤度（モデルエビデンス）\(p(X)\)を最大にするパラメータの事後分布を求める。

\(\displaystyle p(X)=\int p(X,Z)dZ\)

ベイズ最適化

非線形の関数の最大値（最小値）を探索するのに役立つ。

獲得関数の最大値

目的関数

探索 Exploration =\(\sigma\)

利用（搾取）Exploitation＝\(\mu\)

\(\kappa\)は探索(\(\sigma\))か利用（搾取）(\(\mu\))のどちらを重視するかを表すハイパーパラメータ。