p67-p71 第2章始まりから2.1.1節 前まで 宋
第2章の目的 • 第1章:確率理論、決定理論、情報理論 • 第2章:具体的な確率分布&性質 – 複雑なモデルに必要 – 統計概念(例えばベイズ推論)を考えるとき必 要
密度推定 • 観測値 {x1 , . . . , xN } => p(x) • 仮定 : independent and identically distributed (IID)
p(x1 , . . . , xN ) =
N Πi=1 p(xi )
• 注意点:密度推定問題は不良設定 (illposed) な問題 – 無限な分布について可能性がある モデル選択問題
パラメトリック分布 • 離散:二項分布、多項分布 • 連続:正規分布
• 密度推定問題場合のパラメータ推定方法 – 頻度主義:ある基準(例えば尤度関数)について最 適化 – ベイズ:事前分布を導入して、事後分布を計算
共役事前分布 • 事前分布と事後分布は同じ形の分布の場合、 事前分布を共役事前分布と呼ぶ • 目的:ベイズ解析をより簡単にする • 例:
多項分布
• 指数型分布族
ディリクレ分布
ノンパラメトリック密度推定 • パラメトリック・アプローチ:特定な分布を仮 定 • ノンパラメトリック:分布の形はデータに依 存 – パラメータ => モデルの複雑さ をコント ロール – ヒストグラム法、最近傍法、カーネル法
二値変数 • 例:コインを弾いた場合 – 表:x = 1 、裏:
x=0
• 表裏は半々の確率で出ないと仮定、 また p ( x = 1 | µ ) = µ (2.1)
x に関する分布は以下のとおり Bern( x | µ ) = µ x (1 − µ )1− x (2.2) ベルヌーイ分布
ベルヌーイ分布 Bern( x | µ ) = µ x (1 − µ )1− x (2.2) (2.3) • 平均: E[ x] = µ (2.4) • 分散: var[ x] = µ (1 − µ )
尤度関数 • 観測データ • 尤度関数 N
N
n =1
n =1
p ( | µ ) = ∏ p ( xn | µ ) = ∏ µ xn (1 − µ )1− xn (2.5) ln関数 N
N
n =1
n =1
ln p( | µ ) = ∑ ln p( xn | µ ) = ∑{xn ln µ + (1 − xn ) ln(1 − µ )} (2.6)
=Nln(1 − µ) + (ln µ − ln(1 − µ))
n
xn
十分統計量
最尤推定 N
N
n =1
n =1
ln p ( | µ ) = ∑ ln p ( xn | µ ) = ∑ {xn ln µ + (1 − xn ) ln(1 − µ )} ( 2.6)
∂ln p(D|µ) ∂µ
µ ML
µ ML
1 = N
=0
N
(2.7) ∑ x n
n =1
m = (2.8) N m : x = 1 の回数
最尤推定の欠点 • 3回の試行を行い、全部表が出た場合
N = m = 3, µ ML = 1
?
先もずっと表が出続ける
• 解決方法:事前分布を導入
二項分布 • 変数: m ( x = 1の回数) N
N
p ( | µ ) = ∏ p ( xn | µ ) = ∏ µ xn (1 − µ )1− xn (2.5) n =1 n =1 N − n xn n xn
=µ
(1 − µ)
m
=µ (1 − µ)
N −m
• 正規化係数 :N から m個の表を得るすべて の通りの数 N N! ≡ (2.10) m ( N − m)!m!
二項分布:図 N m Bin (m | N , µ ) = µ (1 − µ ) N − m ( 2. 9) m
N = 10, µ = 0.25
二項分布:期待値と分散 • 計算する際、以下の性質を利用(Ex.1.10) E[ x + z ] = E[ x] + E[ z ] (1.128) var[ x + z ] = var[ x] + var[ z ] (1.129) x と z が相互独立な変数
•
m = x1 + x2 + ... + x N
またそれぞれの xn は独立
N
E[m] = ∑ mBin(m | N , µ ) = Nµ (2.11) m =0
N
var[m] = ∑ (m − E[m])2 Bin(m | N , µ ) = Nµ (1 − µ ) (2.12) m =0