PRML 5.2.1節,5.2.2節
5.2.1パラメータ最適化(1) • 誤差関数E(w)を最小化する重み ベクトルwを探す • この場合、誤差関数の幾何的な イメージをつくのは役に立つ • 重み空間において、 w → w + ±w 場合、誤差関数値は ±E ≃ ±wT ∇E(w) 程度変化する。ベクトル ∇E(w) は 誤差関数が最速に増加する方向 を指している
図5.5 E(w)は重み空間 にある曲面である。wA は極小値、wBは最小値。 任意の点wcにおいて、 曲面の局所勾配を とする ∇E(w)
5.2.1パラメータ最適化(2) • 誤差関数E(w)はwに関する連続関 数であるため、その最小値は重み空 間の中の誤差関数の勾配が消える 点のところ発生する。つまり以下の 式(5.26)が成り立つ。 ∇E(w) = 0
(5.26)
そうじゃないと −∇E(w) 方向に小さい ステップで誤差関数をもっと減少す ることができる • 勾配が消える点は停留点という。停 留点は極大値点、極小値点、鞍点に 分けられる。
図5.5
5.2.1パラメータ最適化(3) • 私たちの目標は E(w)が最小値をとる場合のベクトル wを探す • しかし、誤差関数は重みそしてバイアスパラメータに ついて複雑な非線形であるため、重み空間において 数多くの点の勾配が消える(あるいは非常に小さい値 をとる)場合は多い • 5.1.1節の議論からわかるように、もしある点wは極小 値点である場合、重み空間において等しい極小値を とる点が必ず存在する。例えば図5.1のようなM個の 隠れユニットを持つ2層ネットワークの場合、重み空間 においての任意の点は M!2M 個の等価する点の中の 一つである
5.2.1パラメータ最適化(4) • そのほか、通常では複数の等価でない停留点、特 に複数の等価でない最小値点が存在している • すべての重みベクトルにおいて、誤差関数が最小値 をとる場合の値を最小値と呼ばれ、そのほかのより 大きい値に対応する最小値は極小値と呼ぶ • 良いニューラルネットワークのアプリケーションに関 しては、必ず最小値を見つからなくでも(一般的では、 最小値であるかどうかについて判断できない)、十 分にいい解を見つけるため、いくつの極小値を比べ る必要がある
5.2.1パラメータ最適化(5) • 式 ∇E(w) = 0 について解析的な解を求める方法が明らかに 難しいであるため、私たちは繰り返し計算に頼る。 • 連続非線形関数の最適化は広く研究された問題で、どうやっ て効率的に解くことついては大量な文献が存在している。 • 多くの手法では、まず重みベクトルに初期値w(0)を与え、そし て重み空間において、相続な式(5.27)のようなステップで移動 する。その中に τ は繰り返しの回数を示す。 w(τ +1) = w(τ ) + ∆w(τ )
(5.27)
異なるアルゴリズムは異なる重みベクトルの変化量 ∆w(τ ) を 利用している。多くのアルゴリズムは勾配の情報を利用する ため、一回の更新のあと、勾配の値∇E(w)が新しい重みベク トル ∆w(τ +1) を用いて計算する。勾配情報の重要さを理解する ため、誤差関数をテーラー展開基づいて近似するのを考える ことが役に立つ
5.2.2 局所二次近似(1) • 誤差関数の局所二次近似をすることで最適化問題そ して最適化問題を解くための色んな手法を深く理解す ることができる • 重み空間の中の点wˆ においてE(w)をテーラー展開す る場合を考える 1 E(w) ≃ E(w) ˆ + (w − w) ˆ T b + (w − w) ˆ T H(w − w) ˆ 2
(5.28)
この場合三次そしてもっと高次の項を省略した。 b ´ ∇E| w=w ˆ ∂E (H)ij ´ ∂wi ∂wj w=w ˆ
(5.29) (5.30)
式(5.28)から対応する勾配の局所近似は式(5.31)になる。特に ˆ に近い点wについてはこれらの式は誤差とその勾配に関する w 合理的な近似を与える ˆ ∇E ≃ b + H(w − w)
(5.31)
局所二次近似(2) • 局所近似を誤差関数の最小値点w⋆において 行ったという特殊な場合を考える。この場合、 点w⋆において∇E = 0ため、線形の部分は無い、 つまり式(5.28)は式(5.32)になる 1 E(w) ≃ E(w ) + (w − w⋆ )T H(w − w⋆ ) 2 ⋆
(5.32)
⋆ w その中ヘッセ行列は点 において計算される。
局所二次近似(3) • 幾何的な解釈をするため、ヘッセ行列の固有 式を考える。 Hui = λi ui
(5.33)
その中固有ベクトルは正規直交セットを生成 するため、つまり式(5.34)が成り立つ。 uTi uj = ± ij
(5.34)
• そして(w − w⋆) を固有ベクトルの線形結合であ らわす(式(5.35)) ⋆
w−w =
i
αi ui
(5.35)
局所二次近似(4) ⋆
w−w =
αi ui
(5.35)
i
• 式(5.35)を座標系変換と見ることが出来る。 詳しくは付録Cに参照 – 原点が w⋆ に移動され – 軸の方向は固有ベクトルの方向になる
• 式(5.35)を式(5.32)に代入し、式(5.33),(5.34)を 利用して、誤差関数を式(5.36)のように書くこ とができる 1 E(w) = E(w ) + λi α2i 2 i ⋆
(5.36)
局所二次近似(5) • 行列Hは正定値である場合、任意のベクトルv について、以下の式のみが成り立つ vT Hv > 0
(5.37)
• 固有ベクトル{ui}は完全セットになるため、任 意のベクトルvを式(5.38)のように書くことがで きる v=
i
ci ui
(5.38)
局所二次近似(6) Hui = λi ui
(5.33)
uTi uj = ± ij
(5.34)
• 式(5.33),(5.34)から、式(5.39)を導きことができ る T
v Hv =
i
c2i λi
(5.39)
• もしHは正定値であれば、固有値はすべて正 でなければならない
局所二次近似(7) • 新しい座標系(図5.6)の中に – 基底ベクトルは固有ベクトル{ui} – Eが同じ値をとるときの等高線は原点を 中心とする楕円である
• 一次元の重み空間の場合、停留点 は最小値点になるためには式(5.40) が成立する必要がある。 ∂ E >0 2 ∂w w⋆ 2
図5.6最小値点 w⋆の周囲誤差関数 を二次形式で近似できる。 (5.40) 等高線は楕円で、その軸はヘッセ行列 の固有ベクトルである。 軸の長さは固有ベクトルのルート の逆数に比例する
対してD次元の場合の条件は w⋆ 点で計算された ヘッセ行列は正定値である