Prml 5.2.1,5.2.2section

  • Uploaded by: shj
  • 0
  • 0
  • June 2020
  • PDF

This document was uploaded by user and they confirmed that they have the permission to share it. If you are author or own the copyright of this book, please report to us by using this DMCA report form. Report DMCA


Overview

Download & View Prml 5.2.1,5.2.2section as PDF for free.

More details

  • Words: 365
  • Pages: 13
PRML 5.2.1節,5.2.2節

5.2.1パラメータ最適化(1) • 誤差関数E(w)を最小化する重み ベクトルwを探す • この場合、誤差関数の幾何的な イメージをつくのは役に立つ • 重み空間において、 w → w + ±w 場合、誤差関数値は ±E ≃ ±wT ∇E(w) 程度変化する。ベクトル ∇E(w) は 誤差関数が最速に増加する方向 を指している

図5.5 E(w)は重み空間 にある曲面である。wA は極小値、wBは最小値。 任意の点wcにおいて、 曲面の局所勾配を とする ∇E(w)

5.2.1パラメータ最適化(2) • 誤差関数E(w)はwに関する連続関 数であるため、その最小値は重み空 間の中の誤差関数の勾配が消える 点のところ発生する。つまり以下の 式(5.26)が成り立つ。 ∇E(w) = 0

(5.26)

そうじゃないと −∇E(w) 方向に小さい ステップで誤差関数をもっと減少す ることができる • 勾配が消える点は停留点という。停 留点は極大値点、極小値点、鞍点に 分けられる。

図5.5

5.2.1パラメータ最適化(3) • 私たちの目標は E(w)が最小値をとる場合のベクトル wを探す • しかし、誤差関数は重みそしてバイアスパラメータに ついて複雑な非線形であるため、重み空間において 数多くの点の勾配が消える(あるいは非常に小さい値 をとる)場合は多い • 5.1.1節の議論からわかるように、もしある点wは極小 値点である場合、重み空間において等しい極小値を とる点が必ず存在する。例えば図5.1のようなM個の 隠れユニットを持つ2層ネットワークの場合、重み空間 においての任意の点は M!2M 個の等価する点の中の 一つである

5.2.1パラメータ最適化(4) • そのほか、通常では複数の等価でない停留点、特 に複数の等価でない最小値点が存在している • すべての重みベクトルにおいて、誤差関数が最小値 をとる場合の値を最小値と呼ばれ、そのほかのより 大きい値に対応する最小値は極小値と呼ぶ • 良いニューラルネットワークのアプリケーションに関 しては、必ず最小値を見つからなくでも(一般的では、 最小値であるかどうかについて判断できない)、十 分にいい解を見つけるため、いくつの極小値を比べ る必要がある

5.2.1パラメータ最適化(5) • 式 ∇E(w) = 0 について解析的な解を求める方法が明らかに 難しいであるため、私たちは繰り返し計算に頼る。 • 連続非線形関数の最適化は広く研究された問題で、どうやっ て効率的に解くことついては大量な文献が存在している。 • 多くの手法では、まず重みベクトルに初期値w(0)を与え、そし て重み空間において、相続な式(5.27)のようなステップで移動 する。その中に τ は繰り返しの回数を示す。 w(τ +1) = w(τ ) + ∆w(τ )

(5.27)

異なるアルゴリズムは異なる重みベクトルの変化量 ∆w(τ ) を 利用している。多くのアルゴリズムは勾配の情報を利用する ため、一回の更新のあと、勾配の値∇E(w)が新しい重みベク トル ∆w(τ +1) を用いて計算する。勾配情報の重要さを理解する ため、誤差関数をテーラー展開基づいて近似するのを考える ことが役に立つ

5.2.2 局所二次近似(1) • 誤差関数の局所二次近似をすることで最適化問題そ して最適化問題を解くための色んな手法を深く理解す ることができる • 重み空間の中の点wˆ においてE(w)をテーラー展開す る場合を考える 1 E(w) ≃ E(w) ˆ + (w − w) ˆ T b + (w − w) ˆ T H(w − w) ˆ 2

(5.28)

この場合三次そしてもっと高次の項を省略した。 b ´ ∇E| w=w ˆ  ∂E  (H)ij ´ ∂wi ∂wj w=w ˆ

(5.29) (5.30)

式(5.28)から対応する勾配の局所近似は式(5.31)になる。特に ˆ に近い点wについてはこれらの式は誤差とその勾配に関する w 合理的な近似を与える ˆ ∇E ≃ b + H(w − w)

(5.31)

局所二次近似(2) • 局所近似を誤差関数の最小値点w⋆において 行ったという特殊な場合を考える。この場合、 点w⋆において∇E = 0ため、線形の部分は無い、 つまり式(5.28)は式(5.32)になる 1 E(w) ≃ E(w ) + (w − w⋆ )T H(w − w⋆ ) 2 ⋆

(5.32)

⋆ w その中ヘッセ行列は点 において計算される。

局所二次近似(3) • 幾何的な解釈をするため、ヘッセ行列の固有 式を考える。 Hui = λi ui

(5.33)

その中固有ベクトルは正規直交セットを生成 するため、つまり式(5.34)が成り立つ。 uTi uj = ± ij

(5.34)

• そして(w − w⋆) を固有ベクトルの線形結合であ らわす(式(5.35)) ⋆

w−w =

 i

αi ui

(5.35)

局所二次近似(4) ⋆

w−w =



αi ui

(5.35)

i

• 式(5.35)を座標系変換と見ることが出来る。 詳しくは付録Cに参照 – 原点が w⋆ に移動され – 軸の方向は固有ベクトルの方向になる

• 式(5.35)を式(5.32)に代入し、式(5.33),(5.34)を 利用して、誤差関数を式(5.36)のように書くこ とができる 1 E(w) = E(w ) + λi α2i 2 i ⋆

(5.36)

局所二次近似(5) • 行列Hは正定値である場合、任意のベクトルv について、以下の式のみが成り立つ vT Hv > 0

(5.37)

• 固有ベクトル{ui}は完全セットになるため、任 意のベクトルvを式(5.38)のように書くことがで きる v=

 i

ci ui

(5.38)

局所二次近似(6) Hui = λi ui

(5.33)

uTi uj = ± ij

(5.34)

• 式(5.33),(5.34)から、式(5.39)を導きことができ る T

v Hv =

 i

c2i λi

(5.39)

• もしHは正定値であれば、固有値はすべて正 でなければならない

局所二次近似(7) • 新しい座標系(図5.6)の中に – 基底ベクトルは固有ベクトル{ui} – Eが同じ値をとるときの等高線は原点を 中心とする楕円である

• 一次元の重み空間の場合、停留点 は最小値点になるためには式(5.40) が成立する必要がある。  ∂ E  >0  2 ∂w w⋆ 2

図5.6最小値点 w⋆の周囲誤差関数 を二次形式で近似できる。 (5.40) 等高線は楕円で、その軸はヘッセ行列 の固有ベクトルである。 軸の長さは固有ベクトルのルート の逆数に比例する

対してD次元の場合の条件は w⋆ 点で計算された ヘッセ行列は正定値である

Related Documents

Prml Problems 2.52,3.16
December 2019 10
Prml P67-p71
June 2020 9
Prml P184-p189
June 2020 4

More Documents from "shj"

Prml_exercise4.3
May 2020 5
Prml_excercise 2.8
June 2020 4
Prml P67-p71
June 2020 9
Prml_exercise4.5
May 2020 5
Prml P184-p189
June 2020 4
December 2019 7