車輪の再発明のリバイバルのカバーのワゴンセール

ニューラルネットワークに何かを学習させるとき、重みベクトルの系列{ w_i }の初期値と個数を適当に決めてあとばBPにまかせる、というのは全くの神頼み運頼みであって学習を完遂する保証がないという点で理性ある行為とは言えない希ガスすることは論をまたないことわ明らかだる（~~メキシコ湾~~某所の原油流出が~~BP社~~B○社では全く収束しないことがすでに暗示してゐる）
今日わ、学習の完遂を保証する方策を考ゆる
改めてニューラルネットワークの表式を見ゆる
　g(x) 〜 Σ[i=1..m]{ ＜g(・), φ(Σ[j=1..n]w_i_j・(x_j'))＞ * φ(Σ[j=1..n]w_i_j・x_j) }
　　　＝ Σ[i=1..m]{ ＜g(・), φ(＜w_i, ・＞)＞ * φ(＜w_i, x＞) }
ここでg(x)を近似目標な関数、φ(x)はシグモイド関数、＜,＞は内積、w_i (i=1..m)は重みベクトル、xは特徴ベクトルであって、w_iとxはn次元だる
また途中式で密かに使われている(x_j')はx_jとは別物な自由変数
これは、Φ・g = φ(g) という意味の作用素Φを導入することによって次のように行列表現できり
　g(x) 〜 AB(WX^T)
ただし
　A = (＜g(・), φ(＜w_1, ・＞)＞＜g(・), φ(＜w_2, ・＞)＞ ... ＜g(・), φ(＜w_m, ・＞)＞) [1*m行列]
　B = ( δ_i_j * Φ) [m*m行列; δ_i_jはクロネッカーのデルタ]
　W = (w_1^T w_2^T w_3^T ... w_m^T )^T [n*m行列]
　X = (x^T x^T x^T ... x^T) [n*n行列]
であって^Tは転置操作を表さんとす
ここで人間の読者はφが線形関数だったならm＞nにしても無駄であることに気づかねばならない*1。非線形変換Bの存在こそがパーセプトロンとニューラルネットワークの能力を隔てる鍵であり、有限の世界と無限の世界をつなぐ架け橋なのだる*2
であらば、全体としてなるべく線形変換に陥らないように、より遠く離れた形にすることによって、目新しい能力が獲得できるのではないか？と考えるのが人情だろう
正直80年代〜90年代のけんきうしゃ（なぜか変換できない）は意識しているか否かを問わず、一人の例外もなくみなそう考えた
この考えからすると、シグモイド関数の傾きが小さい領域に多数のニューロンが集まっていても無駄と言える
学習の進行とともに集中具合が明らかになるから、学習サンプル追加の折にそれが既存のネットワークで説明不可能なら、既存ネットワークの重みをいきなりBP的に変えるのではなしに、集中箇所からニューロンを間引いてその説明に充てる方向で変えるという手が考えらるる
ボ○メ○のGPW発表資料の中にあるT(x)の傾きに関する議論と対比すると面白いかも知れない
なんで下火なのかは知らん

*1:どんな重みベクトルをnを超ゆる個数用意しても{ ＜w_i, x＞ }の中に線形従属なものが発生する故。

*2:いや知らんけど、

思うだけで学ばない日記 2.0

思うだけで学ばない日記から移転しました☆！よろしくお願いします。

車輪の再発明のリバイバルのカバーのワゴンセール