思うだけで学ばない日記 2.0

思うだけで学ばない日記から移転しました☆!よろしくお願いします。

ロジスティック回帰がニューラルネットワークのパクリである件について

式を見れば一目瞭然だる。
単一ニューロンi (i=1,2,...,m)の表式は、重みベクトルw_i=(w_i_1,w_i_2,w_i_3,...,w_i_n, b_i)(b_iは定数)、特徴ベクトルx=(x_1,x_2,x_3,...,x_n, 1)、^Tで転置を表すとして、
 出力y_i(x) = φ(w_i・x^T)
ここでφ()はシグモイド関数。で、出力の取りまとめ役のニューロンがいてその表式は
 Y(x) = f(w・y(x)^T)
ここでwは出力段の重みでw=(w_1, w_2, w_3, ..., w_m)、y(x)=(y_1(x), y_2(x), ..., y_m(x))、fは任意の関数(2クラス識別ならしきい関数)。

なおこれでなんでうまくいくのかというと、シグモイド関数を用いて構成した互いに線形独立なm個の関数系列φ(w_i・x^T)を有界な入力xの下で使うとき、mが十分大きければその線形和で任意の非線形関数を近似できることによる。*1
つまり母集団の分布がわからなくてもmが多ければ適当に任意精度で近似できてしまうわけで、(mの下限決定およびY(x)の決定関数w・y(x)^Tを効率よく収束させる具体的手段が見出せれば)極めてノンパラメトリックで強力な手法たり得る。
しかしあまりに強力すぎるから、容易に過学習を引き起こす。こいつには異常サンプル(正解からの偏差が大)と正常サンプルの区別ってものがないんだ
だが探索ブートストラッピングでは異常サンプル(にあたるもの)の発生は学習の進行とともに減っていくからこの点はあまり問題にならない、、といいナア

*1:xが有界ならφ(w_i・x^T)はxに関して二乗可積分、一方φ(w_i・x^T)は完備、すなわちw_i≒w_i'ならφ(w_i・x^T)≒φ(w_i'・x^T)が任意のミクロなスケールでも成り立つ(準等式(?)≒の辺の片方は定義域外の点に向かったときの極限でも良い)【訂正】{ φ(w_i・x^T) }が張る任意の(部分)空間G_m(x):=Σ[i=1..m]A_i・φ(w_i・x^T) (m=1,2,3,...,∞)がxの定義域の上で二乗可積分だったら、ということらしいorz
ここでA_iは近似したい関数G(x)のφ(w_i・x^T)への射影にあたる。しかしこれってよく考えたらば、近似の精度がある水準までで良いと割り切るなら必ずしもm→∞で成り立って無くても良い気もする。実際にやると近似可能なG(x)とそうでないG'(x)が事前予測困難な形で現れそうだが、何かの折に使えるかもしれないので気に留めとく。
なお近似可能条件が二乗可積分にこだわるわけは、二乗可積分不可能な関数はそれ自身同士の射影とか、自身とわずかに異なる関数との射影とかが発散してしまうので関数間の距離が定義できないから、らすい。【/訂正】。実のところこれらが成立するならφはシグモイド関数でなくても良い。