ロジスティック回帰 - 思うだけで学ばない日記 2.0

ロジスティック関数を使った使った2クラス識別を考える。
例えばn個の標本系列{ x_n }の内訳がM:Nの割合でクラスC_1とクラスC_2だったとしてそうなった隠れた前提がB(θ)だったとすると、{ x_n }が観測される確率は
　Pr( { x_n }が生起 | B(θ) )
　= Pr( (C1がM回生起)∧(C2がN回生起) | B(θ) )　・・・(4)
n回のサンプリングが独立試行だったとすると、これは次に等しい。
　(Pr( C_1が生起 | B(θ) )^M) * (Pr( C_2が生起 | B(θ) )^N)　・・・(5)
ので、尤度関数は
　M*log[Pr( クラスC_1 | B(θ) ) + N*log[Pr( クラスC_2 | B(θ) )]　・・・(6)
独立試行という仮定の有無に関わらず、最尤法によるθの点推定は不偏推定であり、識別問題と見たときにこれがマージン最大の根拠となるっぽい。
サンプリングが独立試行でないときも不偏推定であることを示すのはGMA0BNには一生かかってもできそうにないが*1、サンプリングが独立試行のケースについては直感的に示せる希ガス、、。
クラスC_1,C_2がM:Nで観測された事実からすると母集団におけるそれぞれの存在比率M:Nが最も尤もらしい説明であり、特に標本数n→∞のときM:Nが母集団の真の存在比率M_0:N_0に一致しないわけがない。これがθの標本平均がn→∞において母集団の分布に関するθの平均E{θ_0}に一致するという制約になる。一方サンプリングが独立試行だから、これは任意の時点でサンプリングを開始した標本系列について言えねばならない（例えば最初の標本1000件が常に特定方向に偏る、といった現象はあり得ない。）よって標本から得たθは母集団の真のθの周りに偏り無く分布する、
正直責任持たないし知らんが、

ふと読み直すと表題に含まれている「ロジスティック」がどこかに旅立ってしまっていたorz
正直学習マシンにロジスティック関数を使うのは次に述べるメリットを享受したいからにすぎず、代替手段のない唯一の方法というわけでは全くない
むしろ学習対象によっては、無思慮な使用は不適切でさえある印象

*1:KLダイバージェンスが非負であることとその最小化条件から導かれるらしいことが困り果てて思わず立ち読みした本に書いてあった。