Stochastic Meta-Descent

stochastic descent って使えるんかいなーとか思っていたんだけれど,思いっきり CRF で使われていたという事実!
この Stochastic Meta-Descent でキモと思われる Hessian とベクトルの積の計算を,微分関数の自動微分法 (forward accumulation) で implicit に求めるっつーのはうまいよにゃー.
あと小さな batch 単位で回せるのはかなりウマーでしょうこれは.単に on-line で robust 使えるってだけじゃなくって,静的な学習事例でも footprint が劇的に抑えられるし.
っていうかある程度小さな batch で回さないと自動微分が重くなるよねー. batch が大きいと active な feature が多くなるから forward accumulation で持ち回る vector の次元が増えるし.いや,知らんけど.
っていうかこれ実装的には簡単そうで良いよにゃー.いや知らんけど.