坂元慶行、石黒真木夫、北川源四郎「情報量統計学」共立出版 1983

修士の頃 VC 次元や Valiant の学習可能性など、汎化能力やモデル選択の話が盛り上がっていました。モデル選択と言えば AIC が有名ということで、修士の途中では AIC について勉強したいなと思っていましたが、甘利先生はあまり面白い話はないみたいな対応だったので結局修論は別テーマで書いて、AIC についてはよく知らないまま電総研に入りました。

AIC についてちゃんと勉強したのはこの情報量統計学でした。そもそも情報量といってもエントロピーもあるしフィッシャー情報量というのもあってその辺り正直よくわかっていませんでした。そもそもクラメールラオの不等式さえ知りませんでした。

そんなにものを知らなくてもそこそこ研究はできるもので、そのころ忘却を伴う連想記憶の記憶容量を計算して神経回路学会の奨励賞をいただきました。同じ神経回路学会で萩原さんがAICの特異性の指摘をしていて、そのときはピンと来ていなかったのですが、その後渡辺さんや福水さんが非常に大きな仕事をされていったのは、私に先見の明と能力の両方が欠けていたからでしょう。

AIC ではほとんど研究はしていませんが、博士論文がらみで混合分布の汎化能力を調べるのに TIC を使ったことくらいでしょうか。あれも本来は特異モデルがらみなのですが、ギリギリそこを逃げて解析したのであまり自慢できる話ではありません。

さて、忘却を伴う連想記憶の話から、忘却を伴う場合の学習理論が気になりましたが、AIC はよく知らなかったので修士の頃からよく勉強していた VC 次元の話でバウンドを求めました。データ数のかわりに忘却率という連続パラメータで制御できるという話がなんとなく面白くて、それをきっかけに、パラメータ数の方も離散ではなく連続で制御できないかというので始めたのが正則化パラメータでモデルの複雑さを制御するという話でした。

だいぶ後になってノンパラメトリックベイズという話が出てきて、基本的にはあれも連続パラメータでモデル選択制御するという話だと思いますが、なんとなく離散的なものよりも連続的なもので制御する方が最適化とかが易しいというイメージでそうした研究を進めました。ただしノンパラベイズは吉井さんたちと勉強会はしたものの、自分の研究としては何も発表できませんでした。

最近も、NMFのモデル選択で、それは基本的に離散的な問題なのですが、１つのモデルを選ぶのではなくブートストラップでモデル平均を取ることでその後の解析結果を安定化させるという話を村田研での赤穂会でやりました。それから、なにかモデルを１つに決めることの危険性を学んで、そこは慎重になりました。

toddler’s diary

以前は研究にあまり関係ない雑談・2023年4月から本を通じた自分の振り返りやってます

坂元慶行、石黒真木夫、北川源四郎「情報量統計学」共立出版 1983