機械学習の汎化能力についての研究はちょうど修士の頃に流行りの話題でした.
統計学ではもっと前からその問題はわかっていたと思いますが,機械学習のコミュニティでは第2次ニューロブームのときに認知され始めた話題だと思います.それ以前のニューラルネットワークの学習に関する文章ではほとんど汎化能力に触れられたものはありません.(汎化という言葉も当初は一般化とかいう言い方もされていました)
私は,Cover の記憶容量や,Valiant の学習可能性の論文とかを読んでいるうちに,Baum とかが VC 次元の話を掘り出した論文を通じて知りました. Vapnik Chervonenkis のロシア語元論文が 1960 年代で,英語翻訳が 1971 年ということでとても古い話です.確率統計のいろはも知らない修士の時代に非常に苦労して論文を解読した記憶があります.
Vapnik の原理「ある問題を解くために,(その部分問題として)より難しい問題を解いてはならない」というのがあります.例えば確率分布がわかれば機械学習の問題はほとんど解けますが,確率分布の推定問題というのが元の問題よりたいてい難しいのでそれは往々にしてよくないというような話です.これもちゃんと理解しないと誤解しやすいのですが,確率分布の推定がしやすい問題設定ではこれもありですし,あとは部分問題を解くのがダメだと言っているわけではないということです.
VC 次元の話では,忘却のある学習系で簡単な計算をして国際会議に出しましたが,その後 SVM の登場で Vapnik が再登場することになります.
Vapnik は IBIS2004 でも招待して講演を聞きました.なかなか主張が強そうな先生という印象でした.Chervonenkis も国際会議で招待されたことはあるようですが残念ながら私は講演を聞く機会はありませんでした.