toddler’s diary

以前は研究にあまり関係ない雑談・2023年4月から本を通じた自分の振り返りやってます

B.W. Silverman "Density estimation for statistics and data analysis" Chapman & Hall 1986

電総研に入った 1990 年代は、個人的には分布推定が中心の研究をしていました。当初勉強していた統計多変量解析の話がガウス分布ぱっかりだったので、この本にあるようなノンパラの話や混合分布の話がなんとなくよさそうに思えたというのがあります。

 

実際には複雑な分布形は次元の呪いを受けやすく、せいぜいガウス分布みたいなのじゃないとまともに推定できないということから少しずつそちらの方面からは離れて、次元削減の話とか、カーネル法、実用面ではガウス分布に戻ったりしました。

 

カーネルという言葉はノンパラのカーネル密度推定でも使われるのでちょっとややこしいのですが、SVM が流行ったころ、Vapnik の原理というのも同時に広まっていきました。ある問題を解くのにより難しいサブプロブレムを解いてはいけないというようなことですが、機械学習で言えば、識別が必要な時に、より難しい分布推定を解くというのはだめというような感じで言われていました。実際、情報数理に入って大津さんとかがやっていた非線形判別とかの話は、確率分布ありきで最適性が示されていたりしたので、その路線で自然に考えればまず分布推定を解くという発想になりやすいです。まあノンパラみたいに直接次元の呪いを受ける分布推定方法でなければ別に大丈夫だと思います。

 

ノンパラの分布すいては、基本的にカーネル密度推定みたいなものしかやっていませんでしたが、この本には例えば最近傍系の密度推定なんかにも言及されていて、こういうのは日野さんのやっていたエントロピー推定とか次元推定なんかでも使われていたので、別にノンパラの推定自身は高次元でなければ結構使える技術だとは思います。