toddler’s diary

以前は研究にあまり関係ない雑談・2023年4月から本を通じた自分の振り返りやってます

佐藤一誠「トピックモデルによる統計的潜在意味解析」コロナ社 2015

自然言語処理については伊理研にいるころ助手の富岡さんなんかがメインで研究されていたのを横から見ている程度でしたが、たいていの問題はNP困難だというような研究が多くて大変そうだなという感じでした。

 

その後、ナイーブベイズで迷惑メールフィルタでちまちまメールボックスの迷惑メールを学習していたころに、単なる頻度ベクトルにコーディングしてしまうというのを聞いてその落差に驚きました。

 

pLSI とか LDA とかいろいろ出てきて、最初はディリクレ分布とか聞きなれない分布が出てきてなんだろうと思っていたら、結局のところ確率行列の低次元行列分解だということがわかり、そこから村田研の学生さんとかと情報幾何の話をからめて議論させていただいて発表しました。トピックモデルというよりはNMFという感じでしたが、その前からやっている情報幾何的次元圧縮とも関連性があるので私の最近のメイントピックといってもいいかもしれません。

 

それから地学の吉田さんとかとトピックモデル/NMF を地質の元素組成データに使うという研究をしました。自然言語以外にトピックモデルというキーワードを使ったのはかなりパイオニアなのではないかと思います。ただし、実はトピックモデルでは元素のどれだけを1単位とするかが結構難しい問題になります。これはトピックモデルに限らず連続量を離散化するという観点で今も研究対象です。

 

地学で次元削減する際の問題点は、軸の解釈という問題点で、これは因子分析などでもそうなのですが、基本的には回転の自由度がある話なので、本来軸の解釈というのは非常に難しい話です。とはいえ地学の論文ではある程度そこが求められます。また、主成分分析も元素の間に極端な頻度の差があるので正規化した後主成分分析しますが、そうすると通常説明されるような分散最大化という意味合いは消えて、むしろ相関性の高い元素を抽出する方法となることに気づきました。これはあまりどこにも書いていない話かと思います。

 

NMF 関係では村田研の学生さんと睡眠データの解析に使いましたが、これだけ基本的な方法なのにモデル選択の問題が特異性もあって非常に難しいので、そのときはブートストラップでモデル平均をとるという手法を取りました。