toddler’s diary

以前は研究にあまり関係ない雑談・2023年4月から本を通じた自分の振り返りやってます

G. J. McLachlan, T. Krishnan "The EM Algorithm and Extensions", Wiley 1996

この本は今は第2版が出ているようです。前にも書いたように、EM アルゴリズムを知ったのはだいぶ遅かったのですが、その後博士論文とかいろいろな研究でお世話になった手法です。この本は 1996 年に出たものなのですが、この本を買った頃は EM アルゴリズムの最終段での収束の遅さが少し気になっていたので加速法とかについて調べた記憶があります。池田思朗さんとかがこの辺りの研究もされていました。

 

機械学習統計学の関係を考えた時の一つの要素は計算アルゴリズムだと思います。もちろん計算統計という分野もありますし、McLachlan も統計学者だと思いますが、統計学におけるアルゴリズムの位置づけと機械学習におけるアルゴリズムの位置づけはかなり重みが違うように感じます。

 

ただ、モデルの話とアルゴリズムの話は密接に関係しながらも、分けて議論しないといろいろと話がごっちゃになってわかりにくくなるという側面はあります。これはアルゴリズムに限らず、人間というのは一度に一つの側面を見て、それらを最終的に組み合わせて理解していくという段階を踏むので、一度にたくさんの要素を与えられると混乱しやすいのではないかと思います。

 

あと、EMアルゴリズムの対象となるような混合分布など理論解析や閉じた形での解が得られにくいモデルは統計ではかなり発展的な話題としてとらえられているのかなという印象です。一方で複雑なモデルを使う要請が強い機械学習ではかなり早い段階で導入されるイメージでしょうか。とはいえ機械学習という学問分野は存在しないので、これらは主観的な印象でしかありません。

 

EM アルゴリズムはその後変分ベイズとかに取って代わられたかと思いきや、最近でもマテリアルインフォマティクスで分光データの解析とかで職場の松村太郎次郎さんや安藤さん、NIMSの永田さん(元産総研)や永村さんと一緒にやらせていただいた仕事では大活躍していて、手軽で便利な手法であることを改めて感じました。