toddler’s diary

以前は研究にあまり関係ない雑談・2023年4月から本を通じた自分の振り返りやってます

M.L.Puterman "Markov Decision Processes: discrete stochastic dynamic programming" Wiley 1994

強化学習という言葉は修士の頃から少しずつ耳にする言葉でしたが,最初は部分情報だけ与えられる半教師あり学習の親戚のようなものだと思っていました.その後 Sutton なんかの本を読んでやっとなんかすごい枠組みだと思うようになって,その基礎であるマルコフ決定過程の本を買ってみたというのがこの本です.洋書にしてはありがちな分厚い本ですが,強化学習という言葉は全く出てこなくて,ORとか確率論とかのバックグラウンドでの教科書で,ちょっと読みづらくてずっと本棚の肥やしになっていました.

 

2010年くらいに,東大病院の循環器内科にいた永井先生という大先生と産総研幹部との割とトップダウンなプロジェクトに入って,麻生さんや橋田さんや神嶌さん,あと現在奈良先端にいる荒牧さんなんかと診療データの解析をはじめました.その後科研費基盤Aをとって,城さんなんかも加わりました.そのときの一つの目玉は強化学習を使って診断とかできないかというようなアイディアで進めました.

 

ただ,強化学習はなんでも取り入れられるすごい枠組みで,プロジェクトとかを通すときはよいのですが,実際の医療データでやってみるといろいろ大変で,私の医療健康関係のデータに対するトラウマ的なものとなってしまいました.

 

一つは臨床医の方々はお忙しすぎて,それほど密に議論することが難しいことがありました.また,循環器内科のデータだけでなくほかの診療科のデータが必要になることもあったりしましたが病院の中の縦割り構造でそれが難しかったというのもあります.そもそも患者さんの行動というのは不規則で,無断で転院したりということも頻繁にあって,まともなデータを抜き出すのが大変でした.

 

強化学習とかいろいろな取り組みをしたり,銅谷さんなんかを呼んでシンポジウム的なものもしましたが,プロジェクトの結果としてはたいしたことはできませんでした.

 

それからしばらくして Deep-Q Network とかが出てきて,爆発的に強化学習が世の中を席巻し始めましたが,医療データについては特に日本国内ではまだまだハードルが高そうな気がしています.最近はそうでもないと思いますが,そもそもお医者さんは診断してくれるAIなんて別に望んでもいなくて,機械学習とかほとんど絶望的な難病治療とかに関心が高いのでそもそも目標が違っていたのかなと思います.