Richard S. Sutton, Andrew G. Barto "Reinforcement Learning, An Introduction", MIT Press 1998

現在はこの有名な本も改訂版が出て，和訳も出ているようですが，私の手元にあるのは初版（といっても 2000 年の third printing）です．

強化学習は時系列的な要素を持つ機械学習において最終兵器のような枠組みです．逆に言えば枠組みが強力すぎて，そこから詳細に踏み込んでいくところがかすんでしまうという側面を持っています．それはベイズという枠組みにも近いものがあって，ほとんどどのような機械学習の問題も強化学習やベイズの枠組みで記述することが可能です．

ただし，枠組みで書くだけでは，実はそれはスタート地点に立ったにすぎず，そこからどう進むのがベストかという問題は枠組みからはほとんど何も教えてくれません．ということで，機械学習の提案に強化学習とかベイズとか出てきたら，そこから後の話が大事だということを覚えておく必要があります．

強化学習のベースはマルコフ決定過程ということで，パターン認識とかでは直接出てこない Action と Reward という要素が加わってきます．Bellman 方程式や，動的計画法といったものの基礎を勉強するにはよい枠組みだと思います．この本を読んでいたころは，まだおもちゃみたいな問題しか解くことができませんでした．主な要因は次元の呪いで，状態空間が広すぎて古典的な定式化でよくある離散的な表現での強化学習が実問題では破綻してしまうところにありました．ディープラーニングではそこを救ってくれたということで，この辺りについてはたぶん改訂版や最近出てきた本で学ぶことができます．ただし，2000 年前後には強化学習について知るにはこの本くらいしかありませんでした．

toddler’s diary

以前は研究にあまり関係ない雑談・2023年4月から本を通じた自分の振り返りやってます

Richard S. Sutton, Andrew G. Barto "Reinforcement Learning, An Introduction", MIT Press 1998