強化学習 (reinforcement learning)

ポスターセッションの時に、「矢野さんの研究の動機は強化学習のそれに非常に近い」とのコメントをもらう。

強化学習について少し調べてみると、強化学習もdynamic progammingの一変形に帰着されるようだ。つまり環境に対する情報が不完全である場合の最適制御を統計学から突き詰めていくと僕のモデルになるし、エージェントという観点から追求していくと強化学習に行き着くという風に捉えられそうだ。今日は一つ良いことを学んだ。コメントをくださった方に心より感謝。

Reinforcement Learning: A Survey:
http://www-2.cs.cmu.edu/afs/cs/project/jair/pub/volume4/kaelbling96a.pdf
強化学習とは?
http://www.fe.dis.titech.ac.jp/~gen/edu/RL_intro.html