isatoの活動日記

管理人isatoが毎日の生活で気になったこと、勉強になったことを書いています。

深層強化学習の勉強1

深層強化学習とは、深層学習と強化学習を組み合わせた機械学習法です。

 

深層学習は結構知られていて、ディープニューラルネットワークを使って学習していく学習手法ですね。

 

強化学習とは、以下のような図でエージェントと環境が状態、行動、報酬の三つの要素をやり取りすることで学習を進める機械学習法です。

 

f:id:spark856:20190624125928p:plain

 

エージェントはある状態に対して、何か行動を起こします。そして環境はその行動に見合った報酬をエージェントに与えます。

エージェントの目標は任意の状態に対して、報酬が最大化される行動を選択できるようになることです。

ただし、ある時刻で得られる報酬だけを最大化するのではなく、将来にわたって得られる報酬の総和を最大化することを考えます。