強化学習の行動価値関数について

強化学習ではある状態に対してどのような行動をとれば、その後に得られる総報酬が最大化されるかを学習していきます。

強化学習ではこの指標を「行動価値」とよび、「行動価値関数」というもので表現しています。

行動価値関数 $Q(s_t,a_t)$ の理想的な定義は、状態 $s_t$ と行動 $a_t$ を渡すと時刻 $t$ 以降で得られる報酬 $r$ の総和を返してくれるものです。

つまりざっくり式で表すと

$$ Q(s_t,a_t) = r_t + r_{t+1} + r_{t+2} + r_{t+3} + ・・・\;\;\;\;\;\;\;\;(1)$$

のようになってほしいわけです。

ですがこの定義だと、（報酬が常に同符号だと仮定すると）値が無限に発散してしまいます。また、行動 $a_t$ が大きな影響を与えるのは報酬 $r_t$ であって、報酬 $r_{t+T}$ に大きな影響を与えるのは行動 $a_{t+T}$ です。にもかかわらず全ての $r$ が同列に扱われているのは不適切であると考えられます。

そこで割引率 $\gamma$ というものを導入します。 $\gamma$ は0~1の値で、経過時間に応じて報酬に乗算していきます。

式(1)に割引率を適用すると以下のようになります。

$$ Q(s_t,a_t) = r_t +\color{red}{\gamma}・r_{t+1} + \color{red}{{\gamma}^2}・r_{t+2} + \color{red}{{\gamma}^3}・r_{t+3} + ・・・\;\;\;\;\;\;\;\;(2)$$

これによって行動価値はある一定値に定まります。

さて、行動価値関数の定義ができたところで、これを実際に学習していきたいわけです。

機械学習では、目標となる数式の両辺の情報が手に入れば、教師あり学習として学習できます。

ということで情報を集めていきたいわけですが、式(2)の右辺が無限和になっていて、全て集めるのは困難です。

そこで、式(2)を少し工夫します。

$$ Q(s_t,a_t) = r_t +{\gamma}・r_{t+1} + {{\gamma}^2}・r_{t+2} + {{\gamma}^3}・r_{t+3} + ・・・$$ $$ \;\;\;\;\;\;\;\;\;\;\;\;\;\;= r_t +{\gamma}・(r_{t+1} + {{\gamma}}・r_{t+2} + {{\gamma}^2}・r_{t+3} + ・・・)$$ $$ \;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;= r_t +{\gamma}・Q(s_{t+1},a_{t+1})\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;(3)$$

式(3)のようにしますと、両辺の情報が時刻 $t$ と時刻 $t+1$ のみで構成されているため、容易に集めることができます。