isatoの活動日記

管理人isatoが毎日の生活で気になったこと、勉強になったことを書いています。

2019-07-23から1日間の記事一覧

強化学習の行動価値関数について

強化学習ではある状態に対してどのような行動をとれば、その後に得られる総報酬が最大化されるかを学習していきます。 強化学習ではこの指標を「行動価値」とよび、「行動価値関数」というもので表現しています。 行動価値関数の理想的な定義は、状態と行動…