2019-07-23から1日間の記事一覧

強化学習の行動価値関数について

強化学習ではある状態に対してどのような行動をとれば、その後に得られる総報酬が最大化されるかを学習していきます。強化学習ではこの指標を「行動価値」とよび、「行動価値関数」というもので表現しています。行動価値関数の理想的な定義は、状態と行動…