強化学習ではある状態に対してどのような行動をとれば、その後に得られる総報酬が最大化されるかを学習していきます。 強化学習ではこの指標を「行動価値」とよび、「行動価値関数」というもので表現しています。 行動価値関数の理想的な定義は、状態と行動…
引用をストックしました
引用するにはまずログインしてください
引用をストックできませんでした。再度お試しください
限定公開記事のため引用できません。