Reinforcment Learning mit (adaptive) Critic ::: Neuronale Netze

Informatik » Master » Neuronale Netze » Reinforcement Learning (Bestärkendes Lernen) » Reinforcment Learning mit (adaptive) Critic

Lernen der Value Function (Temporal Difference Learning) Reinforcement Learning (Bestärkendes Lernen) SARO (Sensor Driven Random Optimisation)

Reinforcment Learning mit (adaptive) Critic

Dies ist eine Unterart des RLs. Der Critic gibt einen Ersatz für das Reinforcmentsignal, indem er das System auswertet. Der Critic kann Adaptive sein, d.h. er lernt selbst noch.

$\includegraphics[scale=0.5]{rl-critic.eps}$

Lernen der Value Function (Temporal Difference Learning) Reinforcement Learning (Bestärkendes Lernen) SARO (Sensor Driven Random Optimisation)

Ψ Die Informatikseite

Reinforcment Learning mit (adaptive) Critic