Nächste Seite: SARO (Sensor Driven Random Aufwärts: Reinforcement Learning (Bestärkendes Lernen) Vorherige Seite: Lernen der Value Function Inhalt
Reinforcment Learning mit (adaptive) Critic
Dies ist eine Unterart des RLs. Der Critic gibt einen Ersatz für das Reinforcmentsignal, indem er das System auswertet. Der Critic kann Adaptive sein, d.h. er lernt selbst noch.