Nächste Seite: Greedy-Policy vs. Optimal Policy
Aufwärts: Reinforcement Learning (Bestärkendes Lernen)
Vorherige Seite: Idee bzw. Aufgabe
Inhalt
Unterabschnitte
Die
State Value Function bewertet eine Situation des Systems. Es wird bewertet, was wir aufgrund der Policy

aus diesem Status für ein Return haben können.
Die
Aktion Value Function bewertet eine Aktion des Agentens.