Google
 
Web www.grundstudium.info
 

next up previous contents
Nächste Seite: Greedy-Policy vs. Optimal Policy Aufwärts: Reinforcement Learning (Bestärkendes Lernen) Vorherige Seite: Idee bzw. Aufgabe   Inhalt

Unterabschnitte

Value Function

State Value Function $V^{\pi}$

Die State Value Function bewertet eine Situation des Systems. Es wird bewertet, was wir aufgrund der Policy $\pi$ aus diesem Status für ein Return haben können.

Action Value Function $Q^{\pi}$

Die Aktion Value Function bewertet eine Aktion des Agentens.