Value Function beim Reinforcement Learning (Bestärkenden Lernen) ::: Neuronale Netze

Informatik » Master » Neuronale Netze » Reinforcement Learning (Bestärkendes Lernen) » Value Function beim Reinforcement Learning (Bestärkenden Lernen)

Idee bzw. Aufgabe des Reinforcement Learnings (Bestärkendes Lernen) Reinforcement Learning (Bestärkendes Lernen) Greedy-Policy vs. Optimal Policy beim Reinforcement Learning (Bestärkenden Lernen)

Unterabschnitte

State Value Function $V^{\pi}$
Action Value Function $Q^{\pi}$

Value Function beim Reinforcement Learning (Bestärkenden Lernen)

State Value Function $V^{\pi}$

Die State Value Function bewertet eine Situation des Systems. Es wird bewertet, was wir aufgrund der Policy $\pi$ aus diesem Status für ein Return haben können.

Action Value Function $Q^{\pi}$

Die Aktion Value Function bewertet eine Aktion des Agentens.

Idee bzw. Aufgabe des Reinforcement Learnings (Bestärkendes Lernen) Reinforcement Learning (Bestärkendes Lernen) Greedy-Policy vs. Optimal Policy beim Reinforcement Learning (Bestärkenden Lernen)

Ψ Die Informatikseite

Value Function beim Reinforcement Learning (Bestärkenden Lernen)

State Value Function

Action Value Function

State Value Function $V^{\pi}$

Action Value Function $Q^{\pi}$