Обучение с подкреплением часть 1
Лекция: Основные понятия обучения с подкреплением: агент, среда, стратегия, награда. Value function и Q-function. Уравнения Беллмана. Алгоритм Policy iteration. (Слайды, Видео)
Семинар: Реализация агента для прохождения игры. (Семинар)
-
Даниил Полыковский