Методи планування першого порядку для модельного навчання з підкріпленням

Вантажиться...
Ескіз

Дата

2025

Науковий керівник

Назва журналу

Номер ISSN

Назва тому

Видавець

КПІ ім. Ігоря Сікорського

Анотація

Дипломна робота: 111 сторінок, 22 рисунків, 3 додатки, 42 джерел. Тема даної роботи полягає у вивченні методів планування в контексті модельного навчання з підкріпленням. Зокрема, робота зосереджена на аналізі існуючих підходів до планування, порівнянні їх характеристик, а також розробці нового методу, що покликаний покращити ефективність прийняття рішень агентом у симульованому середовищі. Особливу увагу приділено методам, які використовуються для знаходження оптимальних послідовностей дій у середовищі з відомою або наближеною динамікою. Об’єктом дослідження є сучасні методи планування, що застосовуються в модельному навчанні з підкріпленням. Більшість з них засновані на стохастичних методах оптимізації, таких як метод перехресної ентропії, або є його вдосконаленнями. Такі методи демонструють високу ефективність у складних середовищах, однак мають певні обмеження щодо точності, стабільності та швидкості збіжності. Метою роботи є створення нового методу планування, що поєднує переваги існуючих підходів та мінімізує їхні недоліки. Окрім практичного впровадження, значна увага приділяється теоретичному обґрунтуванню запропонованого методу, за допомогою виведення його з концепції навчання з підкріпленням як варіаційного виведення. Також проводиться емпіричне порівняння з існуючими методами з метою виявлення переваг та недоліків нового підходу. У процесі виконання роботи було реалізовано програмну імплементацію кількох популярних методів планування мовою програмування Python. Експериментальна оцінка їх ефективності проводилася на основі фізично реалістичних симуляторів локомоції, таких як walker, humanoid та dog з набору середовищ Deepmind Control Suite. При написанні роботи було використано наукові статті з галузі навчання з підкріпленням, планування, оптимального контролю та суміжних галузей.

Опис

Ключові слова

планування, модельне навчання з підкріпленням, глибоке навчання з підкріпленням, planning, model-based reinforcement learning, deep reinforcementlearning

Бібліографічний опис

Педан, А. Ю. Методи планування першого порядку для модельного навчання з підкріпленням : дипломна робота … бакалавра : 124 Системний аналіз / Педан Анастасія Юріївна. – Київ, 2025. – 111 с.

ORCID

DOI