Методи планування першого порядку для модельного навчання з підкріпленням
Вантажиться...
Дата
2025
Автори
Науковий керівник
Назва журналу
Номер ISSN
Назва тому
Видавець
КПІ ім. Ігоря Сікорського
Анотація
Дипломна робота: 111 сторінок, 22 рисунків, 3 додатки, 42 джерел.
Тема даної роботи полягає у вивченні методів планування в контексті модельного навчання з підкріпленням. Зокрема, робота зосереджена на аналізі існуючих підходів до планування, порівнянні їх характеристик, а також розробці нового методу, що покликаний покращити ефективність прийняття рішень агентом у симульованому середовищі. Особливу увагу приділено методам, які використовуються для знаходження оптимальних послідовностей дій у середовищі з відомою або наближеною динамікою. Об’єктом дослідження є сучасні методи планування, що застосовуються в модельному навчанні з підкріпленням. Більшість з них засновані на стохастичних методах оптимізації, таких як метод перехресної ентропії, або є його вдосконаленнями. Такі методи демонструють високу ефективність у складних середовищах, однак мають певні обмеження щодо точності, стабільності та швидкості збіжності. Метою роботи є створення нового методу планування, що поєднує переваги існуючих підходів та мінімізує їхні недоліки. Окрім практичного впровадження, значна увага приділяється теоретичному обґрунтуванню запропонованого методу, за допомогою виведення його з концепції навчання з підкріпленням як варіаційного виведення. Також проводиться емпіричне порівняння з існуючими методами з метою виявлення переваг та недоліків нового підходу. У процесі виконання роботи було реалізовано програмну імплементацію кількох популярних методів планування мовою програмування Python. Експериментальна оцінка їх ефективності проводилася на основі фізично реалістичних симуляторів локомоції, таких як walker, humanoid та dog з набору середовищ Deepmind Control Suite. При написанні роботи було використано наукові статті з галузі навчання з підкріпленням, планування, оптимального контролю та суміжних галузей.
Опис
Ключові слова
планування, модельне навчання з підкріпленням, глибоке навчання з підкріпленням, planning, model-based reinforcement learning, deep reinforcementlearning
Бібліографічний опис
Педан, А. Ю. Методи планування першого порядку для модельного навчання з підкріпленням : дипломна робота … бакалавра : 124 Системний аналіз / Педан Анастасія Юріївна. – Київ, 2025. – 111 с.