Методи планування першого порядку для модельного навчання з підкріпленням

Педан, Анастасія Юріївна

Методи планування першого порядку для модельного навчання з підкріпленням

Файли

Pedan_bakalavr.pdf (4.3 MB)

Дата

2025

Автори

Педан, Анастасія Юріївна

Науковий керівник

Касьянов, Павло Олегович

Видавець

КПІ ім. Ігоря Сікорського

Анотація

Дипломна робота: 111 сторінок, 22 рисунків, 3 додатки, 42 джерел. Тема даної роботи полягає у вивченні методів планування в контексті модельного навчання з підкріпленням. Зокрема, робота зосереджена на аналізі існуючих підходів до планування, порівнянні їх характеристик, а також розробці нового методу, що покликаний покращити ефективність прийняття рішень агентом у симульованому середовищі. Особливу увагу приділено методам, які використовуються для знаходження оптимальних послідовностей дій у середовищі з відомою або наближеною динамікою. Об’єктом дослідження є сучасні методи планування, що застосовуються в модельному навчанні з підкріпленням. Більшість з них засновані на стохастичних методах оптимізації, таких як метод перехресної ентропії, або є його вдосконаленнями. Такі методи демонструють високу ефективність у складних середовищах, однак мають певні обмеження щодо точності, стабільності та швидкості збіжності. Метою роботи є створення нового методу планування, що поєднує переваги існуючих підходів та мінімізує їхні недоліки. Окрім практичного впровадження, значна увага приділяється теоретичному обґрунтуванню запропонованого методу, за допомогою виведення його з концепції навчання з підкріпленням як варіаційного виведення. Також проводиться емпіричне порівняння з існуючими методами з метою виявлення переваг та недоліків нового підходу. У процесі виконання роботи було реалізовано програмну імплементацію кількох популярних методів планування мовою програмування Python. Експериментальна оцінка їх ефективності проводилася на основі фізично реалістичних симуляторів локомоції, таких як walker, humanoid та dog з набору середовищ Deepmind Control Suite. При написанні роботи було використано наукові статті з галузі навчання з підкріпленням, планування, оптимального контролю та суміжних галузей.

Ключові слова

планування, модельне навчання з підкріпленням, глибоке навчання з підкріпленням, planning, model-based reinforcement learning, deep reinforcementlearning

Бібліографічний опис

Педан, А. Ю. Методи планування першого порядку для модельного навчання з підкріпленням : дипломна робота … бакалавра : 124 Системний аналіз / Педан Анастасія Юріївна. – Київ, 2025. – 111 с.

URI

https://ela.kpi.ua/handle/123456789/76246

Зібрання

Бакалаврські роботи (ММСА)
Бакалаврські роботи

Повна інформація про документ

Методи планування першого порядку для модельного навчання з підкріпленням

Файли

Дата

Автори

Науковий керівник

Назва журналу

Номер ISSN

Назва тому

Видавець

Анотація

Опис

Ключові слова

Бібліографічний опис

ORCID

URI

DOI

Зібрання