Методи планування першого порядку для модельного навчання з підкріпленням
| dc.contributor.advisor | Касьянов, Павло Олегович | |
| dc.contributor.author | Педан, Анастасія Юріївна | |
| dc.date.accessioned | 2025-09-23T08:11:27Z | |
| dc.date.available | 2025-09-23T08:11:27Z | |
| dc.date.issued | 2025 | |
| dc.description.abstract | Дипломна робота: 111 сторінок, 22 рисунків, 3 додатки, 42 джерел. Тема даної роботи полягає у вивченні методів планування в контексті модельного навчання з підкріпленням. Зокрема, робота зосереджена на аналізі існуючих підходів до планування, порівнянні їх характеристик, а також розробці нового методу, що покликаний покращити ефективність прийняття рішень агентом у симульованому середовищі. Особливу увагу приділено методам, які використовуються для знаходження оптимальних послідовностей дій у середовищі з відомою або наближеною динамікою. Об’єктом дослідження є сучасні методи планування, що застосовуються в модельному навчанні з підкріпленням. Більшість з них засновані на стохастичних методах оптимізації, таких як метод перехресної ентропії, або є його вдосконаленнями. Такі методи демонструють високу ефективність у складних середовищах, однак мають певні обмеження щодо точності, стабільності та швидкості збіжності. Метою роботи є створення нового методу планування, що поєднує переваги існуючих підходів та мінімізує їхні недоліки. Окрім практичного впровадження, значна увага приділяється теоретичному обґрунтуванню запропонованого методу, за допомогою виведення його з концепції навчання з підкріпленням як варіаційного виведення. Також проводиться емпіричне порівняння з існуючими методами з метою виявлення переваг та недоліків нового підходу. У процесі виконання роботи було реалізовано програмну імплементацію кількох популярних методів планування мовою програмування Python. Експериментальна оцінка їх ефективності проводилася на основі фізично реалістичних симуляторів локомоції, таких як walker, humanoid та dog з набору середовищ Deepmind Control Suite. При написанні роботи було використано наукові статті з галузі навчання з підкріпленням, планування, оптимального контролю та суміжних галузей. | |
| dc.description.abstractother | Thesis work: 111 pages, 22 figures, 3 appendices, 42 references. The topic of the current work is the study of planning methods in the context of model-based reinforcement learning. In particular, the work focuses on analyzing existing planning approaches, comparing their characteristics, and developing a novel method aimed at improving an agent’s decision-making efficiency in simulated environments. Special attention is given to methods used for finding optimal sequences of actions in environments with known or approximated dynamics. The object of the study is modern planning methods used in model-based reinforcement learning. Most of these methods are based on stochastic optimization techniques, such as the Cross-Entropy Method, or represent its enhancements. While these methods demonstrate high performance in complex environments, they also have limitations in terms of accuracy, stability, and convergence speed. The aim of this work is to develop a new planning method that combines the strengths of existing approaches while mitigating their weaknesses. In addition to its practical implementation, significant emphasis is placed on the theoretical justification of the proposed method, by showing its derivation from the principles of reinforcement learning as variational inference framework. An empirical comparison with existing methods is also conducted to identify the advantages and limitations of the new approach. During the development of this work, implementations of the various planning methods were created using the Python programming language. The comparative analysis of experimental results acquired from physically-realistic locomotion simulators, such as walker, humanoid, and dog from the Deepmind Control Suite was conducted. When writing this work, scientific papers from the fields of reinforcement learning, planning and optimal control were used, along with ones from adjacent fields. | |
| dc.format.extent | 111 с. | |
| dc.identifier.citation | Педан, А. Ю. Методи планування першого порядку для модельного навчання з підкріпленням : дипломна робота … бакалавра : 124 Системний аналіз / Педан Анастасія Юріївна. – Київ, 2025. – 111 с. | |
| dc.identifier.uri | https://ela.kpi.ua/handle/123456789/76246 | |
| dc.language.iso | uk | |
| dc.publisher | КПІ ім. Ігоря Сікорського | |
| dc.publisher.place | Київ | |
| dc.subject | планування | |
| dc.subject | модельне навчання з підкріпленням | |
| dc.subject | глибоке навчання з підкріпленням | |
| dc.subject | planning | |
| dc.subject | model-based reinforcement learning | |
| dc.subject | deep reinforcementlearning | |
| dc.title | Методи планування першого порядку для модельного навчання з підкріпленням | |
| dc.type | Bachelor Thesis |
Файли
Контейнер файлів
1 - 1 з 1
Вантажиться...
- Назва:
- Pedan_bakalavr.pdf
- Розмір:
- 4.3 MB
- Формат:
- Adobe Portable Document Format
Ліцензійна угода
1 - 1 з 1
Ескіз недоступний
- Назва:
- license.txt
- Розмір:
- 8.98 KB
- Формат:
- Item-specific license agreed upon to submission
- Опис: