Deep Q-learning policy optimization method for enhancing generalization in autonomous vehicle control
| dc.contributor.author | Drahan, Mykhailo | |
| dc.contributor.author | Pysarenko, Andrii | |
| dc.date.accessioned | 2026-02-09T08:51:36Z | |
| dc.date.available | 2026-02-09T08:51:36Z | |
| dc.date.issued | 2025 | |
| dc.description.abstract | The development of autonomous vehicle control policies based on deep reinforcement learning is a principal technical problem for cyber-physical systems, fundamentally constrained by the high dimensionality of state spaces, inherent algorithmic instability, and a pervasive risk of policy over-specialization that severely limits generalization to real-world scenarios. The object of this investigation is the iterative process of forming a robust control policy within a simulated environment, while the subject focuses on the influence of specialized reward structures and initial training conditions on policy convergence and generalization capability. The study's aim is to develop and empirically evaluate a deep Q-learning policy optimization method that utilizes dynamic initial conditions to mitigate over-specialization and achieve stable, globally optimal adaptive control. The developed method formalizes two optimization criteria. First, the adaptive reward function serves as the safety and convergence criterion, defined hierarchically with major penalties for collision, intermediate incentives for passing checkpoints and a continuous minor penalty for elapsed time to drive efficiency. Second, the mechanism of dynamic initial conditions acts as the policy generalization criterion, designed to inject necessary stochasticity into the state distribution. The agent is modeled as a vehicle equipped with an eight-sensor system providing 360 degrees coverage, making decisions from a discrete action space of seven options. Its ten-dimensional state vector integrates normalized sensor distance readings with normalized dynamic characteristics, including speed and angular error. Empirical testing confirmed the policy's vulnerability under baseline fixed-start conditions, where the agent demonstrated over-specialization and stagnated at a traveled distance of approximately 960 conventional units after 40,000 episodes. The subsequent application of the dynamic initial conditions criterion successfully addressed this failure. By forcing the agent to rely on its generalized state mapping instead of trajectory memory, this approach successfully overcame the learning plateau, enabling the agent to achieve full, collision-free track traversal between 53,000 and 54,000 episodes. Final optimization, driven by penalty, reduced the total track completion time by nearly half. This verification confirms the method's value in producing robust, stable, and efficient control policies suitable for integration into autonomous transport cyber-physical systems. | |
| dc.description.abstractother | Розроблення політик автономного керування транспортними засобами на основі глибокого навчання з підкріпленням є однією з основних технічних задач для кіберфізичних систем, яка суттєво обмежується високою розмірністю простору станів, притаманною алгоритмічною нестабільністю та поширеним ризиком надмірного перенавчання, що обмежує можливість застосування політик узагальнення до реальних сценаріїв. Об'єктом цього дослідження є ітеративний процес формування ефективної політики керування в імітаційному середовищі, тоді як предмет дослідження зосереджується на вивченні впливу спеціалізованих функцій винагороди та початкових умов навчання на збіжність політики та здатність до узагальнення. Метою дослідження є розроблення та емпірична оцінка методу оптимізації політики глибокого Q-навчання, який використовує динамічні початкові умови для пом'якшення надмірної спеціалізації та досягнення стійкого і оптимального адаптивного керування. Розроблений метод формалізує два критерії оптимізації. По-перше, адаптивна функція винагороди слугує критерієм безпеки та збіжності, яка визначається ієрархічно з великими штрафами за зіткнення, середніми стимулами за проходження контрольних точок та постійними невеликими штрафами за витрачений час для підвищення ефективності руху. По-друге, механізм динамічних початкових умов діє як критерій політики узагальнення, призначений для введення необхідної стохастичності в розподіл станів. Агент моделюється як транспортний засіб, оснащений системою з восьми датчиків, що забезпечують покриття у 360 градусів, який приймає рішення з семи варіантів дискретного простору дій. Його десятивимірний вектор стану інтегрує нормалізовані покази датчиків відстані з нормалізованими динамічними характеристиками, включаючи швидкість і кутову похибку. Емпіричні дослідження підтвердили вразливість політики в базових умовах фіксованого старту, де агент продемонстрував надмірну спеціалізацію і застряг на відстані приблизно 960 умовних одиниць після 40 000 епізодів. Подальше застосування динамічних початкових умов успішно вирішило цю проблему. Змушуючи агента покладатися на узагальнене відображення стану замість того, щоб покладатися на історію проходження траєкторії, цей підхід успішно подолав плато навчання, дозволивши агенту досягти повного проходження траєкторії без зіткнень у проміжку між 53 000 і 54 000 епізодами. Остаточна оптимізація, зумовлена штрафами, скоротила загальний час проходження траси майже наполовину. Ці експериментальні дослідження підтверджують цінність методу у створенні надійних, стабільних та ефективних політик керування, придатних для інтеграції в автономні транспортні кіберфізичні системи. | |
| dc.format.pagerange | P. 96-109 | |
| dc.identifier.citation | Drahan, M. Deep Q-learning policy optimization method for enhancing generalization in autonomous vehicle control / Andrii Pysarenko, Mykhailo Drahan // Information, Computing and Intelligent systems. – 2025. – No. 7. – P. 96-109. – Bibliogr.: 15 ref. | |
| dc.identifier.doi | https://doi.org/10.20535/2786-8729.7.2025.341723 | |
| dc.identifier.orcid | 0009-0002-5583-2907 | |
| dc.identifier.orcid | 0000-0001-7947-218X | |
| dc.identifier.uri | https://ela.kpi.ua/handle/123456789/78689 | |
| dc.language.iso | en | |
| dc.publisher | National Technical University of Ukraine "Igor Sikorsky Kyiv Polytechnic Institute" | |
| dc.publisher.place | Kyiv | |
| dc.relation.ispartof | Information, Computing and Intelligent systems, No. 7, 2025 | |
| dc.rights.uri | https://creativecommons.org/licenses/by/4.0/ | |
| dc.subject | deep Q-learning | |
| dc.subject | autonomous vehicle | |
| dc.subject | policy generalization | |
| dc.subject | reward function | |
| dc.subject | dynamic initial conditions | |
| dc.subject | cyber-physical systems | |
| dc.subject | глибоке Q-навчання | |
| dc.subject | автономний транспортний засіб | |
| dc.subject | політика узагальнення | |
| dc.subject | функція винагороди | |
| dc.subject | динамічні початкові умови | |
| dc.subject | кіберфізичні системи | |
| dc.subject.udc | 004.8 | |
| dc.title | Deep Q-learning policy optimization method for enhancing generalization in autonomous vehicle control | |
| dc.title.alternative | Метод оптимізації політики глибокого Q-навчання для вдосконалення узагальнення в керуванні автономними транспортними засобами | |
| dc.type | Article |
Файли
Контейнер файлів
1 - 1 з 1
Ліцензійна угода
1 - 1 з 1
Ескіз недоступний
- Назва:
- license.txt
- Розмір:
- 8.98 KB
- Формат:
- Item-specific license agreed upon to submission
- Опис: