Deep Q-learning policy optimization method for enhancing generalization in autonomous vehicle control

Drahan, Mykhailo; Pysarenko, Andrii

Deep Q-learning policy optimization method for enhancing generalization in autonomous vehicle control

dc.contributor.author	Drahan, Mykhailo
dc.contributor.author	Pysarenko, Andrii
dc.date.accessioned	2026-02-09T08:51:36Z
dc.date.available	2026-02-09T08:51:36Z
dc.date.issued	2025
dc.description.abstract	The development of autonomous vehicle control policies based on deep reinforcement learning is a principal technical problem for cyber-physical systems, fundamentally constrained by the high dimensionality of state spaces, inherent algorithmic instability, and a pervasive risk of policy over-specialization that severely limits generalization to real-world scenarios. The object of this investigation is the iterative process of forming a robust control policy within a simulated environment, while the subject focuses on the influence of specialized reward structures and initial training conditions on policy convergence and generalization capability. The study's aim is to develop and empirically evaluate a deep Q-learning policy optimization method that utilizes dynamic initial conditions to mitigate over-specialization and achieve stable, globally optimal adaptive control. The developed method formalizes two optimization criteria. First, the adaptive reward function serves as the safety and convergence criterion, defined hierarchically with major penalties for collision, intermediate incentives for passing checkpoints and a continuous minor penalty for elapsed time to drive efficiency. Second, the mechanism of dynamic initial conditions acts as the policy generalization criterion, designed to inject necessary stochasticity into the state distribution. The agent is modeled as a vehicle equipped with an eight-sensor system providing 360 degrees coverage, making decisions from a discrete action space of seven options. Its ten-dimensional state vector integrates normalized sensor distance readings with normalized dynamic characteristics, including speed and angular error. Empirical testing confirmed the policy's vulnerability under baseline fixed-start conditions, where the agent demonstrated over-specialization and stagnated at a traveled distance of approximately 960 conventional units after 40,000 episodes. The subsequent application of the dynamic initial conditions criterion successfully addressed this failure. By forcing the agent to rely on its generalized state mapping instead of trajectory memory, this approach successfully overcame the learning plateau, enabling the agent to achieve full, collision-free track traversal between 53,000 and 54,000 episodes. Final optimization, driven by penalty, reduced the total track completion time by nearly half. This verification confirms the method's value in producing robust, stable, and efficient control policies suitable for integration into autonomous transport cyber-physical systems.
dc.description.abstractother	Розроблення політик автономного керування транспортними засобами на основі глибокого навчання з підкріпленням є однією з основних технічних задач для кіберфізичних систем, яка суттєво обмежується високою розмірністю простору станів, притаманною алгоритмічною нестабільністю та поширеним ризиком надмірного перенавчання, що обмежує можливість застосування політик узагальнення до реальних сценаріїв. Об'єктом цього дослідження є ітеративний процес формування ефективної політики керування в імітаційному середовищі, тоді як предмет дослідження зосереджується на вивченні впливу спеціалізованих функцій винагороди та початкових умов навчання на збіжність політики та здатність до узагальнення. Метою дослідження є розроблення та емпірична оцінка методу оптимізації політики глибокого Q-навчання, який використовує динамічні початкові умови для пом'якшення надмірної спеціалізації та досягнення стійкого і оптимального адаптивного керування. Розроблений метод формалізує два критерії оптимізації. По-перше, адаптивна функція винагороди слугує критерієм безпеки та збіжності, яка визначається ієрархічно з великими штрафами за зіткнення, середніми стимулами за проходження контрольних точок та постійними невеликими штрафами за витрачений час для підвищення ефективності руху. По-друге, механізм динамічних початкових умов діє як критерій політики узагальнення, призначений для введення необхідної стохастичності в розподіл станів. Агент моделюється як транспортний засіб, оснащений системою з восьми датчиків, що забезпечують покриття у 360 градусів, який приймає рішення з семи варіантів дискретного простору дій. Його десятивимірний вектор стану інтегрує нормалізовані покази датчиків відстані з нормалізованими динамічними характеристиками, включаючи швидкість і кутову похибку. Емпіричні дослідження підтвердили вразливість політики в базових умовах фіксованого старту, де агент продемонстрував надмірну спеціалізацію і застряг на відстані приблизно 960 умовних одиниць після 40 000 епізодів. Подальше застосування динамічних початкових умов успішно вирішило цю проблему. Змушуючи агента покладатися на узагальнене відображення стану замість того, щоб покладатися на історію проходження траєкторії, цей підхід успішно подолав плато навчання, дозволивши агенту досягти повного проходження траєкторії без зіткнень у проміжку між 53 000 і 54 000 епізодами. Остаточна оптимізація, зумовлена штрафами, скоротила загальний час проходження траси майже наполовину. Ці експериментальні дослідження підтверджують цінність методу у створенні надійних, стабільних та ефективних політик керування, придатних для інтеграції в автономні транспортні кіберфізичні системи.
dc.format.pagerange	P. 96-109
dc.identifier.citation	Drahan, M. Deep Q-learning policy optimization method for enhancing generalization in autonomous vehicle control / Andrii Pysarenko, Mykhailo Drahan // Information, Computing and Intelligent systems. – 2025. – No. 7. – P. 96-109. – Bibliogr.: 15 ref.
dc.identifier.doi	https://doi.org/10.20535/2786-8729.7.2025.341723
dc.identifier.orcid	0009-0002-5583-2907
dc.identifier.orcid	0000-0001-7947-218X
dc.identifier.uri	https://ela.kpi.ua/handle/123456789/78689
dc.language.iso	en
dc.publisher	National Technical University of Ukraine "Igor Sikorsky Kyiv Polytechnic Institute"
dc.publisher.place	Kyiv
dc.relation.ispartof	Information, Computing and Intelligent systems, No. 7, 2025
dc.rights.uri	https://creativecommons.org/licenses/by/4.0/
dc.subject	deep Q-learning
dc.subject	autonomous vehicle
dc.subject	policy generalization
dc.subject	reward function
dc.subject	dynamic initial conditions
dc.subject	cyber-physical systems
dc.subject	глибоке Q-навчання
dc.subject	автономний транспортний засіб
dc.subject	політика узагальнення
dc.subject	функція винагороди
dc.subject	динамічні початкові умови
dc.subject	кіберфізичні системи
dc.subject.udc	004.8
dc.title	Deep Q-learning policy optimization method for enhancing generalization in autonomous vehicle control
dc.title.alternative	Метод оптимізації політики глибокого Q-навчання для вдосконалення узагальнення в керуванні автономними транспортними засобами
dc.type	Article

Файли

Контейнер файлів

Зараз показуємо 1 - 1 з 1

Назва:: 96-109.pdf
Розмір:: 442.26 KB
Формат:: Adobe Portable Document Format

Завантажити

Ліцензійна угода

Зараз показуємо 1 - 1 з 1

Назва:: license.txt
Розмір:: 8.98 KB
Формат:: Item-specific license agreed upon to submission
Опис:

Завантажити

Зібрання

Information, Computing and Intelligent systems, No. 7