Глибоке навчання з підкріпленням для задач роботизованого догляду
dc.contributor.advisor | Касьянов, Павло Олегович | |
dc.contributor.author | Титаренко, Андрій Миколайович | |
dc.date.accessioned | 2025-06-27T13:40:36Z | |
dc.date.available | 2025-06-27T13:40:36Z | |
dc.date.issued | 2025 | |
dc.description.abstract | Титаренко А. М. Глибоке навчання з підкріпленням для задач роботизованого догляду. – Кваліфікаційна робота на правах рукопису. Дисертація на здобуття наукового ступеня доктора філософії за спеціальністю 01.05.04 «Системний аналіз і теорія оптимальних рішень» (124 – Системний аналіз). – Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського», 2025. Дисертаційна робота присвячена розробці та дослідженню алгоритмів керування на основі глибокого навчання з підкріпленням та імітації для задач автоматизованого догляду. Проблематика, що лежить в основі дослідження, є надзвичайно актуальною з огляду на глобальні демографічні зміни, які проявляються у старінні населення та нестачі людських ресурсів для забезпечення повноцінного догляду за пацієнтами. Метою дослідження є створення алгоритмів, здатних керувати роботизованими системами для задач догляду, забезпечуючи при цьому високу адаптивність, безпеку та ефективність у непередбачуваних умовах. Дисертація складається із семи розділів, у яких детально розглянуто як теоретичні основи методів глибокого навчання з підкріпленням, так і практичні аспекти їх реалізації для систем роботизованого догляду. У першому розділі розглянуто загальні проблеми роботизованого догляду в контексті глобальних демографічних змін та сучасних викликів. Особлива увага приділена потребам України, де війна значно збільшила кількість людей, які потребують тривалого догляду та реабілітації. Визначено ключові технічні та соціальні перешкоди для впровадження автоматизованих систем, серед яких висока вартість, технічна складність та необхідність забезпечення безпеки під час фізичної взаємодії з пацієнтами. Розглянуто існуючі системи роботизованого догляду, визначено ключові недоліки та переваги, а також основний напрям досліджень, результати яких повинні виправити основні проблеми існуючих підходів. Також надані загальні відомості про базові методи навчання з підкріпленням та імітацією, що використовуються в роботі. Надано формальне визначення Марковських процесів ухвалення та їх розширень, що лежать в основі методів, що розглядаються. Другий розділ зосереджено на розробці стратегій керування, що забезпечують робастність та стійкість роботизованих систем. Запропоновано нові методи на основі дифузійних стратегій та алгоритмів навчання з підкріпленням, що дозволяють зменшити ризики виникнення помилок у поведінці робота. Значну увагу приділено розробці підходів для оптимізації цільових функцій, що дозволяють системам ефективно виконувати завдання навіть в умовах обмеженої кількості навчальних даних. Результати експериментів продемонстрували, що поєднання методів навчання з підкріпленням та навчання імітацією дозволяє підвищити якість керування та адаптивність системи, зменшивши необхідну кількість даних на етапі навчання з підкріпленням. Цікавим спостереженням є те, що навчаючи нейромережеву стратегію методами дифузійних стратегій на перших успішних траєкторіях, згенерованих за допомогою навчання з підкріпленням, можливо отримати рівень успішності на рівні повністю навченої стратегії навчанням з підкріпленням, або навіть краще. При цьому, важливо пам’ятати, що для повної збіжності онлайн методів навчання з підкріпленням потрібна велика кількість даних – взаємодій із середовищем, що може унеможливити практичне застосування. У третьому розділі досліджено методи навчання візуальних нейромережевих стратегій для керування системами догляду. Проблема полягала у необхідності обробки неповних або неточних даних сенсорів, що характерно для реальних умов експлуатації роботів. Запропоновано архітектуру нейронної мережі, яка забезпечує стабільне керування на основі візуальної інформації без привілейованих даних. Результати симуляцій у системах Assistive Gym показали високу ефективність запропонованих стратегій. Підхід дозволяє розвинути методологію запропоновану в другому розділі, розширюючи застосовність до реалістичних систем роботизованого догляду. Четвертий розділ присвячено розробці методів раннього виявлення аномальної поведінки нейромережевих стратегій для підвищення безпеки систем догляду. Основні способи оцінки ризику або аномальності стратегії включають ансамблі прогнозних моделей. В розділі спочатку досліджуються моделі такого типу, їх варіації та модифікації. Далі виводиться метод, який використовує нормалізуючі потоки для моделювання очікуваної поведінки системи та ідентифікації відхилень у реальному часі. Він базується на існуючому методі виявлення аномалій в часових рядах, здатному оцінювати аномальність ряду тільки маючи повний часовий ряд, але при цьому дозволяє виявляти аномалії в реальному часу якомога раніше. Запропонований підхід дозволив значно мінімізувати ризики виникнення критичних ситуацій, що підтверджено в рамках обчислювальних експериментів. Експериментальна валідація показала, що запропонований метод не тільки перевершує базовий, але ще і перевершує методи на базі ансамблів прогнозних моделей та інших методів виявлення аномалій в часових рядах. У п’ятому розділі в фокусі опиняється клас методів вивчення керованого середовища. Загалом такі методи дозволяють знизити розмірність простору станів середовища таким чином, щоб отриманий прихований простір станів мав динаміку, яка є гладкою або локально-лінійною. Застосування подібних методів до задачі автоматизованого догляду дозволило б підвищити інтерпретованість стратегій, а відповідно і збільшити безпечність системи. В розділі розглядається модель embedto-control (E2C), яка хоч і не найбільш ефективною в сімействі, але є простою для застосування. Для того, щоб покращити якість, використовується багатокрокове прогнозування, що дозволяє переформулювати варіаційну модель процесу і вивести нову функцію втрат для оптимізації. Для підвищення стійкості було впроваджено регуляризаційну функцію на базі теореми Гершгоріна, яка дозволяє обмежити власні значення матриць переходу, прогнозованих нейронними мережами. Обмеження лінійності у випадку з багатокроковим прогнозуванням дає можливість більш явно контролювати гладкість прихованого простору і суттєво підвищити якість простого в реалізації методу, просуваючи напрям до практичної застосовності. Шостий розділ зосереджено на проблемах кодування дій та оптимізації представлень для керування системами догляду. Запропоновано підходи на основі узгодженості з кодуванням дій, що дозволяють стабілізувати поведінку системи та забезпечити робастне керування навіть у динамічних середовищах із складними просторами дій. Для впровадження кодування дій обрано два методи вивчення керованих середовищ: PCC (Прогнозування, Консистентність, Кривизна) та PC3 (Предиктивне кодування, Послідовність, Кривизна). Для PCC виведено варіаційну функцію втрат та проведено аналіз субоптимальності. Для PC3 виведено функцію втрат на базі предиктивного кодування та також проведено аналіз субоптимальності. Отримані підходи досліджено емпірично в середовищах із ускладненими просторами дій (керування). Показано, що підхід дозволяє застосовувати класичні методи керування на базі ітеративного лінійноквадратичного регулятора в отриманих просторах станів навіть із дискретними просторами дій. Сьомий розділ присвячений розробці цілісної багатокомпонентної системи керування для задач роботизованого догляду на базі нейромережевих стратегій. Спочатку запропоновано і реалізовано фізичну систему керування для задач годування з використанням методів навчання імітацією. Для адаптації до задачі було запропоновано механізми згладжування траєкторій та коригування поведінки. Перший суттєво пришвидшує обчислення нейронних мереж при збереженні гладкості траєкторій. Це є важливим для задачі годування, де на ложці знаходиться їжа, а тому різкі або «рвані» рухи роботизованої руки можуть призвести до втрати їжі і провалу завдання. Коригування поведінки дозволяє адаптувати стратегію до особливостей пацієнтів та виправити проблемні елементи траєкторій, згенерованих функцією стратегії. Метод полягає в реалізації можливості для оператора у критичній ситуації перехопити керування системою, а також у можливості використання отриманих даних для до-навчання функції стратегії на основі маскування епізоду. В другій частині розділу пропонується та розглядається повноцінна гібридна система керування роботизованим пристроєм для догляду. Вона включає в себе методи оцінки пози людини в площині зображення з камери, проєкції пози в тривимірний простір та оцінки аномальності поведінки робота та пацієнта в реальному часі для підвищення безпеки за незвичайних обставин. Проєкції поз разом із даними щодо одометрії утворюють часовий ряд, до якого застосовується алгоритм раннього виявлення аномалій, представлений раніше в дисертації. Отримана система підтримки прийняття рішень є наскрізною, тобто такою в якій керування реалізується нейронною мережею за сенсорними сигналами та виходами інших нейронних мереж. Це знижує вартість системи зменшуючи залежність від дорогих компонент (точних приводів, лідарів, великої кількості камер тощо). Крім того, це надає можливості забезпечення безпеки у разі, якщо середовище (пацієнт і робот) перестає бути прогнозованим. Усі ці можливості були оцінені в емпіричному дослідженні, де метод застосовувався як до симульованих систем годування та маніпуляції кінцівками, так і до фізичної системи годування. Були досліджені показники успішності порівнюваних алгоритмів, а також точність системи раннього виявлення аномалій при різних порогових значеннях. Практичне значення отриманих результатів полягає у можливості використання запропонованих методів для створення ефективних та доступних систем роботизованого догляду, що можуть застосовуватись у реабілітаційних центрах, медичних закладах та для домашнього догляду. Впровадження таких систем дозволить значно зменшити навантаження на медичний персонал та забезпечити якісний догляд за пацієнтами. Фізична реалізація запропонованої системи також була розроблена за результатами досліджень в рамках роботи. | |
dc.description.abstractother | Tytarenko A. M. Deep reinforcement learning for caregiving robotics. - Qualifying scientific work. Manuscript. Thesis for a Doctor of Philosophy degree in specialty 01.05.04 “System analysis and theory of optimal solutions” (124 — System analysis). — National Technical University of Ukraine “Igor Sikorsky Kyiv Polytechnic Institute”, 2025. The dissertation is dedicated to the development and study of control algorithms based on deep reinforcement learning and imitation learning for automated care tasks. The underlying research problem is highly relevant given global demographic changes, characterized by an aging population and a shortage of human resources to ensure comprehensive patient care. The aim of the research is to create algorithms capable of controlling robotic systems for care tasks while ensuring high adaptability, safety, and efficiency in unpredictable conditions. The thesis consists of seven chapters, which detail both the theoretical foundations of the methods and the practical aspects of their implementation for robotic care systems. In the first chapter, general issues of robotic care are considered in the context of global demographic changes and modern challenges. Particular attention is given to the needs of Ukraine, where the war has significantly increased the number of people requiring long-term care and rehabilitation. Key technical and social barriers to implementing automated systems, such as high costs, technical complexity, and the need to ensure safety during physical interaction with patients, are identified. Existing robotic care systems are reviewed, highlighting key shortcomings and advantages, as well as the main research direction aimed at addressing the major issues of current approaches. General information on basic reinforcement learning and imitation learning methods used in the study is provided. A formal definition of Markov Decision Processes and their extensions, which underpin the discussed methods, is presented. The second chapter focuses on the development of neural netowrk policies that ensure robustness and stability of robotic systems. New methods based on diffusion policies and reinforcement learning algorithms are proposed to reduce the risks of errors in robot behavior. Significant attention is paid to developing approaches for optimizing objective functions, enabling systems to efficiently perform tasks even with a limited amount of training data. Experimental results demonstrated that combining reinforcement learning and imitation learning improves control quality and system adaptability, reducing the data required during the reinforcement learning training phase. An interesting observation is that training a neural network policy using diffusion strategies on initial successful trajectories generated through reinforcement learning can achieve performance levels comparable to a fully trained reinforcement learning policy or even better. It is crucial to note, however, that achieving full convergence of online reinforcement learning methods requires a large amount of data—interactions with the environment—which may hinder practical application. The third chapter explores methods for training vision-based neural policies for managing care systems. The challenge was to process incomplete or inaccurate sensor data, which is characteristic of real-world robot operation conditions. A neural network architecture is proposed to ensure stable control based on visual information without privileged data. Simulation results in Assistive Gym systems demonstrated the high efficiency of the trained policies. This approach expands on the methodology proposed in the second chapter, extending its applicability to realistic robotic care systems. The fourth chapter is dedicated to the development of methods for early detection of abnormal behavior in neural policies to enhance the safety of care systems. The main ways of risk estimation in policies include ensembles of predictive models. The chapter begins by exploring such models, their variations, and modifications. Then, a method utilizing normalizing flows is derived to model expected system behavior and identify deviations in real time. This approach is based on an existing anomaly detection method for time series, which can only evaluate anomalies given a complete time series but allows for real-time anomaly detection as early as possible. The proposed method significantly minimized the risks of critical situations, confirmed through computational experiments. Experimental validation demonstrated that the proposed method not only outperforms baseline approaches but also methods based on ensembles of predictive models and other time series anomaly detection techniques. The fifth chapter focuses on the class of methods for learning controllable environments (LCE). These methods generally reduce the dimensionality of the environment’s state space so that the resulting latent state space exhibits smooth or locally linear dynamics. Applying such methods to automated care tasks would improve neural network policy interpretability and, consequently, system safety. The embed-to-control (E2C) model is examined, which, while not the best in its family, is straightforward to apply. To improve quality, multi-step prediction is introduced, reformulating the variational process model and deriving a new loss function for optimization. To enhance stability, a regularization function based on the Gershgorin theorem is implemented, constraining the eigenvalues of transition matrices predicted by neural networks. The linearity constraint with multi-step prediction allows for explicit control of the latent space’s smoothness, significantly improving the quality of this simple method and pushing it closer to practical applicability. The sixth chapter focuses on action encoding problems and representation optimization for managing care systems. Approaches based on action encoding consistency are proposed to stabilize system behavior and ensure robust control, even in dynamic environments with complex action spaces. Two LCE methods were chosen for implementing action encoding: PCC (Prediction, Consistency, Curvature) and PC3 (Predictive Coding, Sequence, Curvature). For PCC, a variational loss function was derived, and suboptimality analysis was conducted. For PC3, a loss function based on predictive coding was derived, along with a suboptimality analysis. These approaches were empirically studied in environments with complex action spaces, demonstrating that classical control methods based on LCE can be applied in the obtained state spaces, even with discrete action spaces. The seventh chapter is dedicated to developing a comprehensive multi-component control system for robotic care tasks based on neural policies. A physical feeding control system using imitation learning methods was first proposed and implemented. Mechanisms for trajectory smoothing and behavior correction were introduced for task adaptation. Trajectory smoothing significantly accelerates neural network computations while maintaining smoothness, which is crucial for feeding tasks where food on a spoon must not be lost due to abrupt or jerky robot arm movements. Behavior correction adapts the policy to patient specifics and fixes problematic trajectory elements using operatorassisted control and masked episode re-training. In the second part of the chapter, a complete robotic care hybrid system is proposed and explored. It includes methods for assessing human position in the camera plane, projecting positions into 3D space, and evaluating anomalies in the behavior of both the robot and the patient in real time to enhance safety under unusual circumstances. Position projections combined with odometry data form a time series to which the earlier anomaly detection algorithm is applied. The resulting decision support system is end-to-end, where control is implemented by a neural network using sensor signals and outputs from other neural networks. This reduces system cost by minimizing dependency on expensive components (precision actuators, lidars, multiple cameras) and demonstrates safety capabilities in unpredictable environments involving patients and robots. All these capabilities were assessed in an empirical study, where the method is applied to both simulated assistive feeding and arm manipulation tasks, and a physical assistive feeding system. Success rates of the compared algorithms are studied along with the accuracy of the early anomaly detection system with different thresholds. The practical significance of the obtained results lies in the ability to use the proposed methods to create efficient and accessible robotic care systems for rehabilitation centers, medical institutions, and home care. Implementing such systems will significantly reduce the burden on medical personnel and ensure high-quality patient care. An actual physical implementation of the proposed system has also been developed using the results of the research of the dissertation. | |
dc.format.extent | 159 с. | |
dc.identifier.citation | Титаренко, А. М. Глибоке навчання з підкріпленням для задач роботизованого догляду : дис. … д-ра філософії : 124 Системний аналіз / Титаренко Андрій Миколайович. – Київ, 2025. – 159 с. | |
dc.identifier.uri | https://ela.kpi.ua/handle/123456789/74492 | |
dc.language.iso | uk | |
dc.publisher | КПІ ім. Ігоря Сікорського | |
dc.publisher.place | Київ | |
dc.subject | вивчення керованих середовищ | |
dc.subject | виявлення аномалій | |
dc.subject | гібридна система | |
dc.subject | глибоке навчання | |
dc.subject | дифузійні моделі | |
dc.subject | Марковський процес ухвалення | |
dc.subject | навчання з підкріпленням | |
dc.subject | нейронні мережі | |
dc.subject | оптимальне керування | |
dc.subject | оптимізація | |
dc.subject | оцінка ризиків | |
dc.subject | прихований простір | |
dc.subject | робототехніка для догляду | |
dc.subject | системи підтримки прийняття рішень | |
dc.subject | штучний інтелект | |
dc.subject | anomaly detection | |
dc.subject | artificial intelligence | |
dc.subject | caregiving robotics | |
dc.subject | decision support system | |
dc.subject | deep learning | |
dc.subject | diffusion models | |
dc.subject | hybrid system | |
dc.subject | latent space | |
dc.subject | learning controllable environment | |
dc.subject | Markov decision process | |
dc.subject | neural networks | |
dc.subject | optimal сontrol | |
dc.subject | optimization | |
dc.subject | reinforcement learning | |
dc.subject | risk estimation | |
dc.subject.udc | 004.8, 519.7 | |
dc.title | Глибоке навчання з підкріпленням для задач роботизованого догляду | |
dc.type | Thesis Doctoral |
Файли
Контейнер файлів
1 - 1 з 1
Вантажиться...
- Назва:
- Tytarenko_dys.pdf
- Розмір:
- 18.91 MB
- Формат:
- Adobe Portable Document Format
Ліцензійна угода
1 - 1 з 1
Ескіз недоступний
- Назва:
- license.txt
- Розмір:
- 8.98 KB
- Формат:
- Item-specific license agreed upon to submission
- Опис: