Глибоке навчання з підкріпленням для задач роботизованого догляду
Вантажиться...
Дата
2025
Науковий керівник
Назва журналу
Номер ISSN
Назва тому
Видавець
КПІ ім. Ігоря Сікорського
Анотація
Титаренко А. М. Глибоке навчання з підкріпленням для задач роботизованого догляду. – Кваліфікаційна робота на правах рукопису. Дисертація на здобуття наукового ступеня доктора філософії за спеціальністю 01.05.04 «Системний аналіз і теорія оптимальних рішень» (124 – Системний аналіз). – Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського», 2025. Дисертаційна робота присвячена розробці та дослідженню алгоритмів керування на основі глибокого навчання з підкріпленням та імітації для задач автоматизованого догляду. Проблематика, що лежить в основі дослідження, є надзвичайно актуальною з огляду на глобальні демографічні зміни, які проявляються у старінні населення та нестачі людських ресурсів для забезпечення повноцінного догляду за пацієнтами. Метою дослідження є створення алгоритмів, здатних керувати роботизованими системами для задач догляду, забезпечуючи при цьому високу адаптивність, безпеку та ефективність у непередбачуваних умовах. Дисертація складається із семи розділів, у яких детально розглянуто як теоретичні основи методів глибокого навчання з підкріпленням, так і практичні аспекти їх реалізації для систем роботизованого догляду. У першому розділі розглянуто загальні проблеми роботизованого догляду в контексті глобальних демографічних змін та сучасних викликів. Особлива увага приділена потребам України, де війна значно збільшила кількість людей, які потребують тривалого догляду та реабілітації. Визначено ключові технічні та соціальні перешкоди для впровадження автоматизованих систем, серед яких висока вартість, технічна складність та необхідність забезпечення безпеки під час фізичної взаємодії з пацієнтами. Розглянуто існуючі системи роботизованого догляду, визначено ключові недоліки та переваги, а також основний напрям досліджень, результати яких повинні виправити основні проблеми існуючих підходів. Також надані загальні відомості про базові методи навчання з підкріпленням та імітацією, що використовуються в роботі. Надано формальне визначення Марковських процесів ухвалення та їх розширень, що лежать в основі методів, що розглядаються. Другий розділ зосереджено на розробці стратегій керування, що забезпечують робастність та стійкість роботизованих систем. Запропоновано нові методи на основі дифузійних стратегій та алгоритмів навчання з підкріпленням, що дозволяють зменшити ризики виникнення помилок у поведінці робота. Значну увагу приділено розробці підходів для оптимізації цільових функцій, що дозволяють системам ефективно виконувати завдання навіть в умовах обмеженої кількості навчальних даних. Результати експериментів продемонстрували, що поєднання методів навчання з підкріпленням та навчання імітацією дозволяє підвищити якість керування та адаптивність системи, зменшивши необхідну кількість даних на етапі навчання з підкріпленням. Цікавим спостереженням є те, що навчаючи нейромережеву стратегію методами дифузійних стратегій на перших успішних траєкторіях, згенерованих за допомогою навчання з підкріпленням, можливо отримати рівень успішності на рівні повністю навченої стратегії навчанням з підкріпленням, або навіть краще. При цьому, важливо пам’ятати, що для повної збіжності онлайн методів навчання з підкріпленням потрібна велика кількість даних – взаємодій із середовищем, що може унеможливити практичне застосування. У третьому розділі досліджено методи навчання візуальних нейромережевих стратегій для керування системами догляду. Проблема полягала у необхідності обробки неповних або неточних даних сенсорів, що характерно для реальних умов експлуатації роботів. Запропоновано архітектуру нейронної мережі, яка забезпечує стабільне керування на основі візуальної інформації без привілейованих даних. Результати симуляцій у системах Assistive Gym показали високу ефективність запропонованих стратегій. Підхід дозволяє розвинути методологію запропоновану в другому розділі, розширюючи застосовність до реалістичних систем роботизованого догляду. Четвертий розділ присвячено розробці методів раннього виявлення аномальної поведінки нейромережевих стратегій для підвищення безпеки систем догляду. Основні способи оцінки ризику або аномальності стратегії включають ансамблі прогнозних моделей. В розділі спочатку досліджуються моделі такого типу, їх варіації та модифікації. Далі виводиться метод, який використовує нормалізуючі потоки для моделювання очікуваної поведінки системи та ідентифікації відхилень у реальному часі. Він базується на існуючому методі виявлення аномалій в часових рядах, здатному оцінювати аномальність ряду тільки маючи повний часовий ряд, але при цьому дозволяє виявляти аномалії в реальному часу якомога раніше. Запропонований підхід дозволив значно мінімізувати ризики виникнення критичних ситуацій, що підтверджено в рамках обчислювальних експериментів. Експериментальна валідація показала, що запропонований метод не тільки перевершує базовий, але ще і перевершує методи на базі ансамблів прогнозних моделей та інших методів виявлення аномалій в часових рядах. У п’ятому розділі в фокусі опиняється клас методів вивчення керованого середовища. Загалом такі методи дозволяють знизити розмірність простору станів середовища таким чином, щоб отриманий прихований простір станів мав динаміку, яка є гладкою або локально-лінійною. Застосування подібних методів до задачі автоматизованого догляду дозволило б підвищити інтерпретованість стратегій, а відповідно і збільшити безпечність системи. В розділі розглядається модель embedto-control (E2C), яка хоч і не найбільш ефективною в сімействі, але є простою для застосування. Для того, щоб покращити якість, використовується багатокрокове прогнозування, що дозволяє переформулювати варіаційну модель процесу і вивести нову функцію втрат для оптимізації. Для підвищення стійкості було впроваджено регуляризаційну функцію на базі теореми Гершгоріна, яка дозволяє обмежити власні значення матриць переходу, прогнозованих нейронними мережами. Обмеження лінійності у випадку з багатокроковим прогнозуванням дає можливість більш явно контролювати гладкість прихованого простору і суттєво підвищити якість простого в реалізації методу, просуваючи напрям до практичної застосовності. Шостий розділ зосереджено на проблемах кодування дій та оптимізації представлень для керування системами догляду. Запропоновано підходи на основі узгодженості з кодуванням дій, що дозволяють стабілізувати поведінку системи та забезпечити робастне керування навіть у динамічних середовищах із складними просторами дій. Для впровадження кодування дій обрано два методи вивчення керованих середовищ: PCC (Прогнозування, Консистентність, Кривизна) та PC3 (Предиктивне кодування, Послідовність, Кривизна). Для PCC виведено варіаційну функцію втрат та проведено аналіз субоптимальності. Для PC3 виведено функцію втрат на базі предиктивного кодування та також проведено аналіз субоптимальності. Отримані підходи досліджено емпірично в середовищах із ускладненими просторами дій (керування). Показано, що підхід дозволяє застосовувати класичні методи керування на базі ітеративного лінійноквадратичного регулятора в отриманих просторах станів навіть із дискретними просторами дій. Сьомий розділ присвячений розробці цілісної багатокомпонентної системи керування для задач роботизованого догляду на базі нейромережевих стратегій. Спочатку запропоновано і реалізовано фізичну систему керування для задач годування з використанням методів навчання імітацією. Для адаптації до задачі було запропоновано механізми згладжування траєкторій та коригування поведінки. Перший суттєво пришвидшує обчислення нейронних мереж при збереженні гладкості траєкторій. Це є важливим для задачі годування, де на ложці знаходиться їжа, а тому різкі або «рвані» рухи роботизованої руки можуть призвести до втрати їжі і провалу завдання. Коригування поведінки дозволяє адаптувати стратегію до особливостей пацієнтів та виправити проблемні елементи траєкторій, згенерованих функцією стратегії. Метод полягає в реалізації можливості для оператора у критичній ситуації перехопити керування системою, а також у можливості використання отриманих даних для до-навчання функції стратегії на основі маскування епізоду. В другій частині розділу пропонується та розглядається повноцінна гібридна система керування роботизованим пристроєм для догляду. Вона включає в себе методи оцінки пози людини в площині зображення з камери, проєкції пози в тривимірний простір та оцінки аномальності поведінки робота та пацієнта в реальному часі для підвищення безпеки за незвичайних обставин. Проєкції поз разом із даними щодо одометрії утворюють часовий ряд, до якого застосовується алгоритм раннього виявлення аномалій, представлений раніше в дисертації. Отримана система підтримки прийняття рішень є наскрізною, тобто такою в якій керування реалізується нейронною мережею за сенсорними сигналами та виходами інших нейронних мереж. Це знижує вартість системи зменшуючи залежність від дорогих компонент (точних приводів, лідарів, великої кількості камер тощо). Крім того, це надає можливості забезпечення безпеки у разі, якщо середовище (пацієнт і робот) перестає бути прогнозованим. Усі ці можливості були оцінені в емпіричному дослідженні, де метод застосовувався як до симульованих систем годування та маніпуляції кінцівками, так і до фізичної системи годування. Були досліджені показники успішності порівнюваних алгоритмів, а також точність системи раннього виявлення аномалій при різних порогових значеннях. Практичне значення отриманих результатів полягає у можливості використання запропонованих методів для створення ефективних та доступних систем роботизованого догляду, що можуть застосовуватись у реабілітаційних центрах, медичних закладах та для домашнього догляду. Впровадження таких систем дозволить значно зменшити навантаження на медичний персонал та забезпечити якісний догляд за пацієнтами. Фізична реалізація запропонованої системи також була розроблена за результатами досліджень в рамках роботи.
Опис
Ключові слова
вивчення керованих середовищ, виявлення аномалій, гібридна система, глибоке навчання, дифузійні моделі, Марковський процес ухвалення, навчання з підкріпленням, нейронні мережі, оптимальне керування, оптимізація, оцінка ризиків, прихований простір, робототехніка для догляду, системи підтримки прийняття рішень, штучний інтелект, anomaly detection, artificial intelligence, caregiving robotics, decision support system, deep learning, diffusion models, hybrid system, latent space, learning controllable environment, Markov decision process, neural networks, optimal сontrol, optimization, reinforcement learning, risk estimation
Бібліографічний опис
Титаренко, А. М. Глибоке навчання з підкріпленням для задач роботизованого догляду : дис. … д-ра філософії : 124 Системний аналіз / Титаренко Андрій Миколайович. – Київ, 2025. – 159 с.