Інформаційна технологія виявлення рухомих об'єктів у тривимірному просторі з використанням рою гетерогенних БПЛА
dc.contributor.advisor | Писаренко, Андрій Володимирович | |
dc.contributor.author | Альбрехт, Йосип Омелянович | |
dc.date.accessioned | 2024-05-27T13:12:38Z | |
dc.date.available | 2024-05-27T13:12:38Z | |
dc.date.issued | 2024 | |
dc.description.abstract | Альбрехт Й.О. Інформаційна технологія виявлення рухомих об'єктів у тривимірному просторі з використанням рою гетерогенних БПЛА – Кваліфікаційна наукова праця на правах рукопису Дисертація на здобуття наукового ступеня доктора філософії за спеціальністю 126 – Інформаційні системи та технології. – Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського», Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського», Київ, 2024. У першому розділі зосереджується увага на інформаційних технологіях, які є важливим аспектом сучасного суспільства, визначаючи розвиток та функціонування різних сфер людської діяльності. Описується базування інформаційних технологій на обробці, передачі та зберіганні даних за допомогою комп'ютерів та інших технічних засобів. Також звертається увага на ключову характеристику інформаційних технологій - швидкість обробки та передачі даних, яка зросла завдяки постійному розвитку апаратних та програмних засобів. Такі технології використовуються в різних галузях, включаючи бізнес, медицину, науку та освіту. Крім того, розглядається роль інформаційних технологій у забезпеченні безпеки даних, зокрема захист від несанкціонованого доступу та кібератак. Описуються концепції "Інтернету речей", де об'єкти оточуючого середовища обладнані сенсорами та здатні обмінюватися даними. Розділ також охоплює кіберфізичні інформаційні технології, що представляють інтеграцію фізичних систем з інформаційними та комунікаційними технологіями. Цей підхід створює єдину екосистему, спрямовану на створення інтелектуальних, автономних систем, які поєднують реальний світ з віртуальним. Зазначається, що кіберфізичні інформаційні технології дозволяють взаємодіяти з фізичними об'єктами в реальному часі, використовуючи розумні алгоритми, давачі та мережі зв'язку. Такі технології включають в себе використання розумних сенсорів, збір даних з фізичних об'єктів та їхню інтеграцію з хмарними системами обробки та аналізу даних. У галузі промисловості кіберфізичні інформаційні технології можуть бути застосовані для створення "розумних заводів", де системи автоматизації та моніторингу взаємодіють з обладнанням та персоналом. У медицині ці технології можуть підтримувати створення інтелектуальних медичних систем та пристроїв для діагностики та лікування. Загалом, кіберфізичні інформаційні технології визначають новий рівень інтеграції між фізичним та цифровим світом, відкриваючи нові перспективи для розвитку інтелектуальних систем та оптимізації різних галузей діяльності. Розділ представляє собою всебічний огляд сучасного стану парадигми штучного інтелекту, що дозволяє агентам вивчати оптимальні стратегії через взаємодію з навколишнім середовищем. Зазначається, що за останні роки навчання з підкріпленням зазнало значного прогресу завдяки методам глибокого навчання, збільшенню обчислювальних потужностей та новим алгоритмічним розробкам. Розділ надає обґрунтування теоретичних засад навчання з підкріпленням, вказуючи на визначні досягнення, виклики та потенційні майбутні напрямки у цій галузі. Особлива увага приділяється ключовим концепціям та передовим дослідженням, що дозволяють зробити висновок про прогрес, досягнутий у навчанні з підкріпленням у різних сферах, таких як робототехніка, ігрові технології та системи прийняття рішень. Цей розділ містить у собі зібрану та систематизовану інформацію щодо поточного стану досліджень у галузі навчання з підкріпленням, надаючи читачу повну картину щодо досягнень, викликів та перспектив цієї важливої області штучного інтелекту. Другий розділ присвячений детальному аналізу середовищ, в яких проводилися експерименти з виконання задач в контексті навчання з підкріпленням. В цьому розділі розглядається залежність швидкості навчання системи в методі навчання з підкріпленням від кількості взаємно незалежних модулів, а також порівняння можливостей систем пошукових модулів та окремих об'єктів у пошуку цілей із невідомим місцезнаходженням відомому середовищі за допомогою алгоритмів навчання з підкріпленням. Також досліджуються можливості гетерогенних роїв БПЛА за допомогою навчання з підкріпленням та системи прийняття рішень з використанням навчання з підкріпленням для керування гетерогенними роями безпілотних літальних апаратів. У цьому розділі подано опис середовищ, в яких проводилися експерименти, їх характеристики та параметри, а також методику та процедури проведення експериментів. Розділ також розглядає результати експериментів та їхню інтерпретацію, що дозволяє зробити висновки щодо ефективності застосованих методів та підходів у вирішенні задач в контексті навчання з підкріпленням у різних середовищах та сценаріях. У другому розділі проведено дослідження, спрямоване на визначення залежності швидкості навчання системи в методі навчання з підкріпленням від кількості взаємно незалежних модулів у середовищі. Відповідно до описаних параметрів та умов експерименту, було обрано три однакових середовища, в кожному з яких знаходиться різна кількість об'єктів дослідження: один, п'ять і десять відповідно. Об'єкти дослідження були однаковими у кожному середовищі. Задача експерименту полягала у визначенні оптимальної кількості об'єктів для використання навчання з підкріпленням, яка забезпечить найкращий результат за однакової кількості ітерацій. Також проводилося порівняння ефективності досліджень, проведених на групі об'єктів, що взаємодіяли, з дослідженнями на взаємно незалежних модулях, які приймали рішення тільки на основі вхідних даних, отриманих незалежно. У експерименті було використано двовимірне поле як середовище, де об'єкти двох типів з'являлися випадковим чином. Один тип об'єктів приносив додаткові бали, а інший віднімав. У агентів було 9 очей з лінійним зором, які розрізняли чотири параметри: відстань до об'єктів різних типів, відстань до іншого об'єкта дослідження та відстань до стіни. Результати дослідження дозволили зробити висновок про ефективність та оптимальну кількість об'єктів для використання навчання з підкріпленням у відповідних умовах, що визначені експериментом. Також було виявлено можливість порівняння різних підходів до пошуку об'єктів у відомому середовищі та їх вплив на ефективність розв'язання задачі. Дослідження, продовжене у другому розділі, зосереджується на порівнянні ефективності двох різних підходів до пошуку об'єктів у відомому середовищі: централізовано керованої системи з використанням окремих модулів та децентралізованого підходу з окремими об'єктами. Дослідження використовує алгоритми навчання з підкріпленням для порівняння швидкості навчання та можливостей цих систем у двох сценаріях: пошуку статичних об'єктів з випадковими місцезнаходженнями та пошуку рухомих об'єктів з постійною швидкістю. Експериментальний дизайн передбачає визначення параметрів для навчання з підкріпленням, таких як нагороди та штрафи, і визначення розмірів вхідних та вихідних даних для нейронної мережі. Мета полягає в оцінці ефективності систем при різних умовах та порівнянні їхньої ефективності. У формулюванні проблеми визначаються експериментальні умови, включаючи постійне співвідношення між площею пошуку та кількістю об'єктів, часові одиниці для експериментів та параметри для навчання з підкріпленням. Дослідження визначає вхідні дані для обох типів систем та наводить критерії для нагород та штрафів. Результати експерименту показали, що система об'єднаних модулів вчиться повільніше, але досягає кращого максимального результату у пошуку статичних об'єктів. У випадку рухомих об'єктів система об'єднаних модулів виявляється більш ефективною як за швидкістю навчання, так і за максимальним результатом. У висновку роботи резюмуються отримані висновки, акцентуючи, що за допомогою навчання з підкріпленням можливо отримати ефективний алгоритм пошуку з використанням системи об'єднаних пошукових модулів, який буде краще застосовуватися, ніж така ж кількість окремих об'єктів з окремим керуванням. Наступний експеримент порівнює гетерогенні та гомогенні рої БПЛА з використанням алгоритмів навчання з підкріпленням. Дослідження оцінює здатність роїв у пошуку об'єктів у невідомій області. Гетерогенний рій, що включав БПЛА з різними можливостями, проявив швидше навчання та досягнув вищих винагород за меншу кількість епізодів порівняно з гомогенним роєм. Дослідження вказує на потенційні переваги використання БПЛА з різними можливостями у роях та важливість оптимізації складу рою для конкретних завдань. Далі досліджено вплив штучного інтелекту та автоматизації на гетерогенні рої безпілотних літальних апаратів. Виявлено, що гетерогенні рої з різними типами агентів та навчанням з підкріпленням мають покращену ефективність у виконанні завдань. Використання нейронних мереж для прийняття рішень та децентралізовані алгоритми дозволяють оптимізувати роботу рою та зменшувати надмірність ресурсів. Це відкриває нові можливості для розвитку автономних систем у різних областях, включаючи логістику та надзвичайні ситуації. Далі проводиться теоретичне обґрунтування змін до методу проксимальної стратегії оптимізації для багатоагентних систем Основною характеристикою алгоритму є його здатність оновлювати стратегію, роблячи кроки максимальної ефективності, при цьому дотримуючись обмежень на розходження між новою і попередньою стратегіями, використовуючи метод відсікання. Використання даного алгоритму дозволяє уникнути проблем, що виникають при застосуванні звичайних градієнтних стратегій, де великі кроки в зміні стратегії можуть привести до значного погіршення результатів через один поганий крок. Ускладнення алгоритму в багатоагентних системах полягає у врахуванні взаємодії та обміну інформацією між агентами. Для цього формула оновлення стратегії містить спеціальні параметри, що враховують дії всіх агентів, а також враховує різноманітні типи агентів та їхніх специфікацій. Третій розділ присвячений вибору середовища моделювання для подальших досліджень та експериментів у галузі робототехніки. З метою об'єктивного вибору оптимального середовища, було проведено оцінку різних інструментів моделювання на основі відгуків та характеристик, наданих джерелами, що знаходяться у вільному доступі. Результати оцінки показали, що AirSim визначається як переважне середовище для моделювання. Його багатоплатформенність, відкритий код та можливість легкого та швидкого додавання змін у середовище через Unreal Engine роблять його привабливим вибором для дослідників. З іншого боку, MissionPlanner та Morse отримали менш позитивні відгуки. Хоча MissionPlanner пропонує доступ до великої кількості реальних безпілотних літальних апаратів, його відсутність тривимірної графіки ставить під сумнів його придатність для деяких досліджень. Morse, зі свого боку, отримав відгуки про відсутність підтримки, що робить його менш привабливим варіантом для досліджень у галузі робототехніки. Нарешті, симулятор Gazebo був визначений як середовище зі широким набором параметрів для кожного агента і можливістю додавання великої кількості агентів одночасно. Проте, його відсутність офіційної підтримки операційної системи Windows і погана якість візуалізації можуть стати перешкодою для деяких досліджень. Далі в розділі розглядається процес симуляції гетерогенного рою безпілотних літальних апаратів для пошуку рухомих об'єктів у невідомому просторі. У даному дослідженні використовувався симулятор Gazebo. Для успішної реалізації симуляції було використано навчання з підкріпленням, зокрема проксимальну стратегію оптимізації. Після встановлення симулятора Gazebo та ROS (Robot Operating System) було створено моделі БПЛА та розроблено програмне забезпечення для керування роєм БПЛА з використанням навчання з підкріпленням. Умови симуляції включали в себе різноманітні топографічні особливості, такі як тунелі, пагорби, нерівності, дерева та рослинність, що підвищували складність завдання та реалізм ситуації. Застосована проксимальна стратегія оптимізації дозволила агентам у рої використовувати навчання з підкріпленням для оптимізації своєї поведінки у реальному часі. У складі рою були три типи БПЛА, кожен з яких мав свої характеристики та функціональні можливості. Під час симуляції агентам доводилося пристосовуватися до різних умов та використовувати свої можливості для успішного виявлення та відстеження об'єктів у невідомому просторі. У четвертому розділі проводиться детальний опис інформаційної технології, з її рівнями та описом збереження, перетворення, створення та обміну данними. Далі в розділі розглядається модель даної інформаційної технології, з описом кожного рівня, починаючи від рівня сенсорів, рівня обробки даних, рівня виявлення, навігації, та рівня комунікації. Описано передачу даних між рівнями та комунікацію агентів між собою і передачу повідомлень до інтерфейсу користувача, з їх подальшим збереженням та відображенням. У дисертації було вирішено усі поставлені задачі та виконано мету роботи. Інформаційну технологію розроблено в рамках науково-дослідницької роботи: «Інтелектуальні високопродуктивні технології управління технічними системами» Державний реєстраційний номер: 0121U110810; Дата реєстрації: 26-04-2021. Наукове дослідження проводилось у Національному технічному університеті України «Київський політехнічний інститут імені Ігоря Сікорського» у відповідності до напряму «Інформаційні та комунікаційні технології» переліку пріоритетних тематичних напрямів наукових досліджень і науково-технічних розробок на період до 2023 року, затвердженого постановою Кабінету Міністрів України №942 від 7.09.2011 (в редакції постанови №463 від 09.05.2023), та у відповідності до тематики наукових розробок кафедри. | |
dc.description.abstractother | Albrekht Y. Information technology for detecting moving objects in threedimensional space using a swarm of heterogeneous UAVs – Manuscript. Thesis for the Doctor of Philosophy degree in specialty 126 – Information systems and technologies, National Technical University of Ukraine “Igor Sikorsky Kyiv Polytechnic Institute”, National Technical University of Ukraine “Igor Sikorsky Kyiv Polytechnic Institute”, Kyiv, 2024. The first chapter focuses on information technologies, which are an important aspect of modern society, determining the development and functioning of various spheres of human activity. It describes the basis of information technology on the processing, transmission and storage of data using computers and other technical means. Attention is also drawn to the key characteristic of information technology - the speed of data processing and transmission, which has increased due to the constant development of hardware and software. Such technologies are used in various industries, including business, medicine, science and education. In addition, the role of information technology in ensuring data security, including protection against unauthorized access and cyberattacks, is considered. The concepts of the "Internet of Things" are described, where environmental objects are equipped with sensors and are able to exchange data. The section also covers cyber-physical information technologies, which represent the integration of physical systems with information and communication technologies. This approach creates a unified ecosystem aimed at creating intelligent, autonomous systems that combine the real world with the virtual world. It is noted that cyber-physical information technologies allow you to interact with physical objects in real time, using smart algorithms, sensors and communication networks. Such technologies include the use of smart sensors, data collection from physical objects and their integration with cloud-based data processing and analysis systems. In industry, cyber-physical information technologies can be used to create "smart factories" where automation and monitoring systems interact with equipment and personnel. In medicine, these technologies can support the creation of intelligent medical systems and devices for diagnosis and treatment. In general, cyber-physical information technologies define a new level of integration between the physical and digital worlds, opening up new prospects for the development of intelligent systems and optimization of various industries. The chapter provides a comprehensive overview of the current state of the artificial intelligence paradigm, which allows agents to learn optimal strategies through interaction with the environment. It is noted that reinforcement learning has made significant progress in recent years due to deep learning methods, increased computing power, and new algorithmic developments. The chapter provides a rationale for the theoretical foundations of reinforcement learning, pointing out the significant achievements, challenges, and potential future directions in the field. Particular attention is paid to key concepts and cutting-edge research that informs the progress made in reinforcement learning in various fields, such as robotics, gaming, and decision-making systems. This chapter provides a compiled and systematic summary of the current state of research in reinforcement learning, providing the reader with a comprehensive picture of the achievements, challenges, and prospects of this important area of artificial intelligence. The second section is devoted to a detailed analysis of the environments in which the reinforcement learning task experiments were conducted. This section discusses the dependence of the system learning rate in the reinforcement learning method on the number of mutually independent modules, as well as the comparison of the capabilities of search module systems and individual objects in finding targets with unknown locations in a known environment using reinforcement learning algorithms. The capabilities of heterogeneous UAV swarms using reinforcement learning and a decision-making system using reinforcement learning to control heterogeneous UAV swarms are also investigated. This chapter describes the environments in which the experiments were conducted, their characteristics and parameters, and the methodology and procedures for conducting the experiments. The chapter also discusses the results of the experiments and their interpretation, which allows us to draw conclusions about the effectiveness of the applied methods and approaches in solving problems in the context of reinforcement learning in different environments and scenarios. In the second section, we conducted a study aimed at determining the dependence of the system learning rate in the reinforcement learning method on the number of mutually independent modules in the environment. In accordance with the described parameters and conditions of the experiment, three identical environments were chosen, each with a different number of research objects: one, five, and ten, respectively. The research objects were the same in each environment. The objective of the experiment was to determine the optimal number of objects to use for reinforcement learning, which would provide the best result with the same number of iterations. It also compared the effectiveness of research conducted on a group of interacting objects with research on mutually independent modules that made decisions only on the basis of input data obtained independently. The experiment used a two-dimensional field as an environment where objects of two types appeared randomly. One type of object brought additional points, and the other subtracted. The agents had 9 eyes with linear vision that distinguished between four parameters: distance to objects of different types, distance to another object, and distance to the wall. The results of the study allowed us to conclude that the effectiveness and optimal number of objects for using reinforcement learning in the relevant conditions determined by the experiment is high. The study also revealed the possibility of comparing different approaches to searching for objects in a known environment and their impact on the efficiency of solving a task. The study, continued in the second chapter, focuses on comparing the performance of two different approaches to finding objects in a known environment: a centrally controlled system using individual modules and a decentralized approach with individual objects. The study uses reinforcement learning algorithms to compare the learning speed and capabilities of these systems in two scenarios: searching for static objects with random locations and searching for moving objects at a constant speed. The experimental design involves determining the parameters for reinforcement learning, such as rewards and penalties, and determining the size of the input and output data for the neural network. The goal is to evaluate the effectiveness of the systems under different conditions and compare their performance. The problem formulation defines the experimental conditions, including a constant ratio between the search area and the number of objects, time units for the experiments, and parameters for reinforcement learning. The study defines the input data for both types of systems and provides criteria for rewards and penalties. The experimental results showed that the fusion system learns more slowly, but achieves a better maximum result in the search for static objects. In the case of moving objects, the system of fused modules proves to be more efficient both in terms of learning speed and maximum result. The conclusion of the paper summarizes the findings, emphasizing that reinforcement learning can be used to obtain an effective search algorithm using a system of combined search modules that is more applicable than the same number of separate objects with separate control. The next experiment compares heterogeneous and homogeneous UAV swarms using reinforcement learning algorithms. The study evaluates the ability of swarms to find objects in an unknown area. The heterogeneous swarm, which included UAVs with different capabilities, showed faster learning and achieved higher rewards in fewer episodes compared to the homogeneous swarm. The study points to the potential benefits of using UAVs with different capabilities in swarms and the importance of optimizing swarm composition for specific tasks. Next, we investigate the impact of artificial intelligence and automation on heterogeneous swarms of unmanned aerial vehicles. It was found that heterogeneous swarms with different types of agents and reinforcement learning have improved efficiency in performing tasks. The use of neural networks for decision-making and decentralized algorithms allows to optimize swarm performance and reduce resource redundancy. This opens up new opportunities for the development of autonomous systems in various fields, including logistics and emergency situations. Next the section provides a theoretical justification for changes to the method of proximal optimization strategy for multi-agent systems The main characteristic of the algorithm is its ability to update the strategy by taking steps of maximum efficiency, while observing the restrictions on the difference between the new and previous strategies using the cutoff method. The use of this algorithm avoids the problems that arise when applying conventional gradient strategies, where large steps in changing the strategy can lead to a significant deterioration in results due to one bad step. The complication of the algorithm in multi-agent systems is to take into account the interaction and exchange of information between agents. For this purpose, the strategy update formula contains special parameters that take into account the actions of all agents and also takes into account various types of agents and their specifications. The third section is devoted to the selection of a modeling environment for further research and experiments in the field of robotics. In order to objectively select the optimal environment, various modeling tools were evaluated based on reviews and characteristics provided by publicly available sources. The results of the evaluation showed that AirSim is identified as the preferred modeling environment. Its multi-platform nature, open source, and the ability to easily and quickly add changes to the environment through the Unreal Engine make it an attractive choice for researchers. On the other hand, MissionPlanner and Morse received less positive reviews. While MissionPlanner offers access to a large number of real-world unmanned aerial vehicles, its lack of three-dimensional graphics makes it questionable for some research. Morse, on the other hand, received feedback about its lack of support, making it a less attractive option for robotics research. Finally, the Gazebo simulator was identified as an environment with a wide range of parameters for each agent and the ability to add a large number of agents simultaneously. However, its lack of official support for the Windows operating system and poor visualization quality may be an obstacle for some studies. Next, it discusses the process of simulating a heterogeneous swarm of unmanned aerial vehicles to search for moving objects in an unknown space. In this study, the Gazebo simulator was used. Reinforcement learning, in particular the proximal optimization strategy, was used to successfully implement the simulation. After installing the Gazebo simulator and ROS (Robot Operating System), UAV models were created and software was developed to control the UAV swarm using reinforcement learning. The simulation environment included a variety of topographical features such as tunnels, hills, bumps, trees, and vegetation to increase the task complexity and realism of the situation. The applied proximal optimization strategy allowed the agents in the swarm to use reinforcement learning to optimize their behavior in real time. There were three types of UAVs in the swarm, each with its own characteristics and functionalities. During the simulation, the agents had to adapt to different conditions and use their capabilities to successfully detect and track objects in an unknown space. The fourth section provides a detailed description of the information technology, with its layers and descriptions of data storage, transformation, creation, and exchange. The chapter goes on to describe the model of this information technology, with a description of each layer, starting with the sensor layer, data processing layer, detection layer, navigation layer, and communication layer. It describes data transfer between the levels and communication between agents and the transfer of messages to the user interface, with their subsequent storage and display. The information technology was developed as part of the research and development work: "Intelligent high-performance technologies for the management of technical systems" State registration number: 0121U110810; Date of registration: 26-04-2021. The scientific research was conducted at the National Technical University of Ukraine "Igor Sikorsky Kyiv Polytechnic Institute" in accordance with the direction "Information and Communication Technologies" of the list of priority thematic areas of scientific research and scientific and technical developments for the period up to 2023, approved by the Resolution of the Cabinet of Ministers of Ukraine №942 of 7.09.2011 (as amended by Resolution №463 of 09.05.2023), and in accordance with the topics of scientific research of the department. The thesis has solved all the tasks and fulfilled the purpose of the work. | |
dc.format.extent | 156 с. | |
dc.identifier.citation | Альбрехт, Й. О. Інформаційна технологія виявлення рухомих об'єктів у тривимірному просторі з використанням рою гетерогенних БПЛА : дис. … д-ра філософії : 126 Інформаційні системи та технології / Альбрехт Йосип Омелянович. – Київ, 2024. – 156 с. | |
dc.identifier.uri | https://ela.kpi.ua/handle/123456789/66913 | |
dc.language.iso | uk | |
dc.publisher | КПІ ім. Ігоря Сікорського | |
dc.publisher.place | Київ | |
dc.subject | навчання з підкріпленням | |
dc.subject | рій БПЛА | |
dc.subject | інформаційна технологія | |
dc.subject | гетерогенний рій БПЛА | |
dc.subject | система прийняття рішень | |
dc.subject | навчання з підкріпленням і роях БПЛА | |
dc.subject | reinforcement learning | |
dc.subject | UAV swarm | |
dc.subject | information technology | |
dc.subject | heterogeneous UAV swarm | |
dc.subject | decision-making system | |
dc.subject | reinforcement learning in UAV swarms | |
dc.subject.udc | 004.8 | |
dc.title | Інформаційна технологія виявлення рухомих об'єктів у тривимірному просторі з використанням рою гетерогенних БПЛА | |
dc.type | Thesis Doctoral |
Файли
Контейнер файлів
1 - 1 з 1