Математичне та програмне забезпечення системи розпізнавання зображень об’єктів у відеопотоці

dc.contributor.advisorСирота, Сергій Вікторович
dc.contributor.authorСліпченко, Максим Сергійович
dc.date.accessioned2024-05-23T09:13:44Z
dc.date.available2024-05-23T09:13:44Z
dc.date.issued2024
dc.description.abstractДисертацію виконано на 80 аркушах, вона містить 2 додатки та перелік посилань на використані джерела з 17 найменувань. У роботі наведено 32 рисунки та 4 таблиці. Актуальність теми. Сучасний світ переживає епоху стрімкого розвитку технологій, зокрема в області штучного інтелекту. Одна з класичних задач цієї області – розпізнавання тексту на зображенні. Експериментуючи з підходами для рішення, фахівці зрозуміли, що комп’ютери можна навчити бачити набагато складніші речі. Сьогодні нейронні мережі дозволяють розпізнавати та класифікувати об’єкти не тільки на зображеннях, але і в режимі відео, аналізуючи та використовуючи інформацію з попередніх кадрів. Зараз це має своє застосування в багатьох сферах: медицина, автономна навігація, безпека. Неможна ігнорувати і ще одне застосування, що є дуже актуальним зараз для України. Моделі комп’ютерного зору зараз активно використовуються у воєнній сфері: як допоміжна функціональність під час повітряної розвідки, як допомога при наведенні або для виявлення цілі. Враховуючи великий об’єм даних, що потребується для створення якісної моделі розпізнавання об’єктів, задача створення програмного забезпечення для розпізнавання та автоматизації створення навчальних даних є актуальною. Зв’язок роботи з науковими програмами, планами, темами. Дисертаційна робота виконувалась згідно з планом науково-дослідних робіт кафедри прикладної математики Національного технічного університету України «Київський політехнічний інститут імені Ігоря Сікорського». Мета і задачі дослідження. Метою дослідження є створення програмного забезпечення для розпізнавання зображень об’єктів на відео, зокрема на прикладі транспортних засобів, та реалізація технологічного процесу автоматизованого навчання моделі комп’ютерного зору. Для досягнення мети дослідження було розв’язано такі задачі: – провести огляд предметної області – представлення зображень та відео в комп’ютерних системах, опис базових відомостей про нейронні мережі; – здійснити аналіз та оцінку існуючих алгоритмів комп’ютерного зору; – сформувати навчальні дані та розробити програмне забезпечення системи розпізнавання зображень об’єктів; – обчислити метрики ефективності розробленого програмного забезпечення; – розробити технологічний процес автоматизації створення навчальних даних та оцінити ефективність використання автоматизації для розробки моделей комп’ютерного зору. Об’єктом дослідження є алгоритми та моделі для задач комп’ютерного зору, автоматизація процесів машинного навчання. Предметом дослідження є застосування згорткових нейронних мереж для розпізнавання та класифікації об’єктів на зображеннях та відео. Методи дослідження. Для розв’язання поставленої задачі використовувалися такі методи: методи кодування та декодування файлів зображень та відеофайлів (для коректного опрацювання вхідних даних), методи глибокого навчання для задач комп’ютерного зору, методи теорії алгоритмів та програмування (для розробки програмного забезпечення системи розпізнавання зображень об’єктів на відео потоці), методи автоматизації програмного забезпечення (для побудови технологічного процесу автоматизації створення навчальних даних). Наукова новизна одержаних результатів складається з таких положень: – удосконалено методи асоціації об’єктів між кадрами, які, на відміну від існуючих, реалізовані шляхом поєднання алгоритму розпізнавання YOLO та алгоритму групування SORT, що дає змогу ефективно виконувати поставлену задачу в режимі реального часу; – розроблено універсальний алгоритм автоматизації створення навчальної розмітки для моделей комп’ютерного зору, що дає можливість створювати подібні системи розпізнавання значно швидше. Практичне значення одержаних результатів. Розроблене програмне забезпечення можна використовувати для розпізнавання обʼєктів засобів транспорту на відеопотоці. Також розробка дозволяє суттєво пришвидшити навчання моделей комп’ютерного зору за умови, якщо навчальні дані ще не підготовлені. Також це дає простір для подальшої автоматизації, бо запропонованим підходом можна створювати навчальні датасети для різних моделей машинного навчання. Розробку можна використовувати напряму для створення моделі-тренера, яка буде надавати розмітку даних з необхідними класами для моделей комп’ютерного зору різного призначення. Апробація результатів дисертації. Основні положення й результати роботи представлено на Науковій конференції магістрантів та аспірантів «Прикладна математика та комп’ютинг ПМК 2023». Публікації. Результати дисертації викладено в 1 науковій праці: – у 1 публікації у тезах конференцій.
dc.description.abstractotherThe thesis is presented in 80 pages. It contains 2 appendixes and bibliography of 17 references. 32 figures and 4 tables are given in the thesis. Topic relevance. The modern world is experiencing an era of rapid technological development, in the field of artificial intelligence. One of the classic tasks in this area is text recognition in images. Experimenting with approaches to solve it, experts realized that computers can be taught to see much more complex things. Today, neural networks can recognize and classify objects not only in images but also in video, analyzing and using information from previous frames. This is now being used in many areas: medicine, autonomous navigation, and security. We cannot ignore another application that is very relevant for Ukraine today. Computer vision models are now being actively used in the military sphere: as an auxiliary functionality during aerial reconnaissance, as an aid to targeting or target detection. Given the large amount of data required to create a high-quality object recognition model, the task of creating software for recognition and automation of training data creation is relevant. Thesis connection to scientific programs, plans, and topics. The thesis was prepared according to the scientific research plan of the Applied Mathematics Department of the National Technical University of Ukraine “Igor Sikorsky Kyiv Polytechnic Institute.” Research goal and objectives. The goal of this thesis is to create software for recognizing images of objects in video on the example of vehicles, and to implement a technological process for automated training of a computer vision model. To accomplish this goal, the following objectives were reached: - review the subject area - representation of media data in computer systems, description of basic information about neural networks; - analyze and evaluate existing computer vision algorithms; - to create training data with marked vehicles and develop software for the object image recognition system; - calculate performance metrics of the developed software; - develop a technological process for automating the creation of training data and evaluate the feasibility of using automation to develop computer vision models. Object of research is algorithms and models for computer vision tasks, automation of machine learning processes. Subject of research is the use of convolutional neural networks for recognizing and classifying objects in media data. Methods of research. To solve the task, the following methods were used: methods for encoding and decoding image and video files (for correct processing of input data), deep learning methods for computer vision tasks, methods of algorithm theory and programming (for developing software for an object recognition system on a video stream), software automation methods (for building an algorithm for automating the creation of training data). Scientific contribution consists of the following: - methods for associating objects between frames have been improved, which, unlike the existing ones, are implemented by combining the YOLO recognition algorithm and the SORT grouping algorithm, which allows for efficient real-time performance of the task; - a universal algorithm for automating the creation of training markup for computer vision models was developed, which makes it possible to create such recognition systems much faster. Practical value of obtained results. The developed software can be used to recognize vehicle objects in a video stream. The development also makes it possible to significantly speed up the training of computer vision models, provided that the training data has not yet been prepared. It also provides room for further automation since the proposed approach can create training datasets for various machine learning models. The development can be used directly to create a trainer model that will provide data markup with the necessary classes for computer vision models for various purposes. Approbation of the thesis results. Basic ideas and results of the research were presented at Sixteenth Scientific Conference of Masters and Postgraduate Students «Applied Mathematics and Computing AMC’ 2023». Publications. The results are published in 1 scientific work: - in 1 paper in conference abstracts.
dc.format.extent96 с.
dc.identifier.citationСліпченко, М. С. Математичне та програмне забезпечення системи розпізнавання зображень об’єктів у відеопотоці : магістерська дис. : 113 Прикладна математика / Сліпченко Максим Сергійович. – Київ, 2024. – 96 с.
dc.identifier.urihttps://ela.kpi.ua/handle/123456789/66864
dc.language.isouk
dc.publisherКПІ ім. Ігоря Сікорського
dc.publisher.placeКиїв
dc.subjectнейронна мережа
dc.subjectмодель комп’ютерного зору
dc.subjectавтоматизація
dc.subjectнавчання
dc.subjectрозмітка
dc.subject.udc004.896
dc.titleМатематичне та програмне забезпечення системи розпізнавання зображень об’єктів у відеопотоці
dc.typeMaster Thesis

Файли

Контейнер файлів
Зараз показуємо 1 - 1 з 1
Вантажиться...
Ескіз
Назва:
Slipchenko_magistr.pdf
Розмір:
3.96 MB
Формат:
Adobe Portable Document Format
Ліцензійна угода
Зараз показуємо 1 - 1 з 1
Ескіз недоступний
Назва:
license.txt
Розмір:
8.98 KB
Формат:
Item-specific license agreed upon to submission
Опис: