Методи та програмне забезпечення розмітки відеоданих для задач комп’ютерного зору
dc.contributor.advisor | Стеценко, Інна Вячеславівна | |
dc.contributor.author | Зарічковий, Олександр Анатолійович | |
dc.date.accessioned | 2025-03-27T13:11:51Z | |
dc.date.available | 2025-03-27T13:11:51Z | |
dc.date.issued | 2025 | |
dc.description.abstract | Штучний інтелект є однією з найбільш поширених сфер розробок програмного забезпечення у сучасному світі інформаційних технологій. За останню декаду було досягнуто значного прогресу для задач комп'ютерного зору, зокрема, у детекції об’єктів, завдяки розвитку методів глибокого навчання та зростанню обчислювальних можливостей. Для успішної розробки та впровадження програмних засобів на основі ШІ необхідно збирати та розмічати великі об’єми даних, що вимагає значних людських ресурсів та часу. Неякісна розмітка даних може призвести до неточних та помилкових результатів методів ШІ, що в свою чергу стає причиною помилок у результатах обчислень програмного забезпечення. Наявні інструменти розмітки даних не завжди відповідають потребам розробників програмного забезпечення з використанням ШІ, особливо в контексті роботи з великими об'ємами відеоданих, що збільшує трудовитрати процесу створення якісних наборів даних. Наявність зазначених проблем визначає актуальне наукове завдання підвищення ефективності процесу розмітки відеоданих для задач комп’ютерного зору, яке вирішується у цій дисертаційній роботі. Метою дисертаційної роботи є підвищення швидкості розмітки відеоданих у контексті завдань детекції об'єктів за рахунок вдосконалення методів та програмного забезпечення, призначеного для розмітки відеоданих. Для досягнення мети в роботі досліджено методи навчання нейронних мереж, що підвищують точність детекції об’єктів без змін моделей чи збільшення їх параметрів, та підходи до зменшення обсягу кадрів, які обробляються в задачах комп’ютерного зору. Проведено аналіз візуально-мовних моделей для підвищення точності програмних рішень, а також сучасних інструментів і процесів розмітки зображень та відео з метою вдосконалення їх архітектури та пришвидшення обчислень. Розроблено дуальну архітектуру автоматизованої розмітки даних та програмне забезпечення, що її реалізує. Проведено експериментальне дослідження, яке доводить ефективність прийнятих рішень. Одним із головних викликів на шляху досягнення мети є забезпечення високої якості автоматизованої розмітки даних, наслідком якої є зменшення відсотку помилок, які необхідно виправити розмітчиком (людиною). Для розв'язання цього завдання застосовані різні техніки та методи, включаючи вперше запропоновану дуальну архітектуру, метод пріоритезації даних, ітеративний метод вибору ключових кадрів та мультимодальні нейронні мережі. Основним результатом роботи є створення дуальної архітектури програмного забезпечення для автоматизації розмітки даних та імплементація методів автоматичної розмітки відеоданих, які забезпечують високу точність розмітки та скорочення часу, необхідного для дорозмітки (уточнення розмітки, які виконуються розмітчиком після автоматизованої розмітки). Розроблені методи перевірені на реальних задачах з метою демонстрації їхньої ефективності та переваг. У першому розділі розглянуто основні аспекти детекції об'єктів, розмітки даних для задач комп'ютерного зору та програмні засоби для розмітки відеоданих. Зроблено огляд різних методів детекції об'єктів, у тому числі відомі методи, такі як R-CNN, Fast R-CNN, YOLO та інші. Описано процес розмітки даних та її значення для ефективного вирішення завдань машинного навчання. Наведено особливості розмітки даних для задач детекції об’єктів та постановлено задачу дослідження. 4 У другому розділі представлено новий метод навчання моделей машинного навчання, який використовує пріоритезацією складних екземплярів даних для навчання нейронних мереж, що збільшує точність детекції об’єктів на відео за рахунок підвищення якості набору даних. Особливістю запропонованого методу є те, що він не потребує попередньої розмітки відео для вибору складних екземплярів. У третьому розділі запропоновано новий ітеративний метод вибору ключових кадрів на довгих відео для узагальнення змісту відео. Запропонований метод зменшує кількість нерелевантних кадрів, які визначені на фазі попереднього відбору, шляхом ітеративного застосування моделі машинного навчання до відібраних кадрів з подальшою фільтрацією нерелевантних кадрів та сегментів. У четвертому розділі представлено метод агрегації знань Attr Vis, який спрямований на покращення використання знань, закодованих у великих лінгвістичних моделях (LLM) та мовних модальностях візуально-мовних моделей (VLM), для підвищення точності розпізнавання складних сцен на відео за рахунок генерації додаткових атрибутів по відео. Новизна підходу полягає у генерації атрибутів на невеликих сегментах відео, що дозволяє ефективно кодувати зміни атрибутів з часом та підвищує точність розпізнавання подій. Також було запропоновано новий алгоритм розширення лексикону, призначений для збільшення спектра атрибутів, пов’язаних з відеоданими, що підвищує точність опису подій текстовою моделлю. У п’ятому розділі проведено огляд інструментів розмітки зображень, визначено критерії для їх оцінки та наведено детальний огляд конкретних інструментів, таких як V7, LabelBox, Keylabs, LabelImg, LabelMe, Label Studio та Computer Vision Annotation Tool (CVAT). Розглянуто архітектуру інструменті розмітки CVAT, підходи автоматизації процесу розмітки даних та визначено вимоги до програмного забезпечення. Запропоновано дуальну архітектуру програмного забезпечення для автоматизації розмітки відеоданих, описано ключові компоненти системи та їх взаємодію. Наведено опис архітектури та основних її компонентів. Розроблено програмне забезпечення на базі запропонованої архітектури та методів. У шостому розділі наведено опис набору даних для проведення експериментального дослідження, визначено задачі розмітки даних, детально описано організацію процесу розмітки, інших умов проведення експерименту та наведені результати експериментального дослідження. Подано результати оцінювання швидкості та якості виконання розмітки відеоданих без автоматизації та з використанням різних підходів, включаючи нульове та активне навчання, а також підхід з використанням запропонованої дуальної архітектури. Виконано порівняння різних підходів до автоматизації розмітки відеоданих. Зроблені висновки щодо досягнення поставленої мети дисертаційної роботи. У дисертаційній роботі отримано низку нових наукових результатів: - вперше запропоновано дуальну архітектуру програмного забезпечення для автоматизованої розмітки даних, яка, за рахунок методу адаптивноагрегованого навчання нейромережі, забезпечує пришвидшення процесу розмітки та, на відміну від існуючих аналогів, дає змогу ефективного застосування нульового та активного навчання нейромережі для розмітки даних та більш гнучкого використання програмного забезпечення для різноманітних задач комп’ютерного зору; - вперше запропоновано метод пріоритезації складних зразків для навчання нейронної мережі, який, за рахунок відбору найскладніших зразків для навчання, підвищує якість набору даних без проведення попередньої розмітки відео, внаслідок чого збільшується точність детекції об’єктів на відео, та, на відміну від існуючих підходів, базується виключно на автоматично згенерованій репрезентації даних; - вперше запропоновано ітеративний метод вибору ключових кадрів на довгих відео, що дає змогу визначати ключові кадри та сегменти відео з поступовим підвищенням точності, та, на відміну від існуючих методів, враховувати динамічно зміни контенту відео для вибору ключових кадрів, підвищуючи точність сегментації та зменшуючи обсяг відеоданих для обробки; - вперше запропоновано метод агрегації знань між текстовою та візуальною частинами у візуально-мовній моделі (VLM) для обробки складних мультимодальних взаємодій, що забезпечує більш високу точність розпізнавання складних сцен на відео та їх опису у порівнянні з існуючими аналогами. Основні результати дисертаційної роботи опубліковано у 6 публікаціях, з яких 4 статті в періодичних виданнях, що проіндексовано у базі даних Scopus, 1 публікація опублікована у фаховому виданні, включених до переліку наукових фахових видань України з присвоєнням категорії «Б», та 1 публікація у матеріалах міжнародної наукової конференції. | |
dc.description.abstractother | Artificial intelligence is one of the most prominent fields of software development in the modern world of information technologies. Significant progress has been achieved in computer vision tasks, particularly object detection, over the past decade due to the advancements in deep learning methods and the growth of computational capabilities. For the successful development and implementation of AI-based software tools, it is necessary to collect and annotate large volumes of data, which requires considerable human resources and time. Low-quality data annotation can lead to inaccurate and erroneous AI methods, consequently resulting in errors in software computations. Current data annotation tools do not always meet the needs of software developers working with AI, especially in the context of large-scale video data annotation, which increases the labor intensity of creating high-quality datasets. The outlined problems establish a pressing scientific task of improving the efficiency of video data annotation processes for computer vision tasks, which is addressed in this dissertation. The aim of the dissertation is to enhance the speed of video data annotation in object detection tasks by improving the methods and software tools designed for video data annotation. To achieve this aim, the study investigates neural network training methods that improve object detection accuracy without modifying models or increasing number of parameters, as well as approaches to reduce the number of frames processed by computer vision methods. Conducted study on visual-language models to improve accuracy. A dual-architecture system for automated data annotation and its supporting software have been developed. Experimental research demonstrates the effectiveness of the proposed solutions. One of the main challenges in achieving the aim is ensuring high-quality automated data annotation, which minimizes the percentage of errors requiring manual correction. To address this, various techniques and methods were employed, including the novel dual-architecture approach, a data prioritization method, an iterative keyframe selection method, and multimodal neural networks. The main result of this work is the creation of a dual-architecture software system for data annotation automation and the implementation of automatic video annotation methods. These methods ensure high annotation accuracy and reduce the time needed for post-annotation refinement by annotators after automated annotation. The developed methods were tested on real-world tasks to demonstrate their efficiency and advantages. The first section present the core aspects of object detection, data annotation for computer vision tasks, and video data annotation tools. A review of various object detection methods, including R-CNN, Fast R-CNN, YOLO, among others, is provided. The importance of data annotation in solving machine learning problems effectively is outlined, along with a description of data annotation for object detection tasks and the research problem. The second section introduces a new method for training machine learning models. This method employs the prioritization of challenging data instances for training neural networks, enhancing object detection accuracy in videos by improving the quality of the dataset. A distinctive feature of the proposed approach is that it does not require prior annotation of videos to select difficult instances. The third section proposes a novel iterative method for selecting keyframes in lengthy videos to summarize video content. The proposed method reduces the number of irrelevant frames identified during the initial selection phase by iteratively applying a machine learning model to the selected frames, followed by filtering out irrelevant frames and segments. The fourth section presents the Attr4Vis knowledge aggregation method. This method aims to improve the utilization of knowledge encoded in large language models (LLMs) and the linguistic modalities of visual-language models (VLMs) to enhance the accuracy of recognizing complex scenes in videos by generating additional attributes based on the video content. The novelty of the approach lies in generating attributes for small video segments, enabling efficient encoding of attribute changes over time and improving event recognition accuracy. Additionally, a new algorithm for lexicon expansion is proposed to increase the range of attributes associated with video data, thereby improving the accuracy of event descriptions generated by text models. The fifth section reviews image annotation tools, identifies criteria for their evaluation, and provides a detailed analysis of specific tools such as V7, LabelBox, Keylabs, LabelImg, LabelMe, Label Studio, and the Computer Vision Annotation Tool (CVAT). The architecture of the CVAT annotation tool is explored, including data annotation process automation approaches and software requirements. A dual-architecture system for video data annotation automation is proposed, detailing its key system components and interactions. Software based on this architecture and methods was developed. The sixth section describes the dataset used for the experimental study, along with the defined data annotation tasks, a detailed explanation of the annotation process organization, other experimental conditions, and the experimental study results. The evaluation outcomes for the speed and quality of video data annotation are presented, comparing manual annotation with different approaches, including zero-shot and active learning, as well as the proposed dual architecture approach. A comparison of various approaches to video data annotation automation is conducted. Conclusions regarding the achievement of the dissertation's objectives are drawn. In the dissertation, a number of new scientific results were obtained: For the first time, a dual software architecture for automated data annotation has been proposed. Utilizing the method of adaptively-aggregated neural network training, this architecture accelerates the annotation process and, unlike existing counterparts, enables the effective application of zero-shot and active neural network learning for data annotation. It also allows for more flexible software utilization across various computer vision tasks. For the first time, a novel method for prioritizing difficult samples for neural network training is introduced, improving dataset quality without prior video annotation and enhancing object detection accuracy. Unlike existing approaches, this approach relies solely on automatically generated data representations. For the first time, an iterative method for selecting keyframes in long videos is proposed, enabling accurate identification of keyframes and segments while accounting for dynamic content changes, improving segmentation accuracy and reducing video data for processing. For the first time, a method for aggregating knowledge between the textual and visual components in a visual-language model (VLM) has been proposed to model complex multimodal interactions, providing higher accuracy in recognizing complex scenes in videos and their descriptions compared to existing counterparts.. The main results of the dissertation were published in 6 scientific papers, in particular, in 4 scientific articles, which is indexed in the Scopus database, 1 article published in a scientific journal included in the list of scientific professional editions of Ukraine (category «B»), as well as 1 publication in materials of scientific and technical conferences. | |
dc.format.extent | 261 с. | |
dc.identifier.citation | Зарічковий, О. А. Методи та програмне забезпечення розмітки відеоданих для задач комп’ютерного зору : дис. … д-ра філософії : 12 Інформаційні технології / Зарічковий Олександр Анатолійович. – Київ, 2025. – 261 с. | |
dc.identifier.uri | https://ela.kpi.ua/handle/123456789/73130 | |
dc.language.iso | uk | |
dc.publisher | КПІ ім. Ігоря Сікорського | |
dc.publisher.place | Київ | |
dc.subject | інженерія програмного забезпечення | |
dc.subject | машинне навчання | |
dc.subject | нейронна мережа | |
dc.subject | згорткова нейронна мережа | |
dc.subject | машинний зір | |
dc.subject | розпізнавання | |
dc.subject | зображення | |
dc.subject | штучний інтелект | |
dc.subject | тренування моделі | |
dc.subject | інтелектуальна інформаційна система | |
dc.subject | software engineering | |
dc.subject | machine learning | |
dc.subject | neural network | |
dc.subject | convolutional neural network | |
dc.subject | computer vision | |
dc.subject | recognition | |
dc.subject | image | |
dc.subject | artificial intelligence | |
dc.subject | model training | |
dc.subject | intelligent information system | |
dc.subject.udc | 004.42 + 004.93 | |
dc.title | Методи та програмне забезпечення розмітки відеоданих для задач комп’ютерного зору | |
dc.type | Thesis Doctoral |
Файли
Контейнер файлів
1 - 1 з 1
Вантажиться...
- Назва:
- Zarichkovyi_dys.pdf
- Розмір:
- 15.21 MB
- Формат:
- Adobe Portable Document Format
Ліцензійна угода
1 - 1 з 1
Ескіз недоступний
- Назва:
- license.txt
- Розмір:
- 8.98 KB
- Формат:
- Item-specific license agreed upon to submission
- Опис: