Стеценко, Інна ВячеславівнаЗарічковий, Олександр Анатолійович2025-03-272025-03-272025Зарічковий, О. А. Методи та програмне забезпечення розмітки відеоданих для задач комп’ютерного зору : дис. … д-ра філософії : 12 Інформаційні технології / Зарічковий Олександр Анатолійович. – Київ, 2025. – 261 с.https://ela.kpi.ua/handle/123456789/73130Штучний інтелект є однією з найбільш поширених сфер розробок програмного забезпечення у сучасному світі інформаційних технологій. За останню декаду було досягнуто значного прогресу для задач комп'ютерного зору, зокрема, у детекції об’єктів, завдяки розвитку методів глибокого навчання та зростанню обчислювальних можливостей. Для успішної розробки та впровадження програмних засобів на основі ШІ необхідно збирати та розмічати великі об’єми даних, що вимагає значних людських ресурсів та часу. Неякісна розмітка даних може призвести до неточних та помилкових результатів методів ШІ, що в свою чергу стає причиною помилок у результатах обчислень програмного забезпечення. Наявні інструменти розмітки даних не завжди відповідають потребам розробників програмного забезпечення з використанням ШІ, особливо в контексті роботи з великими об'ємами відеоданих, що збільшує трудовитрати процесу створення якісних наборів даних. Наявність зазначених проблем визначає актуальне наукове завдання підвищення ефективності процесу розмітки відеоданих для задач комп’ютерного зору, яке вирішується у цій дисертаційній роботі. Метою дисертаційної роботи є підвищення швидкості розмітки відеоданих у контексті завдань детекції об'єктів за рахунок вдосконалення методів та програмного забезпечення, призначеного для розмітки відеоданих. Для досягнення мети в роботі досліджено методи навчання нейронних мереж, що підвищують точність детекції об’єктів без змін моделей чи збільшення їх параметрів, та підходи до зменшення обсягу кадрів, які обробляються в задачах комп’ютерного зору. Проведено аналіз візуально-мовних моделей для підвищення точності програмних рішень, а також сучасних інструментів і процесів розмітки зображень та відео з метою вдосконалення їх архітектури та пришвидшення обчислень. Розроблено дуальну архітектуру автоматизованої розмітки даних та програмне забезпечення, що її реалізує. Проведено експериментальне дослідження, яке доводить ефективність прийнятих рішень. Одним із головних викликів на шляху досягнення мети є забезпечення високої якості автоматизованої розмітки даних, наслідком якої є зменшення відсотку помилок, які необхідно виправити розмітчиком (людиною). Для розв'язання цього завдання застосовані різні техніки та методи, включаючи вперше запропоновану дуальну архітектуру, метод пріоритезації даних, ітеративний метод вибору ключових кадрів та мультимодальні нейронні мережі. Основним результатом роботи є створення дуальної архітектури програмного забезпечення для автоматизації розмітки даних та імплементація методів автоматичної розмітки відеоданих, які забезпечують високу точність розмітки та скорочення часу, необхідного для дорозмітки (уточнення розмітки, які виконуються розмітчиком після автоматизованої розмітки). Розроблені методи перевірені на реальних задачах з метою демонстрації їхньої ефективності та переваг. У першому розділі розглянуто основні аспекти детекції об'єктів, розмітки даних для задач комп'ютерного зору та програмні засоби для розмітки відеоданих. Зроблено огляд різних методів детекції об'єктів, у тому числі відомі методи, такі як R-CNN, Fast R-CNN, YOLO та інші. Описано процес розмітки даних та її значення для ефективного вирішення завдань машинного навчання. Наведено особливості розмітки даних для задач детекції об’єктів та постановлено задачу дослідження. 4 У другому розділі представлено новий метод навчання моделей машинного навчання, який використовує пріоритезацією складних екземплярів даних для навчання нейронних мереж, що збільшує точність детекції об’єктів на відео за рахунок підвищення якості набору даних. Особливістю запропонованого методу є те, що він не потребує попередньої розмітки відео для вибору складних екземплярів. У третьому розділі запропоновано новий ітеративний метод вибору ключових кадрів на довгих відео для узагальнення змісту відео. Запропонований метод зменшує кількість нерелевантних кадрів, які визначені на фазі попереднього відбору, шляхом ітеративного застосування моделі машинного навчання до відібраних кадрів з подальшою фільтрацією нерелевантних кадрів та сегментів. У четвертому розділі представлено метод агрегації знань Attr Vis, який спрямований на покращення використання знань, закодованих у великих лінгвістичних моделях (LLM) та мовних модальностях візуально-мовних моделей (VLM), для підвищення точності розпізнавання складних сцен на відео за рахунок генерації додаткових атрибутів по відео. Новизна підходу полягає у генерації атрибутів на невеликих сегментах відео, що дозволяє ефективно кодувати зміни атрибутів з часом та підвищує точність розпізнавання подій. Також було запропоновано новий алгоритм розширення лексикону, призначений для збільшення спектра атрибутів, пов’язаних з відеоданими, що підвищує точність опису подій текстовою моделлю. У п’ятому розділі проведено огляд інструментів розмітки зображень, визначено критерії для їх оцінки та наведено детальний огляд конкретних інструментів, таких як V7, LabelBox, Keylabs, LabelImg, LabelMe, Label Studio та Computer Vision Annotation Tool (CVAT). Розглянуто архітектуру інструменті розмітки CVAT, підходи автоматизації процесу розмітки даних та визначено вимоги до програмного забезпечення. Запропоновано дуальну архітектуру програмного забезпечення для автоматизації розмітки відеоданих, описано ключові компоненти системи та їх взаємодію. Наведено опис архітектури та основних її компонентів. Розроблено програмне забезпечення на базі запропонованої архітектури та методів. У шостому розділі наведено опис набору даних для проведення експериментального дослідження, визначено задачі розмітки даних, детально описано організацію процесу розмітки, інших умов проведення експерименту та наведені результати експериментального дослідження. Подано результати оцінювання швидкості та якості виконання розмітки відеоданих без автоматизації та з використанням різних підходів, включаючи нульове та активне навчання, а також підхід з використанням запропонованої дуальної архітектури. Виконано порівняння різних підходів до автоматизації розмітки відеоданих. Зроблені висновки щодо досягнення поставленої мети дисертаційної роботи. У дисертаційній роботі отримано низку нових наукових результатів: - вперше запропоновано дуальну архітектуру програмного забезпечення для автоматизованої розмітки даних, яка, за рахунок методу адаптивноагрегованого навчання нейромережі, забезпечує пришвидшення процесу розмітки та, на відміну від існуючих аналогів, дає змогу ефективного застосування нульового та активного навчання нейромережі для розмітки даних та більш гнучкого використання програмного забезпечення для різноманітних задач комп’ютерного зору; - вперше запропоновано метод пріоритезації складних зразків для навчання нейронної мережі, який, за рахунок відбору найскладніших зразків для навчання, підвищує якість набору даних без проведення попередньої розмітки відео, внаслідок чого збільшується точність детекції об’єктів на відео, та, на відміну від існуючих підходів, базується виключно на автоматично згенерованій репрезентації даних; - вперше запропоновано ітеративний метод вибору ключових кадрів на довгих відео, що дає змогу визначати ключові кадри та сегменти відео з поступовим підвищенням точності, та, на відміну від існуючих методів, враховувати динамічно зміни контенту відео для вибору ключових кадрів, підвищуючи точність сегментації та зменшуючи обсяг відеоданих для обробки; - вперше запропоновано метод агрегації знань між текстовою та візуальною частинами у візуально-мовній моделі (VLM) для обробки складних мультимодальних взаємодій, що забезпечує більш високу точність розпізнавання складних сцен на відео та їх опису у порівнянні з існуючими аналогами. Основні результати дисертаційної роботи опубліковано у 6 публікаціях, з яких 4 статті в періодичних виданнях, що проіндексовано у базі даних Scopus, 1 публікація опублікована у фаховому виданні, включених до переліку наукових фахових видань України з присвоєнням категорії «Б», та 1 публікація у матеріалах міжнародної наукової конференції.261 с.ukінженерія програмного забезпеченнямашинне навчаннянейронна мережазгорткова нейронна мережамашинний зіррозпізнаваннязображенняштучний інтелекттренування моделіінтелектуальна інформаційна системаsoftware engineeringmachine learningneural networkconvolutional neural networkcomputer visionrecognitionimageartificial intelligencemodel trainingintelligent information systemМетоди та програмне забезпечення розмітки відеоданих для задач комп’ютерного зоруThesis Doctoral004.42 + 004.93