Дисертації (ІПЗЕ)
Постійне посилання зібрання
У зібранні розміщено дисертації, які захищені працівниками кафедри.
Переглянути
Перегляд Дисертації (ІПЗЕ) за Автор "Здор, Костянтин Андрійович"
Зараз показуємо 1 - 1 з 1
Результатів на сторінці
Налаштування сортування
Документ Відкритий доступ Моделі та програмні засоби підвищення швидкодії визначення відеоатрибутів за допомогою розбиття на сцени(КПІ ім. Ігоря Сікорського, 2025) Здор, Костянтин Андрійович; Шалденко, Олексій Вікторович; Недашківський, Олексій ЛеонідовичЗдор К.А. Моделі та програмні засоби підвищення швидкодії визначення відеоатрибутів за допомогою розбиття на сцени. − Кваліфікаційна наукова праця на правах рукопису. Дисертація на здобуття наукового ступеня доктора філософії з галузі знань 12 Інформаційні технології за спеціальністю 121 Інженерія програмного забезпечення. – Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського», Київ, 2025. Дисертаційна робота присвячена розробці науково-методичного апарату обробки відеоконтента і розробки програмних засобів для визначення атрибутів та розбиття відео на сцени за допомогою засобів машинного навчання. Паралельно з еволюцією виробництва контенту розвивалися методи аналізу відеоданих. Ранні методи аналізу відео були здебільшого ручними та примітивними, зосереджуючись на таких базових функціях, як виявлення руху та просте розпізнавання об'єктів. З часом ці методи кардинально еволюціонували. Впровадження алгоритмічних підходів уможливило автоматизований розбір відеопотоків на значущі сегменти, заклавши основу для пошуку та індексування на основі контенту. Фундаментальні дослідження, проілюстрували можливість вилучення просторових і часових характеристик з відеоконтенту, тим самим уможлививши більш систематичне розуміння візуальної інформації. Досягнення в галузі штучного інтелекту та машинного навчання ще більше розвинути сферу аналізу відеоконтенту. Сучасні системи використовують глибокі нейронні мережі для розпізнавання патернів у відеоданих - від поведінкових сигналів до контекстних асоціацій. Інтеграція технологій автоматичного розпізнавання контенту в споживчі пристрої дозволила вимірювати аудиторію в реальному часі та персоналізувати доставку контенту, що, в свою чергу, змінило стратегії реклами та дистрибуції медіа. Виявлення сцен є актуальною задачею у сфері аналізу відеоконтенту, оскільки воно забезпечує структурну основу, яка дозволяє виявляти семантично пов'язані сегменти у відеоданих. Сегментування відео на плани і сцени - аналогічно до поділу тексту на абзаци - дає змогу виокремити часові межі сцен та організувати вміст контенту у менші структурні одиниці. Така сегментація має важливе значення для індексування та узагальнення, оскільки дозволяє як автоматизованим системам, так і користувачам ефективно орієнтуватися у великих відеоархівах. Метою дисертації є підвищення точності та швидкодії розбиття відео на сцени шляхом розробки моделей з використанням візуальних трансформерів для відео та розробка спеціалізованих програмних засобів для зниження обчислювальних витрат при визначенні атрибутів. Серед методів розбиття відео на сцени можна виділити традиційні, які використовують візуальні характеристики (гістограми, рівень освітлення тощо), та алгоритми на основі виділення ключових точок, як-от SIFT і SURF. Перший підхід демонструє високу ефективність для статичних сцен, але втрачає точність при аналізі динамічного відеоконтенту з коротшими сценами та складними переходами. Алгоритми з виділення ключових точок забезпечують вищу точність у визначенні змін, однак їх застосування обмежене через значні обчислювальні витрати. Сучасні методи сегментації базуються на використанні нейронних мереж, що дозволяє враховувати як візуальний, так і концептуальний контекст кадрів. Використання згорткових, рекурентних нейронних мереж і трансформерів сприяє точному визначенню змін сцен, проте ці підходи вимагають великої кількості навчальних даних і можуть мати високі вимоги до обчислювальних ресурсів. Тому виникає протиріччя, з одного боку математичні методи мають високу швидкість але низьку точність, з іншого боку методи машинного навчання демонструють вищу точність, але можуть мати високі вимоги до обчислювальних ресурсів. Для подолання цих недоліків застосовуються методи оптимізації, такі як прунінг, дистиляція знань та квантизація, що дозволяє прискорити роботу моделей при мінімальній втраті точності. Розробка та вдосконалення методів виявлення сцен на основі методів машинного навчання є пріоритетним напрямком в сфері аналізу відео контенту. Методам виявлення сцен присвячені роботи зарубіжних вчених Del Fabro M., Böszörmenyi L., Chong-Wah Ngo, Yu-Fei Ma, Hong-Jiang Zhang, Baraldi L., Grana C, Cucchiara R. Прунінгу і оптимізації перед навчанням присвячені роботи Lee N., Ajanthan T., Frankle J., Carbin M. Розробці методів архітектурної оптимізації присвячені роботи Сінькевич O.O., Терейковський І.А., Кудін О.В., Кривохата А.Г., Howard A. G., Zhu M., Hinton G., Dean J. та інші. Дослідженням методів зниження витрат обчислювальних ресурсів займались Рувінська В.М., Тімков Ю.Ю., Струнін І.В., Прогонов Д.О. Liang T., Li B., Kong Z. Tan M., Wang Z., Frankle J., Carbin M. Han S., Pool J., Li H. та інші. Дисертаційна робота виконана відповідно з поточними та перспективними планами наукової та науково-технічної діяльності Національного технічного університету України «Київський політехнічний інститут імені Ігоря Сікорського» для подальшого розвитку інженерії програмного забезпечення. Дослідження тісно пов'язано з результатами науково-дослідницької роботи (НДР), в яких автор приймав особисту участь, а саме: «Методи і алгоритми оптимізації розпізнавання образів на основі методів машинного навчання» №0121U109207, що виконувалась в Національному технічному університеті України «Київський політехнічний інститут імені Ігоря Сікорського» у 2021 – 2024 рр. Особисто автором в НДР запропоновано удосконалений алгоритм розбиття відео на плани використовуючи поєднання математичних алгоритмів, для виявлення особливостей кадрів, та рекурентних нейронних мереж, для визначення зміни плану, що дозволяє зменшити кількість необхідних даних для аналізу, значно пришвидшуючи розпізнавання образів. Наукова новизна одержаних результатів полягає в тому, що в дисертаційній роботі: 1. Вперше розроблено архітектуру розподіленого програмного забезпечення для визначення атрибутів на відео, характерною особливістю якої є оперування відеопотоками для їхнього розбиття відео на плани та сцени, що дозволило збільшити швидкість аналізу відеоконтенту мінімум в 2.5-3 рази. 2. Вперше розроблено метод для виявлення переходів планів у відеоконтенті на основі поєднання математичних підходів та рекурентних нейронних мереж, який на відміну від існуючих методів швидко та ефективно виділяє просторові та часові ознаки кадрів, що дозволило збільшити точність влучання та F1-оцінку для знаходження зміни планів досягаючи інноваційних результатів. 3. Вперше розроблено метод виявлення зміни сцени для відеоконтенту з використанням нейронної мережі на основі архітектури візуального трансформеру для відео з застосуванням методу прунінгу перед навчанням, що на відміну від існуючих методів виділяє контекстуальні особливості сцен, що дозволило збільшити F1-оцінку на 5.1% та пришвидшити час виконання на 10%. 4. Набув подальшого розвитку метод прунінгу перед навчанням для моделей архітектури візуальних трансформерів для відео, який на відміну від існуючих методів враховує важливість механізму «уваги» та дозволяє пришвидшити час виконання моделі на 10%. Практичне значення одержаних результатів полягає в підвищенні точності та швидкодії аналізу відеоконтенту за допомогою розробленої архітектури розподіленого програмного забезпечення для визначення атрибутів на відео за допомогою розбиття відео на плани та сцени, що на відміну від існуючих ефективно розподіляє обчислення та реалізує розроблені та удосконалені методи та алгоритмічне забезпечення. Реалізація удосконаленого методу прунінгу для архітектури візуального трансформера на відео дозволила натренувати нейронну мережу, яка на 10% швидша за оригінальну. Реалізація розробленого методу поєднання математичного підходу з рекурентними нейронними мережами дозволила натренувати дві нейронні мережі, які перевищують точність влучання та F1- оцінку відносно підходу AutoShot на 4.3% та 4.4% відповідно. При цьому розроблений підхід має обчислювальні вимоги у розмірі до 500 kFLOPS, що дозволяє використовувати цей підхід для розв’язання задач у реальному часі. Реалізація розробленого методу для визначення зміни сцени в відео на основі візуального трансформера для відео дозволила натренувати нейронну мережу, яка перевищує F1-оцінку відносно підходів основаних на глибоких мультимодальних мережах на 5.43%. Розроблено програмне забезпечення, яке на відміну від існуючих, дозволяє ефективно аналізувати атрибути для відео використовуючи сцени та плани отримані в режимі реального часу. Методика дослідження та отримані результати можуть також бути використані для створення систем детальної відеоаналітики, фільтрації та пошуку по відеоатрибутах, тим самим розширюючи сучасні підходи до аналізу відеоконтенту. Дослідження може стати основою для розробки нових підходів до розбиття відео на сцени та плани, та внести вклад у зростаючий обсяг літератури з методів відеоаналізу за допомогою нейронних мереж. Результати досліджень прийняті до впровадження в Товаристві з обмеженою відповідальністю «ВОТЧЕД» (акт від 10.02.2025р.); в навчальному процесі Національного технічного університету України «Київський політехнічний інститут імені Ігоря Сікорського» (акт впровадження від 24.02.2025р.) при викладанні дисципліни «Цифрова обробка зображень» для студентів освітньо-кваліфікаційного рівня «Магістр» спеціальності 122 «Комп’ютерні науки». Наукові результати досліджень є внеском у розвиток теоретичних і прикладних основ розробки й дослідження науково-методичного і програмного апарату для аналізу відеоатрибутів з використанням методів машинного навчання. Наступними перспективними дослідженнями можуть стати дослідження для вдосконалення критеріїв визначення важливості вагів, автоматичне визначення ключових кадрів для планів та сцен під час аналізу, розширення можливостей аналізу візуального трансформеру для відео.