Моделі та програмні засоби підвищення швидкодії визначення відеоатрибутів за допомогою розбиття на сцени

dc.contributor.advisorШалденко, Олексій Вікторович
dc.contributor.advisorНедашківський, Олексій Леонідович
dc.contributor.authorЗдор, Костянтин Андрійович
dc.date.accessioned2025-07-01T12:10:51Z
dc.date.available2025-07-01T12:10:51Z
dc.date.issued2025
dc.description.abstractЗдор К.А. Моделі та програмні засоби підвищення швидкодії визначення відеоатрибутів за допомогою розбиття на сцени. − Кваліфікаційна наукова праця на правах рукопису. Дисертація на здобуття наукового ступеня доктора філософії з галузі знань 12 Інформаційні технології за спеціальністю 121 Інженерія програмного забезпечення. – Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського», Київ, 2025. Дисертаційна робота присвячена розробці науково-методичного апарату обробки відеоконтента і розробки програмних засобів для визначення атрибутів та розбиття відео на сцени за допомогою засобів машинного навчання. Паралельно з еволюцією виробництва контенту розвивалися методи аналізу відеоданих. Ранні методи аналізу відео були здебільшого ручними та примітивними, зосереджуючись на таких базових функціях, як виявлення руху та просте розпізнавання об'єктів. З часом ці методи кардинально еволюціонували. Впровадження алгоритмічних підходів уможливило автоматизований розбір відеопотоків на значущі сегменти, заклавши основу для пошуку та індексування на основі контенту. Фундаментальні дослідження, проілюстрували можливість вилучення просторових і часових характеристик з відеоконтенту, тим самим уможлививши більш систематичне розуміння візуальної інформації. Досягнення в галузі штучного інтелекту та машинного навчання ще більше розвинути сферу аналізу відеоконтенту. Сучасні системи використовують глибокі нейронні мережі для розпізнавання патернів у відеоданих - від поведінкових сигналів до контекстних асоціацій. Інтеграція технологій автоматичного розпізнавання контенту в споживчі пристрої дозволила вимірювати аудиторію в реальному часі та персоналізувати доставку контенту, що, в свою чергу, змінило стратегії реклами та дистрибуції медіа. Виявлення сцен є актуальною задачею у сфері аналізу відеоконтенту, оскільки воно забезпечує структурну основу, яка дозволяє виявляти семантично пов'язані сегменти у відеоданих. Сегментування відео на плани і сцени - аналогічно до поділу тексту на абзаци - дає змогу виокремити часові межі сцен та організувати вміст контенту у менші структурні одиниці. Така сегментація має важливе значення для індексування та узагальнення, оскільки дозволяє як автоматизованим системам, так і користувачам ефективно орієнтуватися у великих відеоархівах. Метою дисертації є підвищення точності та швидкодії розбиття відео на сцени шляхом розробки моделей з використанням візуальних трансформерів для відео та розробка спеціалізованих програмних засобів для зниження обчислювальних витрат при визначенні атрибутів. Серед методів розбиття відео на сцени можна виділити традиційні, які використовують візуальні характеристики (гістограми, рівень освітлення тощо), та алгоритми на основі виділення ключових точок, як-от SIFT і SURF. Перший підхід демонструє високу ефективність для статичних сцен, але втрачає точність при аналізі динамічного відеоконтенту з коротшими сценами та складними переходами. Алгоритми з виділення ключових точок забезпечують вищу точність у визначенні змін, однак їх застосування обмежене через значні обчислювальні витрати. Сучасні методи сегментації базуються на використанні нейронних мереж, що дозволяє враховувати як візуальний, так і концептуальний контекст кадрів. Використання згорткових, рекурентних нейронних мереж і трансформерів сприяє точному визначенню змін сцен, проте ці підходи вимагають великої кількості навчальних даних і можуть мати високі вимоги до обчислювальних ресурсів. Тому виникає протиріччя, з одного боку математичні методи мають високу швидкість але низьку точність, з іншого боку методи машинного навчання демонструють вищу точність, але можуть мати високі вимоги до обчислювальних ресурсів. Для подолання цих недоліків застосовуються методи оптимізації, такі як прунінг, дистиляція знань та квантизація, що дозволяє прискорити роботу моделей при мінімальній втраті точності. Розробка та вдосконалення методів виявлення сцен на основі методів машинного навчання є пріоритетним напрямком в сфері аналізу відео контенту. Методам виявлення сцен присвячені роботи зарубіжних вчених Del Fabro M., Böszörmenyi L., Chong-Wah Ngo, Yu-Fei Ma, Hong-Jiang Zhang, Baraldi L., Grana C, Cucchiara R. Прунінгу і оптимізації перед навчанням присвячені роботи Lee N., Ajanthan T., Frankle J., Carbin M. Розробці методів архітектурної оптимізації присвячені роботи Сінькевич O.O., Терейковський І.А., Кудін О.В., Кривохата А.Г., Howard A. G., Zhu M., Hinton G., Dean J. та інші. Дослідженням методів зниження витрат обчислювальних ресурсів займались Рувінська В.М., Тімков Ю.Ю., Струнін І.В., Прогонов Д.О. Liang T., Li B., Kong Z. Tan M., Wang Z., Frankle J., Carbin M. Han S., Pool J., Li H. та інші. Дисертаційна робота виконана відповідно з поточними та перспективними планами наукової та науково-технічної діяльності Національного технічного університету України «Київський політехнічний інститут імені Ігоря Сікорського» для подальшого розвитку інженерії програмного забезпечення. Дослідження тісно пов'язано з результатами науково-дослідницької роботи (НДР), в яких автор приймав особисту участь, а саме: «Методи і алгоритми оптимізації розпізнавання образів на основі методів машинного навчання» №0121U109207, що виконувалась в Національному технічному університеті України «Київський політехнічний інститут імені Ігоря Сікорського» у 2021 – 2024 рр. Особисто автором в НДР запропоновано удосконалений алгоритм розбиття відео на плани використовуючи поєднання математичних алгоритмів, для виявлення особливостей кадрів, та рекурентних нейронних мереж, для визначення зміни плану, що дозволяє зменшити кількість необхідних даних для аналізу, значно пришвидшуючи розпізнавання образів. Наукова новизна одержаних результатів полягає в тому, що в дисертаційній роботі: 1. Вперше розроблено архітектуру розподіленого програмного забезпечення для визначення атрибутів на відео, характерною особливістю якої є оперування відеопотоками для їхнього розбиття відео на плани та сцени, що дозволило збільшити швидкість аналізу відеоконтенту мінімум в 2.5-3 рази. 2. Вперше розроблено метод для виявлення переходів планів у відеоконтенті на основі поєднання математичних підходів та рекурентних нейронних мереж, який на відміну від існуючих методів швидко та ефективно виділяє просторові та часові ознаки кадрів, що дозволило збільшити точність влучання та F1-оцінку для знаходження зміни планів досягаючи інноваційних результатів. 3. Вперше розроблено метод виявлення зміни сцени для відеоконтенту з використанням нейронної мережі на основі архітектури візуального трансформеру для відео з застосуванням методу прунінгу перед навчанням, що на відміну від існуючих методів виділяє контекстуальні особливості сцен, що дозволило збільшити F1-оцінку на 5.1% та пришвидшити час виконання на 10%. 4. Набув подальшого розвитку метод прунінгу перед навчанням для моделей архітектури візуальних трансформерів для відео, який на відміну від існуючих методів враховує важливість механізму «уваги» та дозволяє пришвидшити час виконання моделі на 10%. Практичне значення одержаних результатів полягає в підвищенні точності та швидкодії аналізу відеоконтенту за допомогою розробленої архітектури розподіленого програмного забезпечення для визначення атрибутів на відео за допомогою розбиття відео на плани та сцени, що на відміну від існуючих ефективно розподіляє обчислення та реалізує розроблені та удосконалені методи та алгоритмічне забезпечення. Реалізація удосконаленого методу прунінгу для архітектури візуального трансформера на відео дозволила натренувати нейронну мережу, яка на 10% швидша за оригінальну. Реалізація розробленого методу поєднання математичного підходу з рекурентними нейронними мережами дозволила натренувати дві нейронні мережі, які перевищують точність влучання та F1- оцінку відносно підходу AutoShot на 4.3% та 4.4% відповідно. При цьому розроблений підхід має обчислювальні вимоги у розмірі до 500 kFLOPS, що дозволяє використовувати цей підхід для розв’язання задач у реальному часі. Реалізація розробленого методу для визначення зміни сцени в відео на основі візуального трансформера для відео дозволила натренувати нейронну мережу, яка перевищує F1-оцінку відносно підходів основаних на глибоких мультимодальних мережах на 5.43%. Розроблено програмне забезпечення, яке на відміну від існуючих, дозволяє ефективно аналізувати атрибути для відео використовуючи сцени та плани отримані в режимі реального часу. Методика дослідження та отримані результати можуть також бути використані для створення систем детальної відеоаналітики, фільтрації та пошуку по відеоатрибутах, тим самим розширюючи сучасні підходи до аналізу відеоконтенту. Дослідження може стати основою для розробки нових підходів до розбиття відео на сцени та плани, та внести вклад у зростаючий обсяг літератури з методів відеоаналізу за допомогою нейронних мереж. Результати досліджень прийняті до впровадження в Товаристві з обмеженою відповідальністю «ВОТЧЕД» (акт від 10.02.2025р.); в навчальному процесі Національного технічного університету України «Київський політехнічний інститут імені Ігоря Сікорського» (акт впровадження від 24.02.2025р.) при викладанні дисципліни «Цифрова обробка зображень» для студентів освітньо-кваліфікаційного рівня «Магістр» спеціальності 122 «Комп’ютерні науки». Наукові результати досліджень є внеском у розвиток теоретичних і прикладних основ розробки й дослідження науково-методичного і програмного апарату для аналізу відеоатрибутів з використанням методів машинного навчання. Наступними перспективними дослідженнями можуть стати дослідження для вдосконалення критеріїв визначення важливості вагів, автоматичне визначення ключових кадрів для планів та сцен під час аналізу, розширення можливостей аналізу візуального трансформеру для відео.
dc.description.abstractotherZdor K.A. Models and software tools for increasing the speed of determining video attributes using scene segmentation. − Qualification scientific work in the form of a manuscript. Thesis for the degree of Doctor of Philosophy in the field of knowledge 12 Information Technologies in the specialty 121 Software Engineering. – National Technical University of Ukraine “Igor Sikorsky Kyiv Polytechnic Institute”, Kyiv, 2025. The dissertation is dedicated to the development of a scientific and methodological framework for video content processing and the development of software tools for attribute detection and video scene segmentation using machine learning techniques. The evolution of video content as a dominant means of communication has fundamentally changed the landscape of information distribution and consumption. Early forms of visual media, from analog film to broadcast television, set the stage for the transformation that culminated in the digital revolution. Over the past few decades, video content has not only increased in quantity and accessibility, but also in its ability to engage audiences in interactive and multifaceted ways. In parallel with the evolution of content production, video data analysis methods have evolved. Early video analysis methods were mostly manual and primitive, focusing on basic functions such as motion detection and simple object recognition. Over time, these methods have evolved dramatically. The introduction of algorithmic approaches has enabled the automated parsing of video streams into meaningful segments, laying the foundation for content-based search and indexing. Fundamental research has illustrated the possibility of extracting spatial and temporal features from video content, thereby enabling a more systematic understanding of visual information. Advances in artificial intelligence and machine learning have further revolutionized video content analysis. Modern systems use deep neural networks to recognize patterns in video data - from behavioral signals to contextual associations. The integration of automatic content recognition technologies into consumer devices has enabled real-time audience measurement and personalized content delivery, which, in turn, has changed advertising and media distribution strategies. Scene detection is relevant to video content analysis, as it provides a structural framework that transforms continuous video streams into discrete, semantically coherent segments. Segmenting video into frames and scenes—analogous to dividing text into paragraphs—allows us to isolate the temporal boundaries of scenes and organize the content into smaller structural units. Such segmentation is important for indexing and summarization, as it allows both automated systems and users to navigate effectively in large video archives. The dissertation aims to increase the accuracy and speed of video scene segmentation by developing models using visual transformers for video and developing special software tools to reduce computational costs when determining attributes. Modern segmentation methods are based on neural networks, allowing the frames' visual and conceptual context to be considered. The use of convolutional, recurrent neural networks and transformers contributes to the accurate detection of scene changes. Still, these approaches require a large amount of training data and can have high requirements for computational resources. Therefore, a contradiction arises: on the one hand, mathematical methods have high speed but low accuracy; on the other hand, machine learning methods demonstrate higher accuracy but can have high requirements for computational resources. Among the methods for dividing video into scenes, one can distinguish traditional ones that use visual characteristics (histograms, lighting level, etc.) and algorithms based on keypoint extraction, such as SIFT and SURF. The first approach demonstrates high efficiency for static scenes but loses accuracy when analyzing dynamic video content with shorter scenes and complex transitions. Keypoint extraction algorithms provide higher accuracy in detecting changes, but their application is limited due to significant computational costs. To overcome these shortcomings, optimization methods such as pruning, knowledge distillation, and quantization are used. These methods allow for the speeding up of model operation with minimal loss of accuracy. Developing and improving scene detection methods based on machine learning methods is a priority area in video content analysis. The works of foreign scientists are devoted to scene detection methods: Del Fabro M., Böszörmenyi L., Chong-Wah Ngo, Yu-Fei Ma, Hong-Jiang Zhang, Baraldi L., Grana C, Cucchiara R. The works of Lee N., Ajanthan T., Frankle J., and Carbin M. are devoted to pruning and optimization before training. The works of Sinkevich O.O., Tereykovsky I.A., Kudin O.V., Kryvokhata A.G., Howard A. G., Zhu M., Hinton G., Dean J., and others are devoted to developing architectural optimization methods. The research of strategies for reducing the cost of computing resources was carried out by Ruvinska V.M., Timkov Yu.Yu., Strunin I.V., Progonov D.O. Liang T., Li B., Kong Z., Tan M., Wang Z., Frankle J., Carbin M., Han S., Pool J., Li H., et al. The dissertation work was carried out by the current and prospective plans of scientific and scientific-technical activities of the National Technical University of Ukraine, "Igor Sikorsky Kyiv Polytechnic Institute," for further software engineering development. The study is closely related to the results of scientific and research work (R&D), in which the author personally participated, namely: "Methods and algorithms for optimizing pattern recognition based on machine learning methods" No. 0121U109207, which was carried out at the National Technical University of Ukraine "Igor Sikorsky Kyiv Polytechnic Institute" in 2021 - 2024. The author has personally proposed an improved algorithm for segmenting video into shots by combining mathematical algorithms for detecting frame features with recurrent neural networks for identifying shot changes. This approach reduces the amount of data required for analysis and significantly accelerates image recognition. The scientific novelty of the results obtained is that in the dissertation work: 1. For the first time, the architecture of distributed software was developed to identify attributes in the video by splitting the video into frames and scenes which, unlike existing architectures, effectively distributes the computing, which allowed to increase the speed of video content analysis. 2. For the first time, a method was developed to detect shot transitions in video content based on a combination of mathematical approaches and recurrent neural networks. Unlike existing methods, this method quickly and effectively distinguishes the spatial and temporal characteristics of frames, allowing the accuracy of hit and F1-score to find a change of shots to increase, achieving innovative results. 3. For the first time, the method of detecting a scene change in video content using a neural network based on a visual transformer architecture for video using a pruning method before training, which, unlike existing approaches, identifies the contextual features of scenes which allowed to increase F1-score by 5.1% and speed up runtime by 10%. 4. The method of pruning before training was first developed for visual transformers architecture models for video that, unlike existing approaches, takes into account the importance of the "attention" mechanism and allows you to speed up the model execution. The practical significance of the results obtained lies in their application to increase the accuracy and speed of video content analysis. Implementing the improved pruning method for the architecture of the visual transformer for video allowed us to train a neural network that is 10% faster that the original one. Implementing the developed method of combining the mathematical approach with recurrent neural networks allowed us to train two neural networks that exceeded the accuracy of the hit and F1-score relative to the AutoShot approach by 4.3% and 4.4%, respectively. At the same time, the developed approach has computational requirements of up to 500 kFLOPS, which allows us to use this approach to solve problems in real-time. Implementing the developed method for determining a scene change in a video based on the visual transformer for video allowed us to train a neural network that exceeds the F1-score relative to approaches based on deep multimodal networks by 5.43%. The research methodology and obtained results can also be used for developing systems for detailed video analytics, filtering, and searching by video attributes, thereby expanding modern approaches to video content analysis. This study may serve as a foundation for developing new methods of video scene and shot segmentation and contribute to the growing body of literature on video analysis using neural networks. The research results have been approved for implementation at WATCHED LLC (implementation act dated 10.02.2025) and in the educational process of the National Technical University of Ukraine "Igor Sikorsky Kyiv Polytechnic Institute" (implementation act dated 24.02.2025) as part of the course "Digital Image Processing" for Master's degree students in the 122 "Computer Science" specialization. The scientific results of the research contribute to the development of theoretical and applied foundations for the development and research of scientific, methodological, and software tools for analyzing video attributes using machine learning methods. Future research directions may include improving the criteria for determining the importance of weights, automating the identification of key frames for shots and scenes during analysis, and expanding the capabilities of visual transformers for video analysis.
dc.format.extent178 с.
dc.identifier.citationЗдор, К. А. Моделі та програмні засоби підвищення швидкодії визначення відеоатрибутів за допомогою розбиття на сцени : дис. … д-ра філософії : 121 Інженерія програмного забезпечення / Здор Костянтин Андрійович. – Київ, 2025. – 178 с.
dc.identifier.urihttps://ela.kpi.ua/handle/123456789/74556
dc.language.isouk
dc.publisherКПІ ім. Ігоря Сікорського
dc.publisher.placeКиїв
dc.subjectінженерія програмного забезпечення
dc.subjectпрограмні засоби
dc.subjectінформаційні технології
dc.subjectшвидкодія
dc.subjectоптимізація
dc.subjectнейронна мережа
dc.subjectмашинне навчання
dc.subjectштучний інтелект
dc.subjectобробка зображень
dc.subjectаналіз даних
dc.subjectхмарне середовище
dc.subjectкомп’ютерна система
dc.subjectархітектура програмної системи
dc.subjectмікросервісна архітектура
dc.subjectвиявлення зміни планів
dc.subjectрекурентні нейронні мережі
dc.subjectаналіз відеоконтенту
dc.subjectобробка інформації
dc.subjectдовготривала короткочасна пам’ять (LSTM)
dc.subjectкомп'ютерний зір
dc.subjectсіамські нейронні мережі
dc.subjectрозпізнавання зображень
dc.subjectвізуальні трансформери для відео
dc.subjectаналіз відео
dc.subjectпаралельна обробка
dc.subjectмасштабованість
dc.subjectsoftware engineering
dc.subjectsoftware tools
dc.subjectinformation technology
dc.subjectperformance
dc.subjectoptimization
dc.subjectneural network
dc.subjectmachine learning
dc.subjectartificial intelligence
dc.subjectimage processing
dc.subjectdata analysis
dc.subjectcloud environment
dc.subjectcomputer system
dc.subjectsoftware system architecture
dc.subjectmicroservices architecture
dc.subjectscene change detection
dc.subjectrecurrent neural networks
dc.subjectvideo content analysis
dc.subjectinformation processing
dc.subjectlong short-term memory (LSTM)
dc.subjectcomputer vision
dc.subjectSiamese neural networks
dc.subjectimage recognition
dc.subjectvisual transformers for video
dc.subjectvideo analysis
dc.subjectparallel processing
dc.subjectscalability
dc.subject.udc004.94
dc.titleМоделі та програмні засоби підвищення швидкодії визначення відеоатрибутів за допомогою розбиття на сцени
dc.typeThesis Doctoral

Файли

Контейнер файлів
Зараз показуємо 1 - 1 з 1
Вантажиться...
Ескіз
Назва:
Zdor_dys.pdf
Розмір:
3.77 MB
Формат:
Adobe Portable Document Format
Ліцензійна угода
Зараз показуємо 1 - 1 з 1
Ескіз недоступний
Назва:
license.txt
Розмір:
8.98 KB
Формат:
Item-specific license agreed upon to submission
Опис: