Бібліотека для інтелектуального створення наборів даних зображень

dc.contributor.advisorБаклан, Ігор Всеволодович
dc.contributor.authorУкраїнець, Дмитро Русланович
dc.date.accessioned2025-02-25T09:35:25Z
dc.date.available2025-02-25T09:35:25Z
dc.date.issued2024
dc.description.abstractРозмір пояснювальної записки – 116 аркушів, містить 3 ілюстрації, 30 таблиць, 5 додатків, 36 посилань на джерела. Актуальність теми. У роботі розглянуто проблему створення наборів даних зображень, показано основні особливості існуючих рішень описаних проблем, їх переваги та недоліки. Виявлено потребу в удосконаленні методів автоматизації створення наборів даних зображень, генерації синтетичних зображень та покращення якості зображень, а також в розробці програмного забезпечення для реалізації цих методів для широкого кола задач машинного навчання. Мета дослідження. Основною метою є підвищення ефективності створення високоякісних наборів даних зображень, придатних для широкого кола задач машинного навчання. Об’єкт дослідження: програмне забезпечення для інтелектуального створення наборів даних зображень. Предмет дослідження: методи та засоби створення програмного забезпечення для інтелектуального створення наборів даних зображень. Для реалізації поставленої мети сформульовані наступні завдання: - аналіз існуючих методів та проблем автоматизованого створення наборів даних зображень; - розробка методів автоматизованого збору, генерації та аугментації зображень; - удосконалення методів автоматизованого анотування та оцінки якості зображень; - інтеграція розроблених методів у єдиний конвеєр для створення наборів даних; - експериментальна перевірка ефективності запропонованих методів. Наукова новизна результатів магістерської дисертації полягає в тому, що розроблено програмне рішення, яке на відміну від інших надає користувачеві можливості для створення наборів даних зображень для різних задач машинного навчання з можливістю повної автоматизації процесу. Результат досягнутий шляхом розробки методів для аугментації та створення синтетичних зображень з використанням генеративної моделі Stable Diffusion, методу покращення зображення за допомогою Stable Diffusion та методу фільтрації нерелевантних зображень за допомогою моделей автоматичного тегування та LLM ChatGPT-4o. Практичне значення отриманих результатів полягає в тому, що завдяки автоматизації процесів збору, обробки та анотування даних значно скорочуються часові та людські ресурси, необхідні для створення наборів даних зображень. Універсальність системи забезпечується підтримкою різних задач машинного навчання, що робить продукт доступним для широкого кола користувачів. Інтеграція сучасних технологій, таких як генеративні моделі та великі мовні моделі, забезпечують створення більш різноманітних та якісних наборів даних. Економічна ефективність досягається через зменшення витрат на ручну обробку. Зв’язок з науковими програмами, планами, темами. Робота виконувалась на кафедрі інформатики та програмної інженерії Національного технічного університету України "Київський політехнічний інститут імені Ігоря Сікорського". Апробація. Наукові положення дисертації пройшли апробацію на VII Міжнародній науково-практичній конференції молодих вчених та студентів «Інженерія програмного забезпечення і передові інформаційні технології SoftTech-2024». Публікації. Наукові положення дисертації опубліковані в: 1) Українець Д.Р. Бібліотека для інтелектуального створення наборів даних зображень // Інженерія програмного забезпечення і передові інформаційні технології (SoftTech-2024) : матеріали тез доповідей VII Всеукраїнської наук.-практ. конф. молодих вчених та студентів (м. Київ, 19-22 листопада 2024). – К. : КПІ ім. Ігоря Сікорського, 2024.
dc.description.abstractotherExplanatory note size – 116 pages, contains 3 illustrations, 30 tables, 5 applications, 36 references. Topicality. The work examines the problem of creating image datasets, shows the main features of existing solutions to the described problems, their advantages and disadvantages. It has been concluded that there is a need to improve methods for automating the creation of image datasets, generating synthetic images and improving image quality, and to develop software to implement these methods for a wide range of machine learning tasks. The aim of the study. The main goal is to increase the efficiency of creating highquality image datasets suitable for a wide range of machine learning tasks. The object of research: software for intelligent creation of image datasets. The subject of research: software for intelligent creation of image datasets. To achieve this goal, the following tasks were formulated: - analysis of existing methods and problems of automated creation of image datasets; - development of methods for automated image collection, generation and augmentation; - improvement of methods for automated annotation and image quality assessment; - integration of the developed methods into a single pipeline for creating datasets; - experimental verification of the effectiveness of the proposed methods. The scientific novelty of the results of the master's dissertation is that a software solution has been developed that, unlike others, provides the user with the ability to create image datasets for various machine learning tasks with the possibility of full automation of the process. The result was achieved by developing methods for augmentation and creation of synthetic images using the Stable Diffusion generative model, a method for image enhancement using Stable Diffusion, and a method for filtering irrelevant images using automatic tagging models and LLM ChatGPT-4o. The practical value of the obtained results is that the automation of data collection, processing and annotation significantly reduces the time and human resources required to create image datasets. The versatility of the system is ensured by the support of various machine learning tasks, which makes the product available to a wide range of users. Integration of modern technologies, such as generative models and LLM, ensures the creation of more diverse and high-quality datasets. Cost-effectiveness is achieved by reducing the cost of manual processing. Relationship with working with scientific programs, plans, topics. Work was performed at the Department of Computer Science and Software Engineering of the National Technical University of Ukraine «Igor Sikorsky Kyiv Polytechnic Institute». Approbation. The scientific provisions of the dissertation were tested at the VII International Scientific and Practical Conference of Young Scientists and Students “Software Engineering and Advanced Information Technologies SoftTech-2024”. Publications. The scientific provisions of the dissertation were published in: 1) Ukrainets D.R. Library for Intelligent Image Dataset Creation // Software engineering and advanced information technologies (SoftTech-2024): materials of abstracts of the VII All-Ukrainian scientific and practical conference of young scientists and students (Kyiv, 19-22 November 2024) - K. : Igor Sikorsky Kyiv Polytechnic Institute, 2024.
dc.format.extent160 с.
dc.identifier.citationУкраїнець, Д. Р. Бібліотека для інтелектуального створення наборів даних зображень : магістерська дис. : 121 Інженерія програмного забезпечення / Українець Дмитро Русланович. - Київ, 2024. - 160 с.
dc.identifier.urihttps://ela.kpi.ua/handle/123456789/72696
dc.language.isouk
dc.publisherКПІ ім. Ігоря Сікорського
dc.publisher.placeКиїв
dc.subjectнабір даних зображень
dc.subjectмашинне навчання
dc.subjectгенеративні моделі
dc.subjectанотація
dc.subjectоцінка якості зображень
dc.subjectсинтетичні дані
dc.subjectPython
dc.subjectimage dataset
dc.subjectmachine learning
dc.subjectstable diffusion
dc.subjectgenerative models
dc.subjectannotation
dc.subjectimage quality assessment
dc.subjectsynthetic data
dc.subject.udc004.932
dc.titleБібліотека для інтелектуального створення наборів даних зображень
dc.title.alternativeLibrary for Intelligent Image Dataset Creation
dc.typeMaster Thesis

Файли

Контейнер файлів
Зараз показуємо 1 - 1 з 1
Вантажиться...
Ескіз
Назва:
Ukrainets_magistr.pdf
Розмір:
2.53 MB
Формат:
Adobe Portable Document Format
Ліцензійна угода
Зараз показуємо 1 - 1 з 1
Ескіз недоступний
Назва:
license.txt
Розмір:
8.98 KB
Формат:
Item-specific license agreed upon to submission
Опис: