Алгоритмічне забезпечення для розмітки надвеликих об’ємів даних для задачі детекції об’єктів методами комп’ютерного зору
dc.contributor.advisor | Муха, Ірина Павлівна | |
dc.contributor.author | Зарічковий, Олександр Анатолійович | |
dc.date.accessioned | 2022-04-10T09:33:40Z | |
dc.date.available | 2022-04-10T09:33:40Z | |
dc.date.issued | 2021-05 | |
dc.description.abstracten | Topic: «Algorithmic software for big data annotation for object detection task using computer vision methods» Master’s degree thesis: 119 pages, 33 figures, 6 tables,2 attachments, 91 references. Relevance of the topic.AI algorithms are increasingly penetrating the lives of ordinary people, automating such common areas of life as driving a car, shopping, disease diagnosis, and much more. To simplify the development process of artificial intelligence algorithms, artificial intelligence software platforms such as Microsoft Azure AI Platform, Amazon AWS SageMaker, Google Cloud AI Platform, IBM Watson, and many others have beencreated. The major drawback of these platforms is that they focus on simplifying the process of creating artificial intelligence algorithms, but according to Cognilytica analysts, only 20% of the time on artificial intelligence projects is spent working with the algorithm, and the other 80%- working with data. The longest stage in working with data is data markup for further use in the learning process of machine learning algorithms, and in modern artificial intelligence platforms there is no automation of the markup process, or it available only for typical tasks, which leads to inefficient (slow) data markup process. That is why the task of developing data markup software, which will increase the speed of data markup, is relevant. Research objective. Improve efficiency of data markup process for object detection tasks by auto-labeling data using computer vision techniques that perform pre-markup of data on which a person only needs to correct errors of an algorithm. To achieve this goal, it is necessary to organize the process of continuous learning of the algorithm for detecting objects on new data and the correct order of image markup, which will allow as soon as possible to mark the entire available data set. The following objectives have been formulated to achieve this research objective: -explore existing approaches to automating data markup in software platforms to solve AI problems; -explore existing approaches for incremental learning of machine learning algorithms; -improve the auto-labeling process for object detection tasks tospeed up the markup of large data sets; -develop data markup software for object detection tasks; -study the effectiveness of the algorithm. The object of research. The process of auto-markup data for computer vision tasks, including object detection tasks. The subject of research.Approaches for auto-labeling of data for object detection tasks. The scientific innovation.Proposed mechanism of prioritization of data markup process as improvement of the mechanism of self-diagnostics object detection models which establishes the labeling order by selecting the most difficult images based on predictions of neural network. Training on such images is much faster compared to using randomimages from the same data set. The algorithm for auto-labeling of large volumes of data for object detection tasks has been improved by utilizing proposed mechanism of prioritization and by adaptating approaches for continuous learning, which allowsto increase data labeling speed and can be used for labeling both typical and atypical objects. The practical value. Developed auto-labeling software within the AI software platform for object detection problems, which differs from existing analogues by the increased speed of the markup process at very large volumes. Approbation.The results of the master’s degree thesis were reported in The Fourth International Conference on Computer Science, Engineering and Education Applications (ICCSEEA2021) and a collection of materials from the student conference held in Kiev, Ukraine in 2021. | uk |
dc.description.abstractuk | Магістерська дисертація: 119 с., 33 рис., 6 табл., 2 додатки, 91 джерело. Актуальність теми.Штучний інтелект все більше проникає у життя пересічних людей, автоматизуючи такі звичнісфери життя, як керування автомобілем, покупки в магазинах, діагностику захворювань та багато іншого. Для пришвидшення адаптації алгоритмів штучного інтелекту в програмне забезпечення були створені програмні платформи штучного інтелекту, такі як Microsoft Azure AI Platform, Amazon AWS SageMaker, Google Cloud AI Platform, IBM Watson, які спрощують процес створення та використання алгоритмів штучного інтелекту при вирішенні різноманітних прикладних задач. Головним недоліком даних платформ являється те, що вони концентруються лише на процесі створення та використання алгоритмів штучного інтелекту, хоча дослідження в даній сфері показують, що 80% часу на таких проектах витрачається на роботу з даними, зокрема на їх розмітку. В існуючих платформах підтримки задач штучного інтелекту автоматизація процесу розмітки даних або відсутня, або наявна лише для типових задач, що призводить до неефективного (повільного) процесу розмітки даних, а отже збільшує вартість розробки програмного забезпечення з використанням алгоритмів штучного інтелекту. Саме тому актуальною є задача розробки програмного забезпечення розмітки даних, що дозволить пришвидшити розмітку надвеликих об’ємів даних. Мета досліджень.Підвищити ефективність, зокрема швидкодію, розмітки даних для задач детекції об’єктів шляхом авторозмітки даних за допомогою методів комп’ютерного зору, які виконують чорнову розмітку даних, на якій людині потрібно лише виправити помилки, допущені алгоритмом в процесі авторозмітки. Щоб досягнути поставленої мети необхідно організувати процес постійного донавчання алгоритму детекції об’єктів на нових даних та вірний порядок розмітки зображень, що дозволить пришвидшити розмітку усьогонаявного набору даних. Для реалізації поставленої мети були сформовані наступні завдання: -дослідити наявні підходи до автоматизації розмітки даних в програмних платформах для вирішення задач штучного інтелекту; -дослідити наявні підходи донавчання алгоритмів машинного навчання; - удосконалити процес авторозмітки даних для задач детекції об’єктів з метою пришвидшення розмітки надвеликих наборів даних; -розробити програмне забезпеченняавторозмітки даних для задач детекції об’єктів; -виконати експериментальне дослідження характеристик розробленого програмного забезпечення. Об’єкт досліджень. Процес авторозмітки даних для задач комп’ютерного зору, зокрема задач детекції об’єктів. Предмет досліджень.Підходи до авторозмітки данихдля задач детекції об’єктів. Методи досліджень. Емпіричні дослідження. Наукова новизна. Запропоновано механізм пріоритезації процесу розмітки даних як удосконалення механізму само-діагностики моделей детекції об’єктів, який встановлює порядок розмітки даних шляхом першочергового відборудля навчання алгоритму детекції об’єктів найскладніших зображень, вибір яких здійснюється на основі агрегатів ознак, згенерованих глибокою згортковою нейромережею для оцінки складності зображень, що пришвидшує процес навчання в порівнянні з використанням випадкових зображень з того ж набору даних. Удосконалено алгоритм авторозмітки надвеликих об’ємів даних длязадач детекції об'єктів за рахунок використання запропонованого механізму пріоритезації послідовності розмітки даних та адаптації підходів постійного донавчання алгоритмів детекції, що дозволяє збільшити швидкість розмітки даних та використати даний алгоритм для реалізації розміткинадвеликих даних для задач детекції як типових, так і нетипових об’єктів. Практичне значення. Розроблено програмне забезпечення авторозмітки даних в рамках програмної платформи підтримки вирішення задач штучного інтелекту для задач детекції об’єктів, що вирізняється від існуючих аналогів підвищеною швидкістю процесу розмітки на надвеликих об’ємах. Апробація. Основні положення роботи доповідались і обговорювались на IV Міжнародній конференція з комп’ютерних наук, інжинірингу та освітніх технологій (ICCSEEA 2021), а також на VІ Всеукраїнській науково-практичній конференції молодих вчених та студентів «Інформаційні системи та технологіїуправління» (ІСТУ-2021). | uk |
dc.format.page | 119 с. | uk |
dc.identifier.citation | Зарічковий, О. А. Алгоритмічне забезпечення для розмітки надвеликих об’ємів даних для задачі детекції об’єктів методами комп’ютерного зору : магістерська дис. : 121 Інженерія програмного забезпечення / Зарічковий Олександр Анатолійович. - Київ, 2021. - 119 с. | uk |
dc.identifier.uri | https://ela.kpi.ua/handle/123456789/46835 | |
dc.language.iso | uk | uk |
dc.publisher | КПІ ім. Ігоря Сікорського | uk |
dc.publisher.place | Київ | uk |
dc.subject | AI sofware platforms | uk |
dc.subject | computer vision | uk |
dc.subject | програмні платформи ШІ | uk |
dc.subject | комп’ютерний зір | uk |
dc.subject | нейронні мережі | uk |
dc.subject | детеція об’єктів | uk |
dc.subject | авторозмітка даних | uk |
dc.subject | надвеликі дані | uk |
dc.subject | neural networks | uk |
dc.subject | object detection | uk |
dc.subject | autolabeling | uk |
dc.subject | big data | uk |
dc.subject.udc | 004.023 | uk |
dc.title | Алгоритмічне забезпечення для розмітки надвеликих об’ємів даних для задачі детекції об’єктів методами комп’ютерного зору | uk |
dc.type | Master Thesis | uk |
Файли
Контейнер файлів
1 - 1 з 1
Вантажиться...
- Назва:
- Zarichkovyi_magistr.pdf
- Розмір:
- 2.76 MB
- Формат:
- Adobe Portable Document Format
- Опис:
Ліцензійна угода
1 - 1 з 1
Ескіз недоступний
- Назва:
- license.txt
- Розмір:
- 9.1 KB
- Формат:
- Item-specific license agreed upon to submission
- Опис: