Кафедра математичного моделювання та аналізу даних (ММАД)
Постійне посилання на фонд
Сайт кафедри: http://mmda.ipt.kpi.ua/
Переглянути
Перегляд Кафедра математичного моделювання та аналізу даних (ММАД) за Ключові слова "004.8, 004.93"
Зараз показуємо 1 - 2 з 2
Результатів на сторінці
Налаштування сортування
Документ Відкритий доступ Метод виявлення складних для розпізнавання зразків у наборах даних для задач класифікації у машинному навчанні(Інститут кібернетики ім. В.М. Глушкова НАН України, 2023) Охріменко, Антон Олександрович; Куссуль, Наталія МиколаївнаРозглядається проблема неоднозначності в задачах класифікації в області ма-шинного навчання. Задача класифікації полягає у навчанні моделі відрізняти екземпляри даних, що належать різнимклас ам. Однак можливі ситуації, коли правильна класифікація певної множини екземплярів даних складнаабо навіть неможлива, незалежно від складності моделі машинного навчання.Запропоно-вано метод та алгоритм виявлення таких неоднозначних екземплярів даних, щобазу ються на використанні методу найближчого сусіда та аналізу класів екзе-мплярів даних, розташованих поряд у просторі ознак, та дозволяютьвиділити підмножину неоднозначних екземплярів даних, що можуть негативно впливатина процес навчання моделі класифікації.З метою демонстрації практичного за-стосування алгоритму проведено експеримент на чотириканальному супутни-ковому композиті, що використовується для попіксельної класифікації сільсь-когосподарських культур. Визначено відсоток ненадійних даних загалом та окремо для кожної культури. Одним з основних результатів дослідження є мо-жливість використання запропонованого алгоритму під час конструювання да-тасету(набору даних, dataset) для навчання моделі класифікації.Віндопомагає виявити потенційно проблемні екземпляри даних та забезпечити якість вхідно-го набору даних. Крім того, розглянуто можливості застосування алгоритму після процесу навчання моделі привикористаннів операційному режимі. Ви-явлення неоднозначних екземплярів може допомогти знайти потенційні поми-лки класифікації та покращити результати роботи моделі.Представлений ал-горитм може стати важливим інструментом для дослідника впродовж повного циклу розробки моделі машинного навчання, починаючи від підготовки даних для навчання і закінчуючи її практичним впровадженням. Його застосування скороч уватиме часна отримання якісних навчальних даних, покращуватимеметрикикласифікації та забезпечуватимебільш надійнірезультатиу задачах машинного навчання.Документ Відкритий доступ Моделі глибинного навчання на складних для розпізнавання наборах даних(КПІ ім. Ігоря Сікорського, 2024) Охріменко, Антон Олександрович; Куссуль, Наталія МиколаївнаОхріменко А.О. Моделі глибинного навчання на складних для розпізнавання наборах даних. – Кваліфікаційна наукова праця на правах рукопису. Дисертація на здобуття наукового ступеня доктора філософії за спеціальністю 113 «Прикладна математика» (галузь знань 11 «Математика та Статистика»). – Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського», Київ, 2024. Останнім часом широко використовуються методи машинного навчання для вирішення різноманітних практичних завдань. Дані методи найкраще працюють, якщо різні класи рівномірно представлені у навчальній вибірці. На практиці, реальні набори даних часто не відповідають цій умові, класи у них можуть бути незбалансованими та перекриватися за своїми ознаками. Особливо це проявляється у задачі сегментації, де на кожному зображенні з навчальної вибірки може бути присутні одразу декілька класів у різній пропорції. Як наслідок, модель машинного навчання погано розпізнає наймеш представлені класи. Метою роботи є розробка нових ефективних методів навчання моделей для задачі сегментації при наявній проблемі незбалансованості та перекриття класів у навчальному наборі даних. Існують стандартні засоби, що застосовуються для балансування вибірок, такі як збільшення ваги малих класів у функції втрат, чи збалансоване формування навчального пакету. Науковці розробляють нові методи, такі як особлива обробка даних в областях перекриття класів, генерація штучних екземплярів даних та динамічні вагові коефіцієнти. Дані підходи не є універсальними та не враховують особливості самих даних. Зокрема, не враховується роздільність представників різних класів та ступінь повноти ознак у наборі даних. Тому актуальною є розробка нових методів, що враховують властивості даних, а також нових методів балансування навчальних наборів. Перший розділ дисертаційного дослідження присвячений огляду робіт інших дослідників, що присвячені проблемі незбалансованості, перекриття класів та випадку їх комбінації. Проведено аналіз даних методів, окреслено основні групи поточних досліджень, визначено недоліки кожної групи, сформульовано завдання дисертаційного дослідження. Окрім того, розглянуто підходи, що специфічні для предметних областей даного дослідження. У другому розділі досліджується задача визначення неоднозначних екземплярів даних, які важко коректно віднести до правильного класу через подібність їхніх ознак до представників іншого класу, тобто наявна проблема перекриття класів. Запропоновано метод виявлення неоднозначних екземплярів даних серед навчальної вибірки. Описаний метод апробовано на штучно згенерованому наборі даних. У третьому розділі запропоновано метод вагових масок для покращення розрізнення малих класів у задачі семантичної сегментації на прикладі визначення сільськогосподарських культур на супутникових знімках. Модифіковано функцію втрат до використання вагових масок, що згенеровані відповідно до належності різних пікселів зображення до неоднозначних екземплярів даних. Показано, що у порівнянні з базовою сегментаційною моделлю, використання вагових масок значно покращує метрики малих класів, а також спостерігається незначний приріст загальних метрик. У четвертому розділі досліджується можливість використання генеративних змагальних мереж (GAN) для генерації штучних зображень та балансування навчального набору даних для багатоканальних супутникових знімків. Даний підхід порівнюється з іншими методами генерації штучних зображень, а також перевіряється можливість застосування методу вагових масок з попереднього розділу. Показано, що у порівнянні з базовою сегментаційною моделлю, використання GAN суттєво покращує якість роботи моделі. Окрім того, продемонстровано, що інші методи генерації штучних зображень показують гірші результати у порівнян ні з запропонованим методом. Використання методу вагових масок у комбінації з GAN-аугментацією також покращує метрики моделі. У п’ятому розділі розроблений метод вагових масок апробований в іншій предметній області, а саме у задачі семантичної сегментації гістологічних зображень. Запропоновано модифікацію методу виявлення неоднозначних екземплярів даних, спрямовану на врахування деяких просторових властивостей зображення. Це дозволило згенерувати більш досконалі вагові маски. Підтверджено ефективність методу вагових масок, що значно покращує метрики малих класів, у порівнянні з базовою сегментаційною моделлю. Наукова новизна отриманих результатів: 1. Вперше розроблено метод виявлення неоднозначних даних на основі KNN, що дозволяє ефективно ідентифікувати екземпляри даних, які викликають труднощі через подібність між класами. 2. Вперше запропоновано метод аугментації супутникових зображень з використанням генеративних змагальних мереж (GAN), що забезпечує генерацію нових зразків для компенсації незбалансованості класів. 3. Запропоновано нові метрики для оцінки якості датасетів, які враховують незбалансованість та перекриття класів, що дозволяє точніше аналізувати якість навчальних даних. 4. Удосконалено функції втрат через введення вагових масок, що дозволяє адаптувати процес навчання сегментаційних моделей до умов незбалансованих даних. 5. Отримав подальший розвиток метод вагових масок для компенсації незбалансованості класів, що дозволяє коригувати навчання без втручання в розмір чи структуру датасету. Практичне значення отриманих результатів. Результати, отримані у даній роботі, застосовані в наступних проектах: 1. Науковий проект програми Horizon Europe «Satellites for Wilderness Inspec tion and Forest Threat Tracking» (SWIFTT) (грантова угода 101082732, 2022- 2025). 2. Науковий проект НФД України «Методи і моделі глибинного навчання для прикладних задач супутникового моніторингу» (2020.02/0292, 2020-2023). 3. Науково-технічна робота (НТР) «Інформаційні технології геопросторового аналізу розвитку сільських територій і громад» (Договір РН/27-2023 від 25 травня 2023 р.) за рахунок зовнішнього інструменту допомоги Європейського Союзу для виконання зобов’язань України у Рамковій програмі Європейського Союзу з наукових досліджень і інновацій «Горизонт 2020». Розроблені методи практично застосовані в різних областях машинного навчання, передусім для моделей, що використовують функцію втрат для свого навчання. Окрім того, GAN-аугментація може бути використана для більш широкого класу моделей, а метод визначення частки неоднозначних даних та його майбутні модифікації можуть бути використаний для оцінки якості навчальних даних для різних видів задач машинного навчання. За матеріалами дисертації опубліковано 6 робіт, з яких 2 статті у міжнародних журналах, що індексуються у Scopus (квартилі Q2 та Q3), 1 стаття в журналі, що входить до переліку фахових видань за спеціальністю дисертації, 1 одноосібний розділ у монографії та 2 публікації у матеріалах міжнародних конференцій.