Метод виявлення складних для розпізнавання зразків у наборах даних для задач класифікації у машинному навчанні

Охріменко, Антон Олександрович; Куссуль, Наталія Миколаївна

Метод виявлення складних для розпізнавання зразків у наборах даних для задач класифікації у машинному навчанні

Файли

Metod_vyiavlennia_skladnykh_dlia_rozpiznavannia_zrazkiv.pdf (548.14 KB)

Дата

2023

Автори

Охріменко, Антон Олександрович

Куссуль, Наталія Миколаївна

Видавець

Інститут кібернетики ім. В.М. Глушкова НАН України

Анотація

Розглядається проблема неоднозначності в задачах класифікації в області ма-шинного навчання. Задача класифікації полягає у навчанні моделі відрізняти екземпляри даних, що належать різнимклас ам. Однак можливі ситуації, коли правильна класифікація певної множини екземплярів даних складнаабо навіть неможлива, незалежно від складності моделі машинного навчання.Запропоно-вано метод та алгоритм виявлення таких неоднозначних екземплярів даних, щобазу ються на використанні методу найближчого сусіда та аналізу класів екзе-мплярів даних, розташованих поряд у просторі ознак, та дозволяютьвиділити підмножину неоднозначних екземплярів даних, що можуть негативно впливатина процес навчання моделі класифікації.З метою демонстрації практичного за-стосування алгоритму проведено експеримент на чотириканальному супутни-ковому композиті, що використовується для попіксельної класифікації сільсь-когосподарських культур. Визначено відсоток ненадійних даних загалом та окремо для кожної культури. Одним з основних результатів дослідження є мо-жливість використання запропонованого алгоритму під час конструювання да-тасету(набору даних, dataset) для навчання моделі класифікації.Віндопомагає виявити потенційно проблемні екземпляри даних та забезпечити якість вхідно-го набору даних. Крім того, розглянуто можливості застосування алгоритму після процесу навчання моделі привикористаннів операційному режимі. Ви-явлення неоднозначних екземплярів може допомогти знайти потенційні поми-лки класифікації та покращити результати роботи моделі.Представлений ал-горитм може стати важливим інструментом для дослідника впродовж повного циклу розробки моделі машинного навчання, починаючи від підготовки даних для навчання і закінчуючи її практичним впровадженням. Його застосування скороч уватиме часна отримання якісних навчальних даних, покращуватимеметрикикласифікації та забезпечуватимебільш надійнірезультатиу задачах машинного навчання.

Ключові слова

machine learning, classifier, the nearest neighbor method, dataset quality assessment, imbalanced datasets, hard cases

Бібліографічний опис

Охріменко, А. О. Метод виявлення складних для розпізнавання зразків у наборах даних для задач класифікації у машинному навчанні / Охріменко А. О., Куссуль Н. М. // Міжнародний науково-технічний журнал "Проблеми керування та інформатики". - 2023. - № 4 . - С. 84-95.