Метод виявлення складних для розпізнавання зразків у наборах даних для задач класифікації у машинному навчанні
Вантажиться...
Дата
2023
Науковий керівник
Назва журналу
Номер ISSN
Назва тому
Видавець
Інститут кібернетики ім. В.М. Глушкова НАН України
Анотація
Розглядається проблема неоднозначності в задачах класифікації в області ма-шинного навчання. Задача класифікації полягає у навчанні моделі відрізняти екземпляри даних, що належать різнимклас ам. Однак можливі ситуації, коли правильна класифікація певної множини екземплярів даних складнаабо навіть неможлива, незалежно від складності моделі машинного навчання.Запропоно-вано метод та алгоритм виявлення таких неоднозначних екземплярів даних, щобазу ються на використанні методу найближчого сусіда та аналізу класів екзе-мплярів даних, розташованих поряд у просторі ознак, та дозволяютьвиділити підмножину неоднозначних екземплярів даних, що можуть негативно впливатина процес навчання моделі класифікації.З метою демонстрації практичного за-стосування алгоритму проведено експеримент на чотириканальному супутни-ковому композиті, що використовується для попіксельної класифікації сільсь-когосподарських культур. Визначено відсоток ненадійних даних загалом та окремо для кожної культури. Одним з основних результатів дослідження є мо-жливість використання запропонованого алгоритму під час конструювання да-тасету(набору даних, dataset) для навчання моделі класифікації.Віндопомагає виявити потенційно проблемні екземпляри даних та забезпечити якість вхідно-го набору даних. Крім того, розглянуто можливості застосування алгоритму після процесу навчання моделі привикористаннів операційному режимі. Ви-явлення неоднозначних екземплярів може допомогти знайти потенційні поми-лки класифікації та покращити результати роботи моделі.Представлений ал-горитм може стати важливим інструментом для дослідника впродовж повного циклу розробки моделі машинного навчання, починаючи від підготовки даних для навчання і закінчуючи її практичним впровадженням. Його застосування скороч уватиме часна отримання якісних навчальних даних, покращуватимеметрикикласифікації та забезпечуватимебільш надійнірезультатиу задачах машинного навчання.
Опис
Ключові слова
machine learning, classifier, the nearest neighbor method, dataset quality assessment, imbalanced datasets, hard cases
Бібліографічний опис
Охріменко, А. О. Метод виявлення складних для розпізнавання зразків у наборах даних для задач класифікації у машинному навчанні / Охріменко А. О., Куссуль Н. М. // Міжнародний науково-технічний журнал "Проблеми керування та інформатики". - 2023. - № 4 . - С. 84-95.