Метод виявлення складних для розпізнавання зразків у наборах даних для задач класифікації у машинному навчанні

Вантажиться...
Ескіз

Дата

2023

Науковий керівник

Назва журналу

Номер ISSN

Назва тому

Видавець

Інститут кібернетики ім. В.М. Глушкова НАН України

Анотація

Розглядається проблема неоднозначності в задачах класифікації в області ма-шинного навчання. Задача класифікації полягає у навчанні моделі відрізняти екземпляри даних, що належать різнимклас ам. Однак можливі ситуації, коли правильна класифікація певної множини екземплярів даних складнаабо навіть неможлива, незалежно від складності моделі машинного навчання.Запропоно-вано метод та алгоритм виявлення таких неоднозначних екземплярів даних, щобазу ються на використанні методу найближчого сусіда та аналізу класів екзе-мплярів даних, розташованих поряд у просторі ознак, та дозволяютьвиділити підмножину неоднозначних екземплярів даних, що можуть негативно впливатина процес навчання моделі класифікації.З метою демонстрації практичного за-стосування алгоритму проведено експеримент на чотириканальному супутни-ковому композиті, що використовується для попіксельної класифікації сільсь-когосподарських культур. Визначено відсоток ненадійних даних загалом та окремо для кожної культури. Одним з основних результатів дослідження є мо-жливість використання запропонованого алгоритму під час конструювання да-тасету(набору даних, dataset) для навчання моделі класифікації.Віндопомагає виявити потенційно проблемні екземпляри даних та забезпечити якість вхідно-го набору даних. Крім того, розглянуто можливості застосування алгоритму після процесу навчання моделі привикористаннів операційному режимі. Ви-явлення неоднозначних екземплярів може допомогти знайти потенційні поми-лки класифікації та покращити результати роботи моделі.Представлений ал-горитм може стати важливим інструментом для дослідника впродовж повного циклу розробки моделі машинного навчання, починаючи від підготовки даних для навчання і закінчуючи її практичним впровадженням. Його застосування скороч уватиме часна отримання якісних навчальних даних, покращуватимеметрикикласифікації та забезпечуватимебільш надійнірезультатиу задачах машинного навчання.

Опис

Ключові слова

machine learning, classifier, the nearest neighbor method, dataset quality assessment, imbalanced datasets, hard cases

Бібліографічний опис

Охріменко, А. О. Метод виявлення складних для розпізнавання зразків у наборах даних для задач класифікації у машинному навчанні / Охріменко А. О., Куссуль Н. М. // Міжнародний науково-технічний журнал "Проблеми керування та інформатики". - 2023. - № 4 . - С. 84-95.

Зібрання