Математичне та програмне забезпечення класифікації наукових текстів

Вантажиться...
Ескіз

Дата

2019-12

Назва журналу

Номер ISSN

Назва тому

Видавець

КПІ ім. Ігоря Сікорського

Анотація

Актуальність теми: для спрощення пошуку необхідної інформації серед наукових публікацій в Україні використовується бібліотечна класифікація. Проте наразі ця система є недосконалою, адже при класифікації допускаються помилки, а в деяких випадках вона виконується для збірника загалом, що призводить до часткової невідповідності для деяких статей, що в нього входять. Також виконання класифікації сторонньою людиною (наприклад, бібліотекарем чи редактором) вимагає багато часу. Вирішенням цієї проблеми є автоматизація процесу класифікації. За рахунок використання машинного навчання можна створити автоматичний класифікатор, яких дозволить покращити точність класифікації порівняно з ручною та прискорити класифікацію нових надходжень. Мета дослідження: створення класифікатора наукових статей за категоріями УДК на основі машинного навчання. Для реалізації поставленої мети були сформульовані наступні завдання: – систематизація існуючих алгоритмів класифікації текстових даних; – збір достатньої навчальних даних, розробка класифікатору на основі машинного навчання; – тестування та аналіз ефективності отриманого алгоритму; – визначення подальшого напрямку досліджень. Об’єкт дослідження: бібліотечна класифікація наукових статей. Предмет дослідження: алгоритми класифікації текстових даних. Методи дослідження: для розв’язання поставленої задачі використовувались наївний баєсів класифікатор, нейронні мережі, алгоритм зворотного поширення помилки. Наукова новизна: найбільш суттєвими науковими результатами магістерської дисертації є дослідження можливостей автоматизації класифікації наукових текстів; пошуку помилок у вже класифікованих текстах; створення алгоритмів класифікації для розрізнення категорій у текстів близьких тематик. Практичне значення отриманих результатів визначається тим, що запропонований алгоритм дозволяє досягти точності бібліотечної класифікації в 86%, що дозволяє використовувати його для пошуку і виправлення помилок у класифікації текстів, а також як допоміжного засобу при класифікації нових надходжень. Зв’язок роботи з науковими програмами, планами, темами: робота виконувалась на кафедрі автоматизованих систем обробки інформації та управління Національного технічного університету України «Київський політехнічний інститут ім. Ігоря Сікорського» в рамках теми «Математичні моделі та технології в СППР». Державний реєстраційний номер 0117U000914 Апробація: основні положення роботи доповідались і обговорювались на XІІ науково-практичній конференції магістрантів та аспірантів «Прикладна математика та комп’ютинг» (ПМК-2019), а також на третій всеукраїнській науково-практичній конференції молодих вчених та студентів «Інформаційні системи та технології управління» (ІСТУ-2019).

Опис

Ключові слова

класифікація текстів, нейронні мережі, машинне навчання, text classification, neural networks, machine learning

Бібліографічний опис

Канівець, Д. В. Математичне та програмне забезпечення класифікації наукових текстів : магістерська дис. : 121 Інженерія програмного забезпечення / Канівець Дмитро Володимирович. - Київ, 2019. - 88 с.

ORCID

DOI