Багатокритеріальне розпізнавання відповідності текста темі на основі алгоритму TS.IDS
Вантажиться...
Дата
2026
Автори
Науковий керівник
Назва журналу
Номер ISSN
Назва тому
Видавець
КПІ ім. Ігоря Сікорського
Анотація
Дисертація складається зі вступу, чотирьох розділів, загальних висновків, списку використаних джерел і додатків. Повний обсяг дисертації становить 117 сторінок, у тому числі 86 сторінок основного тексту, 17 рисунків, 3 таблиці, 4 сторінки списку використаних джерел у кількості 40 найменувань.
Актуальність теми. Задача автоматичного встановлення відповідності текстового документа заданій тематиці належить до числа фундаментальних проблем обробки природної мови і водночас залишається практично значущою для широкого спектру прикладних систем — від пошукових рушіїв та рекомендаційних сервісів до корпоративних систем фільтрації документообігу і систем модерації контенту в соціальних мережах. Класичні однокритеріальні підходи на основі TF-IDF, BM25 та їхніх пізніших модифікацій таких як TS.IDS демонструють обмеження, пов’язані з неможливістю одночасно охопити лексичну, семантичну та статистично-тематичну природу відповідності тексту темі. Формалізація цієї задачі як задачі багатокритеріального прийняття рішень (БКПР, MCDM) і побудова zero-shot програмного конвеєра, який об’єднує п’ять незалежних вимірів релевантності, визначає актуальність дослідження.
Метою роботи є створення програмного фреймворку для багатокритеріального розпізнавання відповідності тексту темі, що поєднує алгоритм TS.IDS, синтаксичні, імовірністні та статистичні методи поєднані за допомогою різних методів БКПР (TOPSIS, VIKOR, WASPAS) у єдиній zero-shot архітектурі.
Завдання дослідження:
— провести систематичний огляд методів оцінювання тематичної релевантності текстів та сучасних підходів БКПР із метою обґрунтування вибору компонент фреймворку;
— математично формалізувати задачу тематичної класифікації тексту як задачу багатокритеріального прийняття рішень і описати внутрішню математику кожного з обраних критеріїв та методів агрегації;
— спроєктувати та реалізувати мовою Python модульну архітектуру фреймворку MCTRF (Multi-Criteria Text-Topic Relevance Framework), яка охоплює повний конвеєр — від передобробки тексту до видачі ранжованого списку тем-кандидатів;
— виконати обчислювальні експерименти на корпусі 20 Newsgroups, порівняти дванадцять методів (шість варіантів MCDM-агрегації та шість базових) за п’ятьма метриками якості класифікації та ранжування.
Об’єкт дослідження — процес визначення відповідності текстового документа наперед не заданій тематиці в умовах відсутності розмічених навчальних прикладів.
Предмет дослідження — багатокритеріальний метод визначення тематичної релевантності тексту на основі алгоритму TS.IDS та методів прийняття рішень TOPSIS, VIKOR і WASPAS.
Методами дослідження що застосовано у роботі є методи інформаційного пошуку (TF-IDF/TS.IDS, BM25), методи машинного та глибинного навчання (Sentence-BERT, Cross-Encoder, LDA), методи витягування ключових слів без навчання (YAKE), статистичні міри подібності розподілів (Jensen-Shannon Divergence), методи багатокритеріального прийняття рішень (TOPSIS, VIKOR, WASPAS) та метод автоматичного зважування критеріїв CRITIC. Експериментальна оцінка виконана на збалансованому корпусі 20 Newsgroups із стратифікованим поділом 80/20.
Практичне значення отриманих результатів полягає в тому, що розроблений фреймворк MCTRF здатен виконувати тематичну класифікацію довільної множини текстів без етапу навчання — достатньо подати коротке текстове описання теми. Це робить систему придатною для швидкого розгортання у сценаріях із динамічними таксономіями, у яких перенавчання класичних керованих класифікаторів є надто витратним. Експериментально показано, що формальна MCDM-агрегація підвищує точність порівняно з простим арифметичним усередненням тих самих критеріїв.
Апробація результатів дисертації. За темою магістерської дисертації опубліковано 2 наукові праці: стаття «Багатокритеріальне розпізнавання відповідності текстів темі на основі алгоритму TF-IDF» та стаття «Розпізнавання емоцій людини в реальному часі», обидві — у науковому журналі «Зв’язок».
Опис
Ключові слова
багатокритеріальне прийняття рішень, TF-IDF, BM25, Sentence-BERT, TOPSIS, VIKOR, WASPAS, zero-shot класифікація, тематична релевантність, обробка природної мови, multi-criteria decision-making, zero-shot classification, topical relevance, natural language processing
Бібліографічний опис
Шалигін, М. О. Багатокритеріальне розпізнавання відповідності текста темі на основі алгоритму TS.IDS : магістерська дис. : 122 Комп’ютерні науки / Шалигін Михаїл Олексійович. – Київ, 2026. – 117 с.