Методи та програмне забезпечення класифікації та категоризації повідомлень соціальних мереж та месенджерів
dc.contributor.advisor | Олійник, Юрій Олександрович | |
dc.contributor.author | Грицаєнко, Катерина Юріївна | |
dc.date.accessioned | 2024-03-10T19:06:17Z | |
dc.date.available | 2024-03-10T19:06:17Z | |
dc.date.issued | 2024 | |
dc.description.abstract | Магістерська дисертація: 104 с., 39 рис, 26 таб., 3 додатки, 21 використаних джерел. Актуальність теми: задача адаптації методів NLP до українських текстів досі не вирішена. Саме тому створення якісного і уніфікованого методу аналізу змішаної прямої мови (української та російської, а також суржика та сленгових виразів) є нагальною. Мета дослідження: адаптувати методи аналізу пр ямої мульти-лінгвістичної мови для застосування до україномовних чатів, підвищити якість аналізу прямої мови, що містить русизми та сленгові вирази. Об’єкт дослідження: підходи та процеси створення програмного забезпечення для класифікації та категоризації повідомлень соціальних мереж та месенджерів. Предмет дослідження: методи, моделі, програмна архітектура засоби створення програмного забезпечення з аналізу, класифікації та категоризації мульти-лінгвістичної та насиченої сленговими виразами прямої мови. Для реалізації поставленої мети сформульовані наступні завдання: - проаналізувати наявні рішення для аналізу прямої мультилінгвістичної мови; - провести аналіз та адаптувати існуючі методології по опрацюванню мультилінгвістичного тексту для застосування до мов слов’янської групи. А саме української та російської; - удосконалити та адаптувати методи аналізу мультилінгвістичних даних для застосування до мов слов’янської групи, а саме української та російської, з урахуванням опрацювання сленгових виразів сучасної української мови; - розробити архітектуру та програмне забезпечення з реалізованими методами аналізу мультилінгвістичних даних; - розробити план по маштабуванню та розгортанню програмного забезпечення у хмарі; - провести дослідження ефективності розроблених методів та програмного забезпечення. Наукова новизна: у рамках роботи було удосконалено наявні методи опрацювання української прямої мови, також було формалізовано та адаптовано методи класифікації прямої мови що містить русизми, суржик та сленгові вирази. Практичне значення отриманих результатів визначається тим, що розроблена програмна бібліотека дозволить автоматизувати класифікацію та категоризацію мультилінгвістичних повідомлень з соціальних мереж та месенджерів, а також гарантує високу ефективність при застосуванні до слов’янських мов (а саме української та російської, а також суржику і сленговим виразам). Зв’язок роботи з науковими програмами, планами, темами: Зв’язок з науковими програмами, планами, темами. Робота виконувалась на кафедрі інформатики та програмної інженерії Національного технічного університету України "Київський політехнічний інститут імені Ігоря Сікорського" в рамках теми «Методи та технології високопродуктивних обчислень та обробки надвеликих масивів даних». Державний реєстраційний номер 0117U000924. Апробація: Наукові положення дисертації пройшли апробацію на V всеукраїнській науково-практичній конференції молодих вчених та студентів «Інженерія програмного забезпечення і передові інформаційні технології SoftTech-2023» – м. Київ. Публікації: Наукові положення дисертації опубліковані в тезах конференції «Інженерія програмного забезпечення і передові інформаційні технології SoftTech-2023». | |
dc.description.abstractother | Master’s dissertation consists 104 pages, 39 images, 26 tables, 3 apendix, 21 referring sources. Topicality: The adaptation of NLP methods to Ukrainian texts remains an unresolved challenge. Therefore, the creation of a high-quality and unified method for analyzing mixed direct speech (Ukrainian and Russian, as well as Surzhyk and slang expressions) is urgently needed. The purpose of the dissertation research is to adapt methods for analyzing direct multilingual speech for application in Ukrainian-language chats, enhance the quality of analyzing direct speech containing Russianisms and slang expressions. Object of study: Approaches and processes of creating software for classifying and categorizing social media and messenger messages. Subject of research: Methods, models, software architecture, tools for creating software for analysis, classification, and categorization of multilingual and slang-enriched direct speech. To achieve this goal, the following tasks were formulated: - analyze existing solutions for analyzing direct multilingual speech; - analyze and adapt existing methodologies for processing multilingual text for application to Slavic languages, specifically Ukrainian and Russian; - improve and adapt methods for analyzing multilingual data for application to Slavic languages, particularly Ukrainian and Russian, considering the processing of slang expressions in the modern Ukrainian language; - develop architecture and software with implemented methods for analyzing multilingual data; - develop a plan for scaling and deploying the software in the cloud; - research the effectiveness of the developed methods and software. Scientific novelty: within the scope of the work, existing methods for processing Ukrainian direct speech were improved, and methods for classifying direct speech containing Russianisms, Surzhyk, and slang expressions were formalized and adapted. The practical value of the obtained results is determined by the fact that developed software library will enable the automation of the classification and categorization of multilingual messages from social networks and messengers. It also guarantees high efficiency when applied to texts in multilingual Slavic languages, specifically Ukrainian and Russian, as well as to surzhyk and slang expressions. Relationship with working with scientific programs, plans, topics. Work was performed at the Department of Informatics and Software Engineering of the National Technical University of Ukraine «Igor Sikorsky Kyiv Polytechnic Institute». Approbation. The scientific provisions of the dissertation were tested at the conference "Informatics and Computer Engineering - SoftTech-2023". Publications: Theses of the thesis are published in «Informatics and Computer Engineering SoftTech-2023». | |
dc.format.extent | 137 с. | |
dc.identifier.citation | Грицаєнко, К. Ю. Методи та програмне забезпечення класифікації та категоризації повідомлень соціальних мереж та месенджерів : магістерська дис. : 121 Інженерія програмного забезпечення / Грицаєнко Катерина Юріївна. - Київ, 2024. - 137 с. | |
dc.identifier.uri | https://ela.kpi.ua/handle/123456789/65389 | |
dc.language.iso | uk | |
dc.publisher | КПІ ім. Ігоря Сікорського | |
dc.publisher.place | Київ | |
dc.subject | аналіз прямої мультилінгвістичної мови | |
dc.subject | нейронні мережі | |
dc.subject | модель мішка слів | |
dc.subject | класифікація | |
dc.subject | категоризація | |
dc.subject | NLP | |
dc.subject | classification | |
dc.subject | bag of words model | |
dc.subject | Neural Networks | |
dc.subject | topic modeling | |
dc.subject.udc | 004.85 | |
dc.title | Методи та програмне забезпечення класифікації та категоризації повідомлень соціальних мереж та месенджерів | |
dc.type | Master Thesis |
Файли
Контейнер файлів
1 - 1 з 1
Вантажиться...
- Назва:
- Hrytsaienko_magistr.pdf
- Розмір:
- 4.98 MB
- Формат:
- Adobe Portable Document Format
Ліцензійна угода
1 - 1 з 1
Ескіз недоступний
- Назва:
- license.txt
- Розмір:
- 8.98 KB
- Формат:
- Item-specific license agreed upon to submission
- Опис: