Аналіз тексту з використанням великих мовних моделей

dc.contributor.advisorШаповалова, Світлана Ігорівна
dc.contributor.authorМар’яш, Дмитро Ігорович
dc.date.accessioned2025-01-21T12:48:38Z
dc.date.available2025-01-21T12:48:38Z
dc.date.issued2024
dc.description.abstractАктуальність теми дослідження. Автоматизація аналізу текстових даних є важливою складовою сучасного цифрового розвитку, особливо в умовах постійного зростання обсягів інформації, що генерується в різних сферах людської діяльності. Для забезпечення ефективного аналізу текстів важливими чинниками є застосування великих мовних моделей, які дозволяють автоматизувати процеси класифікації, генерації анотацій та створення контекстуальних запитань, підвищуючи якість та швидкість обробки інформації. Отже, розробка програмного забезпечення, яке інтегрує можливості таких моделей, є ключовим кроком для оптимізації роботи з текстовими даними. Метою дослідження є розробка середовища аналізу тексту з використанням великих мовних моделей, що дає змогу користувачеві класифікувати текстові дані за типом, темою, сентиментом та емоційним забарвленням, з можливістю візуалізації хмари слів, отримання ключових слів, а також автоматичній генерації анотації до тексту, разом із згенерованими тестами та контекстним чатом. Завдання дослідження: - дослідити та проаналізувати існуючі підходи до класифікації тексті; - проаналізувати методи класифікації текстів за типом, тематикою та емоційним забарвленням; - реалізувати механізм визначення типу тексту, його тематики та емоційного забарвлення; - розробити функціонал для автоматичної анотації текстових даних; - створити модуль формування змістовних запитань та відповідей на запитання на основі текстів для підвищення інтерактивності системи; - створити модуль автоматизованого тестування продуктивності великих мовних моделей. Об’єктом дослідження є алгоритми обробки природньої мови, великі мовні моделі та їх архітектури. Предметом дослідження є задача трансформування тексту у текст великих мовних (задачі класифікаціїї та анотації текстових даних), методи створення автоматизованих тестів, оцінювання продуктивності великих мовних моделей. Апробація результатів роботи. Основні положення даної роботи були викладені на XLIX Міжнародній науково-практичній конференції «New Areas of Scientific Research: Exploring New Frontiers» Дисертація складається зі вступу, п’яти розділів та висновків. Повний обсяг дисертації складає 136 сторінок, 25 таблиць, 39 рисунків, 6 сторінок списку використаних джерел у кількості 43 найменувань.
dc.description.abstractotherRelevance of the research topic. Automation of text data analysis is an important component of modern digital development, especially in the context of the constant growth of information generated in various fields of human activity. To ensure effective text analysis, it is important to use large language models that automate the processes of classification, annotation generation, and creation of contextual questions, improving the quality and speed of information processing. Thus, developing software that integrates the capabilities of such models is a key step to optimize work with text data. The aim of this research is to develop a text analysis environment using large-scale language models that allows the user to classify text data by type, topic, sentiment, and emotional coloration, with the ability to visualize the word cloud, extract keywords, and automatically generate text annotations, along with generated quizzes and contextual chat. Research objectives: - to research and analyze existing approaches to text classification; - to analyze methods of text classification by type, topic, and semantic; - to implement tools for determining the type of text, its topic and semantic ; - develop functionality for automatic summarization of text data; - to create a module for generating meaningful questions and answers to questions based on texts to increase the interactivity of the environment; - to create a module for automated performance testing of large language models. The object of research is natural language processing algorithms, large language models and their architectures. The subject of the research is the task of transforming text into big language text (tasks of classification and annotation of text data), methods of creating automated tests, and evaluating the performance of big language models. Approbation of the results of the dissertation. The main provisions of this work were presented at the XLIX International Scientific and Practical Conference “New Areas of Scientific Research: Exploring New Frontiers”. The dissertation consists of an introduction, five chapters and conclusions. The full volume of the dissertation is 136 pages, 25 tables, 39 figures, 6 pages of the list of references consisting of 43 titles.
dc.format.extent157 с.
dc.identifier.citationМар’яш, Д. І. Аналіз тексту з використанням великих мовних моделей : магістерська дис. : 122 Комп’ютерні науки / Мар’яш Дмитро Ігорович. – Київ, 2024. – 157 с.
dc.identifier.urihttps://ela.kpi.ua/handle/123456789/72082
dc.language.isouk
dc.publisherКПІ ім. Ігоря Сікорського
dc.publisher.placeКиїв
dc.subjectLLM
dc.subjectNLP
dc.subjectвеликі мовні моделі
dc.subjectобробка природної мови
dc.subjectT5
dc.subjectBART
dc.subjectBERT
dc.subjectгенерація
dc.subjectперетворення тексту у текст
dc.subjectанотація
dc.subjectтекстові дані
dc.subjectінтерпретація
dc.subjectlarge language models
dc.subjectnatural language processing
dc.subjectgeneration
dc.subjecttext-to-text conversion
dc.subjectannotation
dc.subjecttext data
dc.subjectinterpretation
dc.titleАналіз тексту з використанням великих мовних моделей
dc.typeMaster Thesis

Файли

Контейнер файлів
Зараз показуємо 1 - 1 з 1
Вантажиться...
Ескіз
Назва:
Mariash_magistr.pdf
Розмір:
4.43 MB
Формат:
Adobe Portable Document Format
Ліцензійна угода
Зараз показуємо 1 - 1 з 1
Ескіз недоступний
Назва:
license.txt
Розмір:
8.98 KB
Формат:
Item-specific license agreed upon to submission
Опис: