Математичне та програмне забезпечення для аналізу потоків текстових даних

dc.contributor.advisorОлійник, Юрій Олександрович
dc.contributor.authorСтепанюк, Євгеній Юрійович
dc.date.accessioned2020-02-17T09:11:49Z
dc.date.available2020-02-17T09:11:49Z
dc.date.issued2019-12
dc.description.abstractenThe Actuality of theme: a) improving the quality of the definition of emotions in messages written in Ukrainian; b) an effective tool for monitoring and evaluating group / channel topics. The purpose of the dissertation research is to improve sentiment analysis in text data streams. The methods and software developed must meet the following requirements: - the quality of the proposed methods is higher than the existing models; - adaptation of methods to support texts in different languages. This dissertation deals with the texts of users in Ukrainian and English; - visualization of analysis results. To achieve this goal, the following tasks were formulated: a) to analyze existing methods and software solutions; b) justify the choice of sentiment analysis method; c) to develop a mathematical model for the classification of user messages by sentiment; d) develop a method of analysis of the emotional component for streaming data; e) to implement the proposed methods in the form of software. visualize the analysis of the emotional component of the flow over a given period of data and conduct experimental studies to determine the effectiveness of methods and models. Object and object of research. The object of the study is the stream of user messages, represented as a stream of unstructured text in natural language. Research Methods: In this dissertation, natural language processing methods based on rules, dictionaries and existing linguistic resources, and probabilistic thematic models based on a set of machine learning methods have been applied. Scientific Novelty: This paper proposes improvements for methods of determining sentiment in texts written in Ukrainian, presented as a flow of unstructured textual data in natural language, using a machine learning algorithm with a teacher. The practical significance of the obtained results is determined by the fact that the proposed enhancement to the algorithm can be used for applied analysis of the emotional content of the content of channels, groups, etc. in the telegram manager. Relationship with working with scientific programs, plans, topics: work was performed at the Department of Automated Information Processing and Management Systems of the National Technical University of Ukraine “Kyiv Polytechnic Institute. Igor Sikorsky” within the topic “Methods and technologies of high-performance computing and processing of large data sets”. State Registration Number 0117U000924. Publications: Theses of the thesis are published in «ІНФОРМАТИКА ТА ОБЧИСЛЮВАЛЬНА ТЕХНІКА – ІОТ-2019». Testing: The main provisions of the work were reported and discussed at the conference "Informatics and Computer Engineering - IOT-2019".uk
dc.description.abstractukАктуальність теми: а) покращення якості визначення емоцій в повідомленнях написаних українською мовою; б) ефективний інструмент моніторингу і оцінювання тематики груп/каналів. Мета дослідження дисертаційної роботи є покращення сентимент аналізу у текстових потоках даних. Розроблені методи і програмні засоби повинні відповідати таким вимогам: − більш висока в порівнянні з існуючими моделями якість запропонованих методів; − адаптація методів для підтримки текстів різних мов. В даній дисертаційній роботі розглядаються тексти користувачів українською та англійською мовами; − візуалізація результатів аналізу. Для реалізації поставленої мети були сформульовані наступні завдання: а) провести аналіз існуючих методів та програмних рішень; б) обґрунтувати вибір методу сентимент аналізу; в) розробити математичну модель класифікації повідомлень користувачів за сентиментом; г) покращити методи аналізу емоційної складової для потоків даних; д) реалізувати запропоновані методи у вигляді програмного засобу. візуалізувати аналіз емоційної складової потоку за певний період даних та провести експериментальні дослідження з метою визначення ефективності роботи методів і моделей. Об'єкт і предмет дослідження. Об'єктом дослідження є потік повідомлень користувачів, представлені у вигляді потоку неструктурованих текстів на природній мові. Методи дослідження: У даній дисертаційній роботі застосовувалися методи обробки природної мови, засновані на правилах, словниках та існуючих лінгвістичних ресурсах, і ймовірнісних тематичних моделях, заснованих на комплексі методів машинного навчання. Наукова новизна: У даній роботі запропоновані поліпшення для методів визначення сентименту в текстах, написаних українською мовою, представлених у вигляді потоку неструктурованих текстових даних природньою мовою, з використання алгоритму машинного навчання з учителем. Практичне значення отриманих результатів визначається тим, що запропоноване покращення до алгоритму може бути використано для прикладного аналізу емоційної складової контенту текстових каналів, груп в меcенджері telegram і т.д. Зв’язок роботи з науковими програмами, планами, темами: робота виконувалась на кафедрі автоматизованих систем обробки інформації та управління Національного технічного університету України «Київський політехнічний інститут ім. Ігоря Сікорського» в рамках теми «Методи та технології високопродуктивних обчислень та обробки надвеликих масивів даних». Державний реєстраційний номер 0117U000924. Публікації: Наукові положення дисертації опубліковані в тезах конференції «ІНФОРМАТИКА ТА ОБЧИСЛЮВАЛЬНА ТЕХНІКА – ІОТ-2019». Апробація: Основні положення роботи доповідались і обговорювались на конференції «ІНФОРМАТИКА ТА ОБЧИСЛЮВАЛЬНА ТЕХНІКА – ІОТ-2019».uk
dc.format.page109 с.uk
dc.identifier.citationСтепанюк, Є. Ю. Математичне та програмне забезпечення для аналізу потоків текстових даних : магістерська дис. : 121 Інженерія програмного забезпечення / Степанюк Євгеній Юрійович . - Київ, 2019. - 109 с.uk
dc.identifier.urihttps://ela.kpi.ua/handle/123456789/31665
dc.language.isoukuk
dc.publisherКПІ ім. Ігоря Сікорськогоuk
dc.publisher.placeКиївuk
dc.subjectсемантичний аналізuk
dc.subjectпотік данихuk
dc.subjectgradient boosting treeuk
dc.subjectаналіз тональностіuk
dc.subjectsemantic analysisuk
dc.subjectdata flowuk
dc.subjectgradient boosting treeuk
dc.subjecttonalysis analysisuk
dc.subject.udc004uk
dc.titleМатематичне та програмне забезпечення для аналізу потоків текстових данихuk
dc.typeMaster Thesisuk

Файли

Контейнер файлів
Зараз показуємо 1 - 1 з 1
Вантажиться...
Ескіз
Назва:
Stepaniuk_magistr.pdf
Розмір:
2.06 MB
Формат:
Adobe Portable Document Format
Опис:
Ліцензійна угода
Зараз показуємо 1 - 1 з 1
Ескіз недоступний
Назва:
license.txt
Розмір:
9.06 KB
Формат:
Item-specific license agreed upon to submission
Опис: