Програмне забезпечення обробки природної мови для потоків текстових даних в режимі реального часу

dc.contributor.advisorОлійник, Юрій Олександрович
dc.contributor.authorФедорович, Ілля Андрійович
dc.date.accessioned2023-03-16T08:37:59Z
dc.date.available2023-03-16T08:37:59Z
dc.date.issued2022-12
dc.description.abstractРозмір пояснювальної записки – 94 аркуші, містить 17 ілюстрацій, 25 таблиць, 5 додатків, 29 посилань на джерела. Актуальність теми. У роботі розглянуто проблему в області обробки потоків текстових даних, показано основні особливості наявних платформ обробки потоків текстових даних, їх переваги та недоліки. Виявлено потребу в удосконаленні методу обробки природної мови для потоків текстових даних. Мета дослідження. Основною метою є покращення наявних інструментів обробки природної мови для забезпечення підтримки україномовних текстів та розробка програмного забезпечення, здатного проводити аналіз потоків текстових даних в реальному часі. Об’єкт дослідження: потоки текстових даних. Предмет дослідження: методи та засоби створення програмного забезпечення для обробки природної мови для потоків текстових даних в режимі реального часу. Для реалізації поставленої мети сформульовані наступні завдання: − порівняльний аналіз наявних рішень для обробки потоків текстових даних в реальному часі; − формулювання структурних та технічних особливостей джерел потоків текстових даних; − підбір та підготовка україномовного словника; − впровадження наявних рішень для забезпечення підтримки морфологічного аналізу; − розробка програмного забезпечення обробки потоків текстових даних із використанням морфологічного аналізатора в режимі реального часу; − оцінка ефективності запропонованого рішення. Наукова новизна результатів магістерської дисертації полягає в удосконаленні методу обробки природної мови текстових даних за рахунок впровадження підтримки потокової обробки у режимі реального часу, що підвищує швидкодію обробки та дозволяє виконувати розподілені обчислення, а також покращенні рівня підтримки обробки україномовних текстів за рахунок інтеграції словника ВЕСУМ. Практичне значення отриманих результатів полягає в тому, що запропоновано архітектуру програмного забезпечення обробки потоків текстових даних в реальному часі із використанням Apache Spark та бібліотеки потокової обробки Spark Streaming з зберіганням результатів в пошуковий сервер Elasticsearch із використанням рушія візуалізації Kibana, а також розроблено програмне забезпечення з використанням запропонованої архітектури для аналізу потоків україномовних текстових даних. Розроблене програмне забезпечення може бути використане в подальшому для обробки потоків текстових даних з україномовних джерел, а також для виконання ширшого спектру задач NLP (наприклад, сентимент-аналіз або інтелектуальних аналіз текстових даних). Зв’язок з науковими програмами, планами, темами. Робота виконувалась на кафедрі інформатики та програмної інженерії Національного технічного університету України «Київський політехнічний інститут ім. Ігоря Сікорського» в рамках теми «Методи та технології високопродуктивних обчислень та обробки надвеликих масивів даних». Державний реєстраційний номер 0117U000924. Апробація. Наукові положення дисертації пройшли апробацію на III Всеукраїнській науково-практичній конференції молодих вчених та студентів «Інженерія програмного забезпечення і передові інформаційні технології» (SoftTech-2022 осінь) – м. Київ. Публікації. Наукові положення дисертації опубліковані в: 1) Федорович І.А. Моделі обробки потоків текстових даних в рушії Apache Spark Structured Streaming / І.А. Федорович, Ю.О. Олійник // Матеріали III Всеукраїнської науково-практичної конференції молодих вчених та студентів «Інженерія програмного забезпечення і передові інформаційні технології» (SoftTech-2022 осінь) – м. Київ: НТУУ «КПІ ім. Ігоря Сікорського», 23-25 листопада 2022 р.uk
dc.description.abstractenExplanatory note size – 94 pages, contains 17 illustrations, 25 tables, 5 applications, 29 references. Topicality. Examines the problem in the field of text data stream processing, shows the main features of existing text data stream processing platforms, their advantages and disadvantages. The need to improve the natural language processing method for text data streams has been identified. The aim of the study. The main goal is to improve existing natural language processing tools to provide support for the Ukrainian language and to develop software capable of analyzing text data streams in real time. The object of research: methods of text data stream processing. The subject of research: methods and means of creating software for natural language processing for text data streams in real time. To achieve this goal, the following tasks were formulated: − comparative analysis of available solutions for processing text data streams in real time; − formulation of structural and technical features of sources of text data flows; − selection and preparation of a Ukrainian dictionary; − implementation of existing solutions to support morphological analysis; − development of software for processing text data streams using a morphological analyzer in real time; − assessment of the effectiveness of the proposed solution. The scientific novelty of the results of the master's dissertation is is that the improvement of the natural language processing method of text data due to the introduction of real-time stream processing support, which increases the speed of processing and allows to perform distributed calculations, as well as the improvement of the level of support for the Ukrainian language due to the integration of the WESUM dictionary. The practical value of the obtained results is that the software architecture for real-time processing of text data streams using Apache Spark and the Spark Streaming library with storage of results in the Elasticsearch search server using the Kibana visualization engine is proposed, and software is developed using of the proposed architecture for the analysis of streams of Ukrainian-language textual data. The developed software can be used in the future to process streams of text data from Ukrainian-language sources, as well as to perform a wider range of NLP tasks (for example, sentiment analysis or intellectual analysis of text data). Relationship with working with scientific programs, plans, topics. The work was performed at the Department of Informatics and Software Engineering of the National Technical University of Ukraine "Igor Sikorsky Kyiv Polytechnic Institute” in the framework of the topic “Methods and technologies of high-performance computing and big data processing”. State registration number 0117U000924. Approbation. The scientific provisions of the dissertation were tested at the Third All-Ukrainian Scientific and Practical Conference of Young Scientists and Students "Software Engineering and Advanced Information Technologies" (SoftTech- 2022 autumn) - Kyiv. Publications. The scientific provisions of the dissertation were published in: 1) Fedorovych I.A. Processing models of text data streams in the Apache Spark Structured Streaming engine / I.A. Fedorovych, Yu.O. Oliinyk // Materials of the III All-Ukrainian scientific and practical conference of young scientists and students "Software engineering and advanced information technologies" (SoftTech-2022 autumn) - Kyiv: NTUU "KPI them. Igor Sikorsky", November 23-25, 2022.uk
dc.description.abstractotherExplanatory note size – 94 pages, contains 17 illustrations, 25 tables, 5 applications, 29 references. Topicality. Examines the problem in the field of text data stream processing, shows the main features of existing text data stream processing platforms, their advantages and disadvantages. The need to improve the natural language processing method for text data streams has been identified. The aim of the study. The main goal is to improve existing natural language processing tools to provide support for the Ukrainian language and to develop software capable of analyzing text data streams in real time. The object of research: methods of text data stream processing. The subject of research: methods and means of creating software for natural language processing for text data streams in real time. To achieve this goal, the following tasks were formulated: − comparative analysis of available solutions for processing text data streams in real time; − formulation of structural and technical features of sources of text data flows; − selection and preparation of a Ukrainian dictionary; − implementation of existing solutions to support morphological analysis; − development of software for processing text data streams using a morphological analyzer in real time; − assessment of the effectiveness of the proposed solution. The scientific novelty of the results of the master's dissertation is is that the improvement of the natural language processing method of text data due to the introduction of real-time stream processing support, which increases the speed of processing and allows to perform distributed calculations, as well as the improvement of the level of support for the Ukrainian language due to the integration of the WESUM dictionary. The practical value of the obtained results is that the software architecture for real-time processing of text data streams using Apache Spark and the Spark Streaming library with storage of results in the Elasticsearch search server using the Kibana visualization engine is proposed, and software is developed using of the proposed architecture for the analysis of streams of Ukrainian-language textual data. The developed software can be used in the future to process streams of text data from Ukrainian-language sources, as well as to perform a wider range of NLP tasks (for example, sentiment analysis or intellectual analysis of text data). Relationship with working with scientific programs, plans, topics. The work was performed at the Department of Informatics and Software Engineering of the National Technical University of Ukraine "Igor Sikorsky Kyiv Polytechnic Institute” in the framework of the topic “Methods and technologies of high-performance computing and big data processing”. State registration number 0117U000924. Approbation. The scientific provisions of the dissertation were tested at the Third All-Ukrainian Scientific and Practical Conference of Young Scientists and Students "Software Engineering and Advanced Information Technologies" (SoftTech- 2022 autumn) - Kyiv. Publications. The scientific provisions of the dissertation were published in: 1) Fedorovych I.A. Processing models of text data streams in the Apache Spark Structured Streaming engine / I.A. Fedorovych, Yu.O. Oliinyk // Materials of the III All-Ukrainian scientific and practical conference of young scientists and students "Software engineering and advanced information technologies" (SoftTech-2022 autumn) - Kyiv: NTUU "KPI them. Igor Sikorsky", November 23-25, 2022.uk
dc.description.abstractukРозмір пояснювальної записки – 94 аркуші, містить 17 ілюстрацій, 25 таблиць, 5 додатків, 29 посилань на джерела. Актуальність теми. У роботі розглянуто проблему в області обробки потоків текстових даних, показано основні особливості наявних платформ обробки потоків текстових даних, їх переваги та недоліки. Виявлено потребу в удосконаленні методу обробки природної мови для потоків текстових даних. Мета дослідження. Основною метою є покращення наявних інструментів обробки природної мови для забезпечення підтримки україномовних текстів та розробка програмного забезпечення, здатного проводити аналіз потоків текстових даних в реальному часі. Об’єкт дослідження: потоки текстових даних. Предмет дослідження: методи та засоби створення програмного забезпечення для обробки природної мови для потоків текстових даних в режимі реального часу. Для реалізації поставленої мети сформульовані наступні завдання: − порівняльний аналіз наявних рішень для обробки потоків текстових даних в реальному часі; − формулювання структурних та технічних особливостей джерел потоків текстових даних; − підбір та підготовка україномовного словника; − впровадження наявних рішень для забезпечення підтримки морфологічного аналізу; − розробка програмного забезпечення обробки потоків текстових даних із використанням морфологічного аналізатора в режимі реального часу; − оцінка ефективності запропонованого рішення. Наукова новизна результатів магістерської дисертації полягає в удосконаленні методу обробки природної мови текстових даних за рахунок впровадження підтримки потокової обробки у режимі реального часу, що підвищує швидкодію обробки та дозволяє виконувати розподілені обчислення, а також покращенні рівня підтримки обробки україномовних текстів за рахунок інтеграції словника ВЕСУМ. Практичне значення отриманих результатів полягає в тому, що запропоновано архітектуру програмного забезпечення обробки потоків текстових даних в реальному часі із використанням Apache Spark та бібліотеки потокової обробки Spark Streaming з зберіганням результатів в пошуковий сервер Elasticsearch із використанням рушія візуалізації Kibana, а також розроблено програмне забезпечення з використанням запропонованої архітектури для аналізу потоків україномовних текстових даних. Розроблене програмне забезпечення може бути використане в подальшому для обробки потоків текстових даних з україномовних джерел, а також для виконання ширшого спектру задач NLP (наприклад, сентимент-аналіз або інтелектуальних аналіз текстових даних). Зв’язок з науковими програмами, планами, темами. Робота виконувалась на кафедрі інформатики та програмної інженерії Національного технічного університету України «Київський політехнічний інститут ім. Ігоря Сікорського» в рамках теми «Методи та технології високопродуктивних обчислень та обробки надвеликих масивів даних». Державний реєстраційний номер 0117U000924. Апробація. Наукові положення дисертації пройшли апробацію на III Всеукраїнській науково-практичній конференції молодих вчених та студентів «Інженерія програмного забезпечення і передові інформаційні технології» (SoftTech-2022 осінь) – м. Київ. Публікації. Наукові положення дисертації опубліковані в: 1) Федорович І.А. Моделі обробки потоків текстових даних в рушії Apache Spark Structured Streaming / І.А. Федорович, Ю.О. Олійник // Матеріали III Всеукраїнської науково-практичної конференції молодих вчених та студентів «Інженерія програмного забезпечення і передові інформаційні технології» (SoftTech-2022 осінь) – м. Київ: НТУУ «КПІ ім. Ігоря Сікорського», 23-25 листопада 2022 р.uk
dc.format.extent94 с.uk
dc.format.page94 с.uk
dc.identifier.citationФедорович, І. А. Програмне забезпечення обробки природної мови для потоків текстових даних в режимі реального часу : магістерська дис. : 121 Інженерія програмного забезпечення / Федорович Ілля Андрійович. - Київ, 2022. - 94 с.uk
dc.identifier.urihttps://ela.kpi.ua/handle/123456789/53732
dc.language.isoukuk
dc.publisherКПІ ім. Ігоря Сікорськогоuk
dc.publisher.placeКиївuk
dc.subjectобробка природної мовиuk
dc.subjectобробка потоків тектових данихuk
dc.subjectобробка потоків в реальному часіuk
dc.subjectApache Sparkuk
dc.subjectSpark structured streaminguk
dc.subjectnatural language processinguk
dc.subjecttext data stream processinguk
dc.subjectreal-time stream processinguk
dc.subject.udc004.912uk
dc.titleПрограмне забезпечення обробки природної мови для потоків текстових даних в режимі реального часуuk
dc.title.alternativeReal-time Natural Language Processing Software for Text Data Streamsuk
dc.typeMaster Thesisuk

Файли

Контейнер файлів
Зараз показуємо 1 - 1 з 1
Вантажиться...
Ескіз
Назва:
Fedorovych_magistr.pdf
Розмір:
3.51 MB
Формат:
Adobe Portable Document Format
Опис:
Ліцензійна угода
Зараз показуємо 1 - 1 з 1
Ескіз недоступний
Назва:
license.txt
Розмір:
1.71 KB
Формат:
Item-specific license agreed upon to submission
Опис: