Програмне забезпечення обробки природної мови для потоків текстових даних в режимі реального часу

Федорович, Ілля Андрійович

Програмне забезпечення обробки природної мови для потоків текстових даних в режимі реального часу

dc.contributor.advisor	Олійник, Юрій Олександрович
dc.contributor.author	Федорович, Ілля Андрійович
dc.date.accessioned	2023-03-16T08:37:59Z
dc.date.available	2023-03-16T08:37:59Z
dc.date.issued	2022-12
dc.description.abstract	Розмір пояснювальної записки – 94 аркуші, містить 17 ілюстрацій, 25 таблиць, 5 додатків, 29 посилань на джерела. Актуальність теми. У роботі розглянуто проблему в області обробки потоків текстових даних, показано основні особливості наявних платформ обробки потоків текстових даних, їх переваги та недоліки. Виявлено потребу в удосконаленні методу обробки природної мови для потоків текстових даних. Мета дослідження. Основною метою є покращення наявних інструментів обробки природної мови для забезпечення підтримки україномовних текстів та розробка програмного забезпечення, здатного проводити аналіз потоків текстових даних в реальному часі. Об’єкт дослідження: потоки текстових даних. Предмет дослідження: методи та засоби створення програмного забезпечення для обробки природної мови для потоків текстових даних в режимі реального часу. Для реалізації поставленої мети сформульовані наступні завдання: − порівняльний аналіз наявних рішень для обробки потоків текстових даних в реальному часі; − формулювання структурних та технічних особливостей джерел потоків текстових даних; − підбір та підготовка україномовного словника; − впровадження наявних рішень для забезпечення підтримки морфологічного аналізу; − розробка програмного забезпечення обробки потоків текстових даних із використанням морфологічного аналізатора в режимі реального часу; − оцінка ефективності запропонованого рішення. Наукова новизна результатів магістерської дисертації полягає в удосконаленні методу обробки природної мови текстових даних за рахунок впровадження підтримки потокової обробки у режимі реального часу, що підвищує швидкодію обробки та дозволяє виконувати розподілені обчислення, а також покращенні рівня підтримки обробки україномовних текстів за рахунок інтеграції словника ВЕСУМ. Практичне значення отриманих результатів полягає в тому, що запропоновано архітектуру програмного забезпечення обробки потоків текстових даних в реальному часі із використанням Apache Spark та бібліотеки потокової обробки Spark Streaming з зберіганням результатів в пошуковий сервер Elasticsearch із використанням рушія візуалізації Kibana, а також розроблено програмне забезпечення з використанням запропонованої архітектури для аналізу потоків україномовних текстових даних. Розроблене програмне забезпечення може бути використане в подальшому для обробки потоків текстових даних з україномовних джерел, а також для виконання ширшого спектру задач NLP (наприклад, сентимент-аналіз або інтелектуальних аналіз текстових даних). Зв’язок з науковими програмами, планами, темами. Робота виконувалась на кафедрі інформатики та програмної інженерії Національного технічного університету України «Київський політехнічний інститут ім. Ігоря Сікорського» в рамках теми «Методи та технології високопродуктивних обчислень та обробки надвеликих масивів даних». Державний реєстраційний номер 0117U000924. Апробація. Наукові положення дисертації пройшли апробацію на III Всеукраїнській науково-практичній конференції молодих вчених та студентів «Інженерія програмного забезпечення і передові інформаційні технології» (SoftTech-2022 осінь) – м. Київ. Публікації. Наукові положення дисертації опубліковані в: 1) Федорович І.А. Моделі обробки потоків текстових даних в рушії Apache Spark Structured Streaming / І.А. Федорович, Ю.О. Олійник // Матеріали III Всеукраїнської науково-практичної конференції молодих вчених та студентів «Інженерія програмного забезпечення і передові інформаційні технології» (SoftTech-2022 осінь) – м. Київ: НТУУ «КПІ ім. Ігоря Сікорського», 23-25 листопада 2022 р.	uk
dc.description.abstracten	Explanatory note size – 94 pages, contains 17 illustrations, 25 tables, 5 applications, 29 references. Topicality. Examines the problem in the field of text data stream processing, shows the main features of existing text data stream processing platforms, their advantages and disadvantages. The need to improve the natural language processing method for text data streams has been identified. The aim of the study. The main goal is to improve existing natural language processing tools to provide support for the Ukrainian language and to develop software capable of analyzing text data streams in real time. The object of research: methods of text data stream processing. The subject of research: methods and means of creating software for natural language processing for text data streams in real time. To achieve this goal, the following tasks were formulated: − comparative analysis of available solutions for processing text data streams in real time; − formulation of structural and technical features of sources of text data flows; − selection and preparation of a Ukrainian dictionary; − implementation of existing solutions to support morphological analysis; − development of software for processing text data streams using a morphological analyzer in real time; − assessment of the effectiveness of the proposed solution. The scientific novelty of the results of the master's dissertation is is that the improvement of the natural language processing method of text data due to the introduction of real-time stream processing support, which increases the speed of processing and allows to perform distributed calculations, as well as the improvement of the level of support for the Ukrainian language due to the integration of the WESUM dictionary. The practical value of the obtained results is that the software architecture for real-time processing of text data streams using Apache Spark and the Spark Streaming library with storage of results in the Elasticsearch search server using the Kibana visualization engine is proposed, and software is developed using of the proposed architecture for the analysis of streams of Ukrainian-language textual data. The developed software can be used in the future to process streams of text data from Ukrainian-language sources, as well as to perform a wider range of NLP tasks (for example, sentiment analysis or intellectual analysis of text data). Relationship with working with scientific programs, plans, topics. The work was performed at the Department of Informatics and Software Engineering of the National Technical University of Ukraine "Igor Sikorsky Kyiv Polytechnic Institute” in the framework of the topic “Methods and technologies of high-performance computing and big data processing”. State registration number 0117U000924. Approbation. The scientific provisions of the dissertation were tested at the Third All-Ukrainian Scientific and Practical Conference of Young Scientists and Students "Software Engineering and Advanced Information Technologies" (SoftTech- 2022 autumn) - Kyiv. Publications. The scientific provisions of the dissertation were published in: 1) Fedorovych I.A. Processing models of text data streams in the Apache Spark Structured Streaming engine / I.A. Fedorovych, Yu.O. Oliinyk // Materials of the III All-Ukrainian scientific and practical conference of young scientists and students "Software engineering and advanced information technologies" (SoftTech-2022 autumn) - Kyiv: NTUU "KPI them. Igor Sikorsky", November 23-25, 2022.	uk
dc.description.abstractother	Explanatory note size – 94 pages, contains 17 illustrations, 25 tables, 5 applications, 29 references. Topicality. Examines the problem in the field of text data stream processing, shows the main features of existing text data stream processing platforms, their advantages and disadvantages. The need to improve the natural language processing method for text data streams has been identified. The aim of the study. The main goal is to improve existing natural language processing tools to provide support for the Ukrainian language and to develop software capable of analyzing text data streams in real time. The object of research: methods of text data stream processing. The subject of research: methods and means of creating software for natural language processing for text data streams in real time. To achieve this goal, the following tasks were formulated: − comparative analysis of available solutions for processing text data streams in real time; − formulation of structural and technical features of sources of text data flows; − selection and preparation of a Ukrainian dictionary; − implementation of existing solutions to support morphological analysis; − development of software for processing text data streams using a morphological analyzer in real time; − assessment of the effectiveness of the proposed solution. The scientific novelty of the results of the master's dissertation is is that the improvement of the natural language processing method of text data due to the introduction of real-time stream processing support, which increases the speed of processing and allows to perform distributed calculations, as well as the improvement of the level of support for the Ukrainian language due to the integration of the WESUM dictionary. The practical value of the obtained results is that the software architecture for real-time processing of text data streams using Apache Spark and the Spark Streaming library with storage of results in the Elasticsearch search server using the Kibana visualization engine is proposed, and software is developed using of the proposed architecture for the analysis of streams of Ukrainian-language textual data. The developed software can be used in the future to process streams of text data from Ukrainian-language sources, as well as to perform a wider range of NLP tasks (for example, sentiment analysis or intellectual analysis of text data). Relationship with working with scientific programs, plans, topics. The work was performed at the Department of Informatics and Software Engineering of the National Technical University of Ukraine "Igor Sikorsky Kyiv Polytechnic Institute” in the framework of the topic “Methods and technologies of high-performance computing and big data processing”. State registration number 0117U000924. Approbation. The scientific provisions of the dissertation were tested at the Third All-Ukrainian Scientific and Practical Conference of Young Scientists and Students "Software Engineering and Advanced Information Technologies" (SoftTech- 2022 autumn) - Kyiv. Publications. The scientific provisions of the dissertation were published in: 1) Fedorovych I.A. Processing models of text data streams in the Apache Spark Structured Streaming engine / I.A. Fedorovych, Yu.O. Oliinyk // Materials of the III All-Ukrainian scientific and practical conference of young scientists and students "Software engineering and advanced information technologies" (SoftTech-2022 autumn) - Kyiv: NTUU "KPI them. Igor Sikorsky", November 23-25, 2022.	uk
dc.description.abstractuk	Розмір пояснювальної записки – 94 аркуші, містить 17 ілюстрацій, 25 таблиць, 5 додатків, 29 посилань на джерела. Актуальність теми. У роботі розглянуто проблему в області обробки потоків текстових даних, показано основні особливості наявних платформ обробки потоків текстових даних, їх переваги та недоліки. Виявлено потребу в удосконаленні методу обробки природної мови для потоків текстових даних. Мета дослідження. Основною метою є покращення наявних інструментів обробки природної мови для забезпечення підтримки україномовних текстів та розробка програмного забезпечення, здатного проводити аналіз потоків текстових даних в реальному часі. Об’єкт дослідження: потоки текстових даних. Предмет дослідження: методи та засоби створення програмного забезпечення для обробки природної мови для потоків текстових даних в режимі реального часу. Для реалізації поставленої мети сформульовані наступні завдання: − порівняльний аналіз наявних рішень для обробки потоків текстових даних в реальному часі; − формулювання структурних та технічних особливостей джерел потоків текстових даних; − підбір та підготовка україномовного словника; − впровадження наявних рішень для забезпечення підтримки морфологічного аналізу; − розробка програмного забезпечення обробки потоків текстових даних із використанням морфологічного аналізатора в режимі реального часу; − оцінка ефективності запропонованого рішення. Наукова новизна результатів магістерської дисертації полягає в удосконаленні методу обробки природної мови текстових даних за рахунок впровадження підтримки потокової обробки у режимі реального часу, що підвищує швидкодію обробки та дозволяє виконувати розподілені обчислення, а також покращенні рівня підтримки обробки україномовних текстів за рахунок інтеграції словника ВЕСУМ. Практичне значення отриманих результатів полягає в тому, що запропоновано архітектуру програмного забезпечення обробки потоків текстових даних в реальному часі із використанням Apache Spark та бібліотеки потокової обробки Spark Streaming з зберіганням результатів в пошуковий сервер Elasticsearch із використанням рушія візуалізації Kibana, а також розроблено програмне забезпечення з використанням запропонованої архітектури для аналізу потоків україномовних текстових даних. Розроблене програмне забезпечення може бути використане в подальшому для обробки потоків текстових даних з україномовних джерел, а також для виконання ширшого спектру задач NLP (наприклад, сентимент-аналіз або інтелектуальних аналіз текстових даних). Зв’язок з науковими програмами, планами, темами. Робота виконувалась на кафедрі інформатики та програмної інженерії Національного технічного університету України «Київський політехнічний інститут ім. Ігоря Сікорського» в рамках теми «Методи та технології високопродуктивних обчислень та обробки надвеликих масивів даних». Державний реєстраційний номер 0117U000924. Апробація. Наукові положення дисертації пройшли апробацію на III Всеукраїнській науково-практичній конференції молодих вчених та студентів «Інженерія програмного забезпечення і передові інформаційні технології» (SoftTech-2022 осінь) – м. Київ. Публікації. Наукові положення дисертації опубліковані в: 1) Федорович І.А. Моделі обробки потоків текстових даних в рушії Apache Spark Structured Streaming / І.А. Федорович, Ю.О. Олійник // Матеріали III Всеукраїнської науково-практичної конференції молодих вчених та студентів «Інженерія програмного забезпечення і передові інформаційні технології» (SoftTech-2022 осінь) – м. Київ: НТУУ «КПІ ім. Ігоря Сікорського», 23-25 листопада 2022 р.	uk
dc.format.extent	94 с.	uk
dc.format.page	94 с.	uk
dc.identifier.citation	Федорович, І. А. Програмне забезпечення обробки природної мови для потоків текстових даних в режимі реального часу : магістерська дис. : 121 Інженерія програмного забезпечення / Федорович Ілля Андрійович. - Київ, 2022. - 94 с.	uk
dc.identifier.uri	https://ela.kpi.ua/handle/123456789/53732
dc.language.iso	uk	uk
dc.publisher	КПІ ім. Ігоря Сікорського	uk
dc.publisher.place	Київ	uk
dc.subject	обробка природної мови	uk
dc.subject	обробка потоків тектових даних	uk
dc.subject	обробка потоків в реальному часі	uk
dc.subject	Apache Spark	uk
dc.subject	Spark structured streaming	uk
dc.subject	natural language processing	uk
dc.subject	text data stream processing	uk
dc.subject	real-time stream processing	uk
dc.subject.udc	004.912	uk
dc.title	Програмне забезпечення обробки природної мови для потоків текстових даних в режимі реального часу	uk
dc.title.alternative	Real-time Natural Language Processing Software for Text Data Streams	uk
dc.type	Master Thesis	uk

Файли

Контейнер файлів

Зараз показуємо 1 - 1 з 1

Назва:: Fedorovych_magistr.pdf
Розмір:: 3.51 MB
Формат:: Adobe Portable Document Format
Опис:

Завантажити

Ліцензійна угода

Зараз показуємо 1 - 1 з 1

Назва:: license.txt
Розмір:: 1.71 KB
Формат:: Item-specific license agreed upon to submission
Опис:

Завантажити

Зібрання

Магістерські роботи (ІПІ)
Магістерські роботи