Програмна бібліотека обробки текстової інформації для Apache Spark

dc.contributor.advisorОлійник, Юрій Олександрович
dc.contributor.authorЯкимчук, Олександр Анатолійович
dc.date.accessioned2021-03-15T15:52:58Z
dc.date.available2021-03-15T15:52:58Z
dc.date.issued2020-12
dc.description.abstractenMaster’s dissertation consists 76 pages, 14 images, 25 tables, 17 referring sources. Topicality: lack of tools for processing large amounts of text data that support Ukrainian and Russian. The purpose of the dissertation research is synthesis of a software solution for processing large volumes of text data and supporting the processing of Ukrainian and Russian texts. Object of study: text data. Subject of research: text data processing for Ukrainian and Russian languages with support for distributed computing. Research Methods: In this dissertation, natural language processing methods based on rules, dictionaries and existing linguistic resources. Scientific novelty: created software library for Apache Spark technology in, which, unlike the existing ones, contains sumarize functions and support for processing Ukrainian texts. The practica lvalue of the obtained results is determined by the fact that the developed software library will automate the processing of text data. Relationship with working with scientific programs, plans, topics: work was performed at the Department of Automated Information Processing and Management Systems of the National Technical University of Ukraine «Igor Sikorsky Kyiv Polytechnic Institute» within the topic «Natural text processings of tware library for Apache Spark». State Registration Number 0117U000924. Testing: The main provisions of the work were reported and discussed at the conference "Informatics and Computer Engineering - IOT-2020". Publications: Theses of the thesis are published in «Informatics and Computer Engineering - IOT-2020».uk
dc.description.abstractukМагістерська дисертація: 76 с., 14 рис, 25 таб., 17 джерел. Актуальність теми: відсутність інструментів для обробки великих об'ємів текстових даних, що підтримують українську та російську мови. Мета дослідження:синтез програмного рішення для обробки великих об'ємів текстових даних та підтримкою обробки українськомовних та російськомовних текстів. Об’єкт дослідження: текстові дані. Предмет дослідження: обробка текстових даних для української та російської мов з підтримкою розподілених обчислень. Методи дослідження: у даній дисертаційній роботі застосовувалися методи обробки природної мови, засновані на правилах, словниках та існуючих лінгвістичних ресурсах. Наукова новизна: створено програмну бібліотеку для технології ApacheSpark на мові Python, яка на відміну від існуючих містить функції реферування та підтримку обробки українськомовних текстів. Практичне значення отриманих результатів визначається тим, що розроблена програмна бібліотека дозволить автоматизувати обробку текстових даних. Зв’язок роботи з науковими програмами, планами, темами: робота виконувалась на кафедрі автоматизованих систем обробки інформації та управління Національного технічного університету України «Київський політехнічний інститут ім. Ігоря Сікорського» в рамках теми «Програмна бібліотека обробки текстової інформації для ApacheSpark». Державний реєстраційний номер0117U000924. Апробація: Основні положення роботи доповідались і обговорювались на ІІІ всеукраїнській науково-практичній конференції молодих вчених та студентів «Інформаційні системи та технології управління» (ІСТУ-2020) Публікації: Наукові положення дисертації опубліковані в тезах конференції «ІНФОРМАТИКА ТА ОБЧИСЛЮВАЛЬНА ТЕХНІКА – ІОТ-2020»uk
dc.format.page76 с.uk
dc.identifier.citationЯкимчук, О. А. Програмна бібліотека обробки текстової інформації для Apache Spark : магістерська дис. : 121 Інженерія програмного забезпечення / Якимчук Олександр Анатолійович. – Київ, 2020. – 76 с.uk
dc.identifier.urihttps://ela.kpi.ua/handle/123456789/39982
dc.language.isoukuk
dc.publisherКПІ ім. Ігоря Сікорськогоuk
dc.publisher.placeКиївuk
dc.subjectобробка природньої мовиuk
dc.subjectлематизаціяuk
dc.subjectвекторизаціяuk
dc.subjectреферуванняuk
dc.subjectтекстові потоки данихuk
dc.subjectnatural text processinguk
dc.subjectlematizationuk
dc.subjectvectorizationuk
dc.subjectsummarizationuk
dc.subjecttext streamuk
dc.subject.udc004.912uk
dc.titleПрограмна бібліотека обробки текстової інформації для Apache Sparkuk
dc.typeMaster Thesisuk

Файли

Контейнер файлів
Зараз показуємо 1 - 1 з 1
Вантажиться...
Ескіз
Назва:
Yakymchuk_magistr.pdf
Розмір:
2.23 MB
Формат:
Adobe Portable Document Format
Опис:
Ліцензійна угода
Зараз показуємо 1 - 1 з 1
Ескіз недоступний
Назва:
license.txt
Розмір:
9.01 KB
Формат:
Item-specific license agreed upon to submission
Опис: