Програмна бібліотека обробки текстової інформації для Apache Spark
Вантажиться...
Дата
2020-12
Науковий керівник
Назва журналу
Номер ISSN
Назва тому
Видавець
КПІ ім. Ігоря Сікорського
Анотація
Магістерська дисертація: 76 с., 14 рис, 25 таб., 17 джерел.
Актуальність теми: відсутність інструментів для обробки великих об'ємів текстових даних, що підтримують українську та російську мови.
Мета дослідження:синтез програмного рішення для обробки великих об'ємів текстових даних та підтримкою обробки українськомовних та російськомовних текстів.
Об’єкт дослідження: текстові дані.
Предмет дослідження: обробка текстових даних для української та російської мов з підтримкою розподілених обчислень.
Методи дослідження: у даній дисертаційній роботі застосовувалися методи обробки природної мови, засновані на правилах, словниках та існуючих лінгвістичних ресурсах.
Наукова новизна: створено програмну бібліотеку для технології ApacheSpark на мові Python, яка на відміну від існуючих містить функції реферування та підтримку обробки українськомовних текстів.
Практичне значення отриманих результатів визначається тим, що розроблена програмна бібліотека дозволить автоматизувати обробку текстових даних.
Зв’язок роботи з науковими програмами, планами, темами: робота виконувалась на кафедрі автоматизованих систем обробки інформації та управління Національного технічного університету України «Київський політехнічний інститут ім. Ігоря Сікорського» в рамках теми «Програмна бібліотека обробки текстової інформації для ApacheSpark». Державний реєстраційний номер0117U000924.
Апробація: Основні положення роботи доповідались і обговорювались на ІІІ всеукраїнській науково-практичній конференції молодих вчених та студентів «Інформаційні системи та технології управління» (ІСТУ-2020)
Публікації: Наукові положення дисертації опубліковані в тезах конференції «ІНФОРМАТИКА ТА ОБЧИСЛЮВАЛЬНА ТЕХНІКА – ІОТ-2020»
Опис
Ключові слова
обробка природньої мови, лематизація, векторизація, реферування, текстові потоки даних, natural text processing, lematization, vectorization, summarization, text stream
Бібліографічний опис
Якимчук, О. А. Програмна бібліотека обробки текстової інформації для Apache Spark : магістерська дис. : 121 Інженерія програмного забезпечення / Якимчук Олександр Анатолійович. – Київ, 2020. – 76 с.