Математичне та програмне забезпечення виявлення аномалій в потоках текстових даних

dc.contributor.advisorОлійник, Юрій Олександрович
dc.contributor.authorАфанасьєва, Олена Євгенівна
dc.date.accessioned2020-02-13T09:40:26Z
dc.date.available2020-02-13T09:40:26Z
dc.date.issued2019-12
dc.description.abstractenMaster’s dissertation consists 77 pages, 21 images, 33 tables, 39 referring sources. Topicality: Today, the importance of textual data processing is increasing. This is due to the large amount of textual information available through the Internet. Because millions of content characters are generated every day, people do not have the physical ability to process all information. The aim of the study: Improvement of real-time analysis of Ukrainian-language streaming text data and anomaly detection To achieve this goal, the following tasks were formulated: - justify the choice of anomaly detection method; - to create a mathematical model of the chosen method of anomaly detection; - to perform software implementation of the method of anomaly detection; - to investigate the effectiveness of the anomaly detection method. Object of study: streams of Ukrainian-language text data. Subject of research: anomalies detection in streaming text data. Research methods: text mining methods, data mining methods. Scientific novelty: The most significant scientific results of the master's thesis are: - development of an adapted Isolation Forest method for detecting anomalies in Ukrainian-language text data streams. The practical value of the obtained results is determined by the fact that the proposed algorithm. Relationship with working with scientific programs, plans, topics: work was performed at the Department of Automated Information Processing and Management Systems of the National Technical University of Ukraine «Kyiv Polytechnic Institute. Igor Sikorsky» within the topic «Methods and technologies of high-performance computing and processing of large data sets». State Registration Number 0117U000924. Testing: The main points of the work were reported and discussed at the Third All-Ukrainian Scientific and Practical Conference of Young Scientists and Students "Information Systems and Management Technologies". Publications: Scientific provisions of the dissertation published in Afanasieva O.E. Detection of anomalies in text data streams / O.E. Afanasieva, Y.O. Oliynyk // Proceedings of the Third All-Ukrainian Scientific and Practical Conference of Young Scientists and Students "Information Systems and Management Technologies" (ISTU-2019) - Kyiv: NTUU “KPI them. Igor Sikorsky”, November 20-22, 2019.uk
dc.description.abstractukМагістерська дисертація: 77 с., 21 рис, 33 таб., 2 додатки, 39 джерел. Актуальність теми: Сьогодні важливість обробки текстових даних стрімко збільшується. Це пов'язано з великою кількістю текстової інформації, доступної через Інтернет. Оскільки мільйони символів вмісту формуються щодня, людина не має фізичної здатності обробляти всю інформацію. На українському ринку поки відсутні застосунки для виявлення аномалій. Українські медіа, наукова сфера та бізнес все ще не мають інструменту для виявлення аномальних даних в текстах рідною мовою, що робить ці сфери менш розвинутими ніж такі ж сфери, що працюють у англомовному середовищі. Мета дослідження: покращення аналізу україномовних потокових текстових даних та виявлення в них аномалій в режимі реального часу Для реалізації поставленої мети були сформульовані наступні завдання: - обґрунтувати вибір методу виявлення аномалій; - створити математичну модель вибраного методу виявлення аномалій; - виконати програмну реалізацію методу виявлення аномалій; - дослідити ефективність методу виявлення аномалій. Об’єкт дослідження: потоки україномовних текстових даних. Предмет дослідження: виявлення аномалій в потокових текстових даних. Методи дослідження: методи text mining, методи інтелектуального аналізу даних. Наукова новизна: Найбільш суттєвими науковими результатами магістерської дисертації є: - розробка адаптованого методу Isolation Forest виявлення аномалій в потоках текстових даних з підтримкою української мови. Практичне значення отриманих результатів визначається тим, що запропонований модифікований алгоритм Isolation Forest, який підтримує виявлення аномалій в україномовних даних. Зв’язок роботи з науковими програмами, планами, темами: робота виконувалась на кафедрі автоматизованих систем обробки інформації та управління Національного технічного університету України «Київський політехнічний інститут ім. Ігоря Сікорського» в рамках теми «Методи та технології високопродуктивних обчислень та обробки надвеликих масивів даних». Державний реєстраційний номер 0117U000924. Апробація: Основні положення роботи доповідались і обговорювались на ІІІ всеукраїнській науково-практичній конференції молодих вчених та студентів «Інформаційні системи та технології управління» (ІСТУ-2019) Публікації: Наукові положення дисертації опубліковані в Афанасьєва О.Є Виявлення аномалій в потоках текстових даних/ О.Є. Афанасьєва, Ю.О. Олійник // Матеріали ІІІ всеукраїнської науково-практичної конференції молодих вчених та студентів «Інформаційні системи та технології управління» (ІСТУ-2019) – м. Київ: НТУУ «КПІ ім. Ігоря Сікорського», 20-22 листопада 2019 р.uk
dc.format.page75 с.uk
dc.identifier.citationАфанасьєва, О. Є. Математичне та програмне забезпечення виявлення аномалій в потоках текстових даних : магістерська дис. : 121 Інженерія програмного забезпечення / Афанасьєва Олена Євгенівна. - Київ, 2019. - 75 с.uk
dc.identifier.urihttps://ela.kpi.ua/handle/123456789/31567
dc.language.isoukuk
dc.publisherКПІ ім. Ігоря Сікорськогоuk
dc.publisher.placeКиївuk
dc.subjectпотоки данихuk
dc.subjectвиявлення аномалійuk
dc.subjectметод ізоляційного лісуuk
dc.subjectукраїномовні даніuk
dc.subjectтекстові даніuk
dc.subjectобробка текстових данихuk
dc.subjectdata flowsuk
dc.subjectanomaly detectionuk
dc.subjectisolation forest methoduk
dc.subjectukrainomatic datauk
dc.subjecttext datauk
dc.subjectdata mininguk
dc.subject.udc004uk
dc.titleМатематичне та програмне забезпечення виявлення аномалій в потоках текстових данихuk
dc.typeMaster Thesisuk

Файли

Контейнер файлів
Зараз показуємо 1 - 1 з 1
Вантажиться...
Ескіз
Назва:
Afanasieva_magistr.pdf
Розмір:
2.64 MB
Формат:
Adobe Portable Document Format
Опис:
Ліцензійна угода
Зараз показуємо 1 - 1 з 1
Ескіз недоступний
Назва:
license.txt
Розмір:
9.06 KB
Формат:
Item-specific license agreed upon to submission
Опис: