Математичне та програмне забезпечення виявлення аномалій в потоках текстових даних
dc.contributor.advisor | Олійник, Юрій Олександрович | |
dc.contributor.author | Афанасьєва, Олена Євгенівна | |
dc.date.accessioned | 2020-02-13T09:40:26Z | |
dc.date.available | 2020-02-13T09:40:26Z | |
dc.date.issued | 2019-12 | |
dc.description.abstracten | Master’s dissertation consists 77 pages, 21 images, 33 tables, 39 referring sources. Topicality: Today, the importance of textual data processing is increasing. This is due to the large amount of textual information available through the Internet. Because millions of content characters are generated every day, people do not have the physical ability to process all information. The aim of the study: Improvement of real-time analysis of Ukrainian-language streaming text data and anomaly detection To achieve this goal, the following tasks were formulated: - justify the choice of anomaly detection method; - to create a mathematical model of the chosen method of anomaly detection; - to perform software implementation of the method of anomaly detection; - to investigate the effectiveness of the anomaly detection method. Object of study: streams of Ukrainian-language text data. Subject of research: anomalies detection in streaming text data. Research methods: text mining methods, data mining methods. Scientific novelty: The most significant scientific results of the master's thesis are: - development of an adapted Isolation Forest method for detecting anomalies in Ukrainian-language text data streams. The practical value of the obtained results is determined by the fact that the proposed algorithm. Relationship with working with scientific programs, plans, topics: work was performed at the Department of Automated Information Processing and Management Systems of the National Technical University of Ukraine «Kyiv Polytechnic Institute. Igor Sikorsky» within the topic «Methods and technologies of high-performance computing and processing of large data sets». State Registration Number 0117U000924. Testing: The main points of the work were reported and discussed at the Third All-Ukrainian Scientific and Practical Conference of Young Scientists and Students "Information Systems and Management Technologies". Publications: Scientific provisions of the dissertation published in Afanasieva O.E. Detection of anomalies in text data streams / O.E. Afanasieva, Y.O. Oliynyk // Proceedings of the Third All-Ukrainian Scientific and Practical Conference of Young Scientists and Students "Information Systems and Management Technologies" (ISTU-2019) - Kyiv: NTUU “KPI them. Igor Sikorsky”, November 20-22, 2019. | uk |
dc.description.abstractuk | Магістерська дисертація: 77 с., 21 рис, 33 таб., 2 додатки, 39 джерел. Актуальність теми: Сьогодні важливість обробки текстових даних стрімко збільшується. Це пов'язано з великою кількістю текстової інформації, доступної через Інтернет. Оскільки мільйони символів вмісту формуються щодня, людина не має фізичної здатності обробляти всю інформацію. На українському ринку поки відсутні застосунки для виявлення аномалій. Українські медіа, наукова сфера та бізнес все ще не мають інструменту для виявлення аномальних даних в текстах рідною мовою, що робить ці сфери менш розвинутими ніж такі ж сфери, що працюють у англомовному середовищі. Мета дослідження: покращення аналізу україномовних потокових текстових даних та виявлення в них аномалій в режимі реального часу Для реалізації поставленої мети були сформульовані наступні завдання: - обґрунтувати вибір методу виявлення аномалій; - створити математичну модель вибраного методу виявлення аномалій; - виконати програмну реалізацію методу виявлення аномалій; - дослідити ефективність методу виявлення аномалій. Об’єкт дослідження: потоки україномовних текстових даних. Предмет дослідження: виявлення аномалій в потокових текстових даних. Методи дослідження: методи text mining, методи інтелектуального аналізу даних. Наукова новизна: Найбільш суттєвими науковими результатами магістерської дисертації є: - розробка адаптованого методу Isolation Forest виявлення аномалій в потоках текстових даних з підтримкою української мови. Практичне значення отриманих результатів визначається тим, що запропонований модифікований алгоритм Isolation Forest, який підтримує виявлення аномалій в україномовних даних. Зв’язок роботи з науковими програмами, планами, темами: робота виконувалась на кафедрі автоматизованих систем обробки інформації та управління Національного технічного університету України «Київський політехнічний інститут ім. Ігоря Сікорського» в рамках теми «Методи та технології високопродуктивних обчислень та обробки надвеликих масивів даних». Державний реєстраційний номер 0117U000924. Апробація: Основні положення роботи доповідались і обговорювались на ІІІ всеукраїнській науково-практичній конференції молодих вчених та студентів «Інформаційні системи та технології управління» (ІСТУ-2019) Публікації: Наукові положення дисертації опубліковані в Афанасьєва О.Є Виявлення аномалій в потоках текстових даних/ О.Є. Афанасьєва, Ю.О. Олійник // Матеріали ІІІ всеукраїнської науково-практичної конференції молодих вчених та студентів «Інформаційні системи та технології управління» (ІСТУ-2019) – м. Київ: НТУУ «КПІ ім. Ігоря Сікорського», 20-22 листопада 2019 р. | uk |
dc.format.page | 75 с. | uk |
dc.identifier.citation | Афанасьєва, О. Є. Математичне та програмне забезпечення виявлення аномалій в потоках текстових даних : магістерська дис. : 121 Інженерія програмного забезпечення / Афанасьєва Олена Євгенівна. - Київ, 2019. - 75 с. | uk |
dc.identifier.uri | https://ela.kpi.ua/handle/123456789/31567 | |
dc.language.iso | uk | uk |
dc.publisher | КПІ ім. Ігоря Сікорського | uk |
dc.publisher.place | Київ | uk |
dc.subject | потоки даних | uk |
dc.subject | виявлення аномалій | uk |
dc.subject | метод ізоляційного лісу | uk |
dc.subject | україномовні дані | uk |
dc.subject | текстові дані | uk |
dc.subject | обробка текстових даних | uk |
dc.subject | data flows | uk |
dc.subject | anomaly detection | uk |
dc.subject | isolation forest method | uk |
dc.subject | ukrainomatic data | uk |
dc.subject | text data | uk |
dc.subject | data mining | uk |
dc.subject.udc | 004 | uk |
dc.title | Математичне та програмне забезпечення виявлення аномалій в потоках текстових даних | uk |
dc.type | Master Thesis | uk |
Файли
Контейнер файлів
1 - 1 з 1
Вантажиться...
- Назва:
- Afanasieva_magistr.pdf
- Розмір:
- 2.64 MB
- Формат:
- Adobe Portable Document Format
- Опис:
Ліцензійна угода
1 - 1 з 1
Ескіз недоступний
- Назва:
- license.txt
- Розмір:
- 9.06 KB
- Формат:
- Item-specific license agreed upon to submission
- Опис: