Нейромережева модель класифікації повідомлень електронної пошти за важливістю
dc.contributor.advisor | Терейковський, Ігор Анатолійович | |
dc.contributor.author | Бразицький, Валентин Дмитрович | |
dc.date.accessioned | 2024-12-23T09:25:12Z | |
dc.date.available | 2024-12-23T09:25:12Z | |
dc.date.issued | 2024 | |
dc.description.abstract | Актуальність теми. У сучасному інформаційному суспільстві електронна пошта є одним із основних засобів комунікації в бізнес-середовищі, освіті, науці та багатьох інших сферах. Однак, разом із численними перевагами, використання електронної пошти супроводжується низкою проблем, зокрема зростанням кількості спаму, фішингових повідомлень та інших небажаних чи шкідливих листів. Це створює значні труднощі для користувачів, які змушені витрачати час на сортування та фільтрацію пошти. У цьому контексті розробка ефективних методів класифікації електронної пошти є важливим завданням. Сучасні методи класифікації спираються на використання нейронних мереж та штучного інтелекту, які дозволяють автоматизувати процеси сортування, підвищуючи точність і швидкість виявлення небажаних повідомлень. Розвиток таких моделей, як рекурентні нейронні мережі (RNN), згорткові нейронні мережі (CNN) та трансформери, відкриває нові можливості для більш ефективної класифікації електронної пошти, що є особливо актуальним у зв'язку з постійним збільшенням обсягів електронного листування. Це підкреслює необхідність розробки та вдосконалення нейромережевих моделей для класифікації електронної пошти, що є важливим кроком до покращення якості обробки даних та забезпечення безпеки в цифровому середовищі. Об’єктом дослідження є процес автоматизованої обробки та класифікації електронної пошти за рівнем важливості. Предметом дослідження є нейромережеві моделі та методи класифікації електронної пошти з використанням алгоритмів машинного навчання. Мета роботи: Метою даної магістерської дисертації є розробка нейромережевої моделі для класифікації електронної пошти, яка здатна ефективно і точно ідентифікувати різні категорії повідомлень, зокрема спам, фішингові листи та важливі електронні повідомлення. Для досягнення цієї мети буде здійснено дослідження та порівняння різних алгоритмів обробки текстових даних, а також реалізація нейронних мереж, таких як рекурентні мережі (RNN), згорткові мережі (CNN) та трансформери. Окрім цього, робота включає розробку практичної частини, що передбачає створення прототипу системи для автоматичної класифікації електронної пошти, що дозволить значно покращити ефективність обробки інформації та знизити навантаження на користувачів. Основні завдання включають: 1. Аналіз існуючих підходів до класифікації електронної пошти. Оцінка існуючих методів, включаючи традиційні алгоритми та сучасні підходи, що використовують нейронні мережі для класифікації спаму та фішингових повідомлень. 2. Розробка нейромережевих моделей класифікації. Створення та тренування різних архітектур нейронних мереж, таких як рекурентні нейронні мережі (RNN), згорткові нейронні мережі (CNN) та трансформери для класифікації електронної пошти. 3. Оцінка ефективності моделей. Порівняння різних моделей класифікації за критеріями точності, швидкості та здатності до адаптації на нових наборах даних. Наукова новизна полягає в розробці нової нейромережевої моделі для класифікації електронної пошти, яка поєднує сучасні методи обробки тексту та використання глибоких нейронних мереж, зокрема рекурентних (RNN), згорткових (CNN) та трансформерних моделей. Практична цінність. Запропонована модель може бути впроваджена в реальні системи електронної пошти для підвищення точності фільтрації повідомлень, зменшення часу, витраченого на ручне сортування листів, та забезпечення безпеки користувачів. Розроблена система може бути корисною для бізнесу, організацій і окремих користувачів, які прагнуть ефективно обробляти великі обсяги електронних повідомлень, зменшуючи ризик попадання шкідливих листів до основної поштової скриньки. Апробація роботи основні положення та результати роботи були представлення та обговорювались XVII науковій конференції магістрантів та аспірантів «Прикладна математика та комп’ютинг - ПМК-2024» (Київ, 20-22 листопада 2024 р.). Структура та обсяг роботи. Дисертація складається із вступу та чотирьох розділів. Робота складається з 89 аркушів, включає посилання на літературу. У вступі обґрунтовується важливість класифікації електронної пошти в умовах зростаючого обсягу повідомлень та необхідності їх автоматизованої обробки. Робота охоплює теоретичні та практичні аспекти розробки таких систем, включаючи порівняння з іншими методами. У першому розділі проводиться аналіз існуючих рішень у сфері класифікації електронної пошти. Розглядаються етапи розвитку технологій, починаючи від простих методів на основі правил до складних статистичних моделей, таких як Байєсівські класифікатори, метод опорних векторів (SVM) та сховані марківські моделі (HMM). Також акцентується увага на використанні нейромережевих моделей та трансформерів, які демонструють високі результати у задачах класифікації тексту. Завершується розділ аналізом перспектив вдосконалення цих підходів. У другому розділі описуються методи та алгоритми, які застосовуються для класифікації електронної пошти. Деталізуються підходи до навчання моделей, включаючи контрольоване, неконтрольоване та напівконтрольоване навчання. Розглядаються методи попередньої обробки даних, такі як токенізація, нормалізація, видалення стоп-слів, стемінг і лематизація, а також перетворення тексту в числовий формат. Особлива увага приділяється архітектурам нейронних мереж, зокрема CNN, RNN, LSTM, GRU та трансформерам. Завершується розділ критеріями оцінки ефективності алгоритмів, такими як точність, метрики F1, ROC-крива та AUC. У третьому розділі представлено процес розробки нейронної мережі для класифікації електронної пошти. Розглядається вибір архітектури нейронної мережі та підготовка даних, включаючи етапи очищення, токенізації та перетворення тексту у векторні подання. Описується реалізація моделі, її навчання та налаштування гіперпараметрів. Розділ завершується висновками про отримані результати та їхній вплив на ефективність класифікації. У четвертому розділі представлені результати тестування розробленої моделі на реальних наборах даних. Проведено порівняння її ефективності з іншими існуючими методами класифікації. Акцент зроблено на наукову новизну отриманих результатів і їхній внесок у розвиток галузі. Розглядаються можливі шляхи вдосконалення моделі та перспективи її подальшого розвитку. У висновках підсумовуються основні результати роботи, підтверджується досягнення мети та виконання поставлених завдань. Робота завершується висновками щодо значущості розробленої моделі для автоматизації класифікації електронної пошти та рекомендаціями щодо її впровадження у практичну діяльність. | |
dc.description.abstractother | Relevance of the topic. In today's information society, email is one of the primary means of communication in business, education, science, and many other areas. However, along with numerous advantages, the use of email is accompanied by several problems, including the increase in spam, phishing messages, and other unwanted or harmful emails. This creates significant difficulties for users who have to spend time sorting and filtering emails. In this context, developing effective methods for email classification is an important task. Modern classification methods rely on the use of neural networks and artificial intelligence, which allow for the automation of sorting processes, improving the accuracy and speed of detecting unwanted messages. The development of models such as recurrent neural networks (RNN), convolutional neural networks (CNN), and transformers opens new opportunities for more efficient email classification, which is especially relevant due to the constant growth of email volume. This highlights the need to develop and improve neural network models for email classification, which is an important step towards improving data processing quality and ensuring security in the digital environment. The object of the research is the process of automated processing and classification of emails by their level of importance. The subject of the research is neural network models and email classification methods using machine learning algorithms. The goal of the work: The purpose of this master's thesis is to develop a neural network model for email classification that can efficiently and accurately identify different categories of messages, including spam, phishing emails, and important emails. To achieve this goal, the research will involve the study and comparison of various text data processing algorithms, as well as the implementation of neural networks such as recurrent networks (RNN), convolutional networks (CNN), and transformers. Additionally, the work includes the development of a practical part, which involves creating a prototype system for automatic email classification that will significantly improve information processing efficiency and reduce the workload of users. The main tasks include: 1. Analysis of existing approaches to email classification. Evaluation of existing methods, including traditional algorithms and modern approaches that use neural networks to classify spam and phishing messages. 2. Development of neural network classification models. Creation and training of various neural network architectures, such as recurrent neural networks (RNN), convolutional neural networks (CNN), and transformers for email classification. 3. Evaluation of model effectiveness. Comparison of different classification models in terms of accuracy, speed, and adaptability to new datasets. The scientific novelty lies in the development of a new neural network model for email classification that combines modern text processing methods and deep neural networks, specifically recurrent (RNN), convolutional (CNN), and transformer models. Practical value. The proposed model can be implemented in real email systems to improve message filtering accuracy, reduce the time spent on manual sorting of emails, and ensure user security. The developed system could be useful for businesses, organizations, and individual users who seek to effectively process large volumes of email messages, reducing the risk of harmful emails reaching the primary inbox. Approval of the work: The main points and results of the work were presented and discussed at the XVII Scientific Conference of Master's and Doctoral Students "Applied Mathematics and Computing - PMC-2024" (Kyiv, November 20-22, 2024). Structure and volume of the work. The thesis consists of an introduction and four chapters. The paper consists of 89 pages and includes references. The introduction justifies the importance of email classification in the context of the growing volume of messages and the need for automated processing. The work covers theoretical and practical aspects of developing such systems, including comparisons with other methods. In the first chapter, an analysis of existing solutions in the field of email classification is conducted. The stages of technology development are considered, starting from simple rule-based methods to complex statistical models such as Bayesian classifiers, Support Vector Machines (SVM), and Hidden Markov Models (HMM). Attention is also given to the use of neural network models and transformers, which demonstrate high results in text classification tasks. The chapter concludes with an analysis of the prospects for improving these approaches. In the second chapter, methods and algorithms used for email classification are described. Approaches to model training, including supervised, unsupervised, and semi-supervised learning, are detailed. Data preprocessing methods such as tokenization, normalization, stopword removal, stemming, and lemmatization, as well as transforming text into numerical formats, are discussed. Special attention is given to neural network architectures, including CNN, RNN, LSTM, GRU, and transformers. The chapter concludes with criteria for evaluating algorithm effectiveness, such as accuracy, F1 metrics, ROC curve, and AUC. In the third chapter, the process of developing a neural network for email classification is presented. The choice of neural network architecture and data preparation, including cleaning, tokenization, and transformation of text into vector representations, is discussed. The implementation of the model, its training, and hyperparameter tuning are described. The chapter concludes with conclusions on the results obtained and their impact on classification effectiveness. In the fourth chapter, the results of testing the developed model on real datasets are presented. A comparison of its effectiveness with other existing classification methods is made. Emphasis is placed on the scientific novelty of the results and their contribution to the development of the field. Possible ways to improve the model and its future development prospects are discussed. In the conclusion, the main results of the work are summarized, confirming the achievement of the goal and the completion of the tasks. The work concludes with recommendations on the significance of the developed model for automating email classification and its implementation in practical activities. | |
dc.format.extent | 89 с. | |
dc.identifier.citation | Бразицький, В. Д. Нейромережева модель класифікації електронної пошти за важливістю : магістерська дис. : 123 Комп'ютерна інженерія / Бразицький Валентин Дмитрович. – Київ, 2024. – 89 с | |
dc.identifier.uri | https://ela.kpi.ua/handle/123456789/71247 | |
dc.language.iso | uk | |
dc.publisher | КПІ ім. Ігоря Сікорського | |
dc.publisher.place | Київ | |
dc.subject | електронна пошта | |
dc.subject | штучний інтелект | |
dc.subject | нейронні мережі | |
dc.subject | текстовий аналіз | |
dc.subject | класифікація текстів | |
dc.subject | ||
dc.subject | artificial intelligence | |
dc.subject | neural networks | |
dc.subject | text analysis | |
dc.subject | text classification | |
dc.subject.udc | 004.8 | |
dc.title | Нейромережева модель класифікації повідомлень електронної пошти за важливістю | |
dc.type | Master Thesis |
Файли
Контейнер файлів
1 - 1 з 1
Ескіз недоступний
- Назва:
- Brazytskyi_VD_KV31mp_magistr_2024.docx
- Розмір:
- 208.96 KB
- Формат:
- Microsoft Word XML
Ліцензійна угода
1 - 1 з 1
Ескіз недоступний
- Назва:
- license.txt
- Розмір:
- 8.98 KB
- Формат:
- Item-specific license agreed upon to submission
- Опис: