Спосіб розпізнавання тонального забарвлення текстів на основі процесу дистиляції знань
dc.contributor.advisor | Петрашенко, Андрій Васильович | |
dc.contributor.author | Коровій, Олександр Сергійович | |
dc.date.accessioned | 2022-01-18T08:42:13Z | |
dc.date.available | 2022-01-18T08:42:13Z | |
dc.date.issued | 2021 | |
dc.description.abstracten | Actuality of theme. The development of artificial intelligence in the world stimulates almost all areas of our lives. Recent advances in artificial intelligence, namely natural language processing, show the relevance of studying this topic. Every day someone makes a search query on the Internet, writes a review, comment, etc. This generates a large amount of textual information that needs to be processed and stored. But in order to process large amounts of text data, artificial intelligence requires a lot of expensive resources, namely graphics processors. Therefore, the use of the process of "distillation of knowledge" can reduce the cost of expensive resources, and transfer the calculation of neural networks from the GPU to the central. Which in turn is much cheaper. The object of research is the process of determining the tonal color of texts in natural language. The subject of the research is the process of optimizing the learning of two artificial neurons to perform the task of tonal coloring of the text in Ukrainian and Russian. The purpose of the work is to increase the speed of word processing in determining the tonal color of the text and reduce the cost of cloud resources when working with neural networks in the field of natural language processing. By adapting the process of "distillation of knowledge" from the field of computer vision to the field of natural language processing. Research methods. The main research method is to use the best architectural neural networks and apply them to the problem of tonal coloring of the text. Particular attention was paid to data collection and analysis for the training of artificial neural networks. Using the process of "distillation of knowledge" allows us to transfer the knowledge learned by the deep neural network to the shallow, losing a few points of accuracy, we get increased performance and reduced resources several times. The scientific novelty is that the approach of using the method of "distillation of knowledge" for the problem of tonal coloring of the text of the natural language processing of Ukrainian and Russian, differs from others in using one cumbersome neural network instead of ensemble and transferring knowledge from it to a small neural network. which allows to increase the speed of ~ 5 times, and reduce the use of computing resources. The practical value is to reduce the resources for the use of neural networks for tonal text coloring and reduce the cost of cloud computing when deployed in the cloud infrastructure. Approbation of work. The main provisions and results of the work were presented and discussed at conferences: - XIV Scientific Conference of Undergraduates and Postgraduates "Applied Mathematics and Computing" PMK-2021 (Kyiv, November 17-19, 2021). - International Symposium on Engineering and Manufacturing (ISEM2021) - online conference. Theme of the work "Adaptation of Distilling Knowledge Method in Natural Language Processing for Sentiment Analysis". Accepted works ISEM2021 will be published in "Lecture Notes in Networks and Systems" - Springer (Pending), which is indexed in SCOPUS, INSPEC, WTI Frankfurt eG, zbMATH, SCImago. (Kyiv, December 25-26, 2021) Structure and scope of work. The master's dissertation consists of an introduction, four chapters, conclusions and appendices. The introduction described the problem and the general description and solution The first section describes the analysis of existing problems and challenges in the field of natural language processing and solutions for optimizing computing resources using neural networks. The second section describes the analysis of the process of "distillation of knowledge", the used neural network architectures, their advantages and disadvantages of comparison. The third section describes the creation of a data sample, learning process and analysis of synthetic data. The fourth section describes the test results, comparative analysis of two neural networks and speed testing. The conclusions summarize and suggest how this process can be implemented in other tasks in the field of natural language processing. The work is presented on 83 sheets, contains 31 figures, 4 tables and references to the list of used literature sources. | uk |
dc.description.abstractuk | Актуальність теми. Розвиток штучного інтелекту у світі стимулює майже всі області нашого життя. Останні досягнення в області штучного інтелекту, а саме природньої обробки мови, показують актуальність вивчення даної теми. Кожен день хтось робить пошуковий запит в інтернеті, пише відгук, коментар тощо. Це генерує великий об’єм текстової інформації яку потрібно обробляти та зберігати. Але на те що обробити великі обєми текстових даних, штучним інтелектом потрібно дуже багато дороговартісних ресурсів, а саме графічних процесорів. Тому використання процесу «дистиляції знань» дозволяє скоротити витрати на дороговартісні ресурси, і перекласти обчислення нейронних мереж з графічного процесора на центральний. Що в свою чергу набагато дешевше. Об’єктом дослідження є процес визначення тонального забарвлення текстів природною мовою. Предметом дослідження є процес оптимізації навчання двох штучних нейронних, для виконання задачі тонального забарвлення тексту українською та російською мовами. Мета роботи – збільшити швидкодію обробки текстів при визначенні тонального забарвлення тексту та зменшити витрати на хмарні ресурси при роботі з нейронними мережами в області обробки природньої мови. Завдяки адаптації процесу «дистиляції знань» з області комп’ютерного зору, в область обробки природньої мови. Методи дослідження. Основним методом дослідження є використання найкращих архітектурних нейронних мереж, та застосування їх до задачі тонального забарвлення тексту. Особливу увагу приділялося збору та аналізу даних для навчання штучних нейронних мереж. Використання процесу «дистиляції знань» дозволяє нам перенести знання які вивчила глибока нейронна мережа на не глибоку, втрачаючи декілька пунктів точності ми отримуємо підвищення швидкодії та зменшення ресурсів у декілька разів. Наукова новизна полягає в тому, що створено підхід використання методу «дистиляції знань» для задачі тонального забарвлення тексту області обробки природньої мови української та російської мови, відрізняється від інших у використанні одної громіздкої нейронної мережі замість ансамблю та перенесенню знань від неї до малої нейронної мережі, що дозволяє підвищити швидкодію ~5 разів, та зменшити використання обчислювальних ресурсів. Практична цінність полягає в зменшенні ресурсів на застосування нейронної мережі для тонального забарвлення тексту та зменшення витрат на хмарні обчислення при розгортанні в хмарній інфраструктури. Апробація роботи. Основні положення і результати роботи були представлені та обговорювались на конференціях: - XIV науковій конференції магістрантів та аспірантів «Прикладна математика та комп’ютинг» ПМК-2021 (Київ, 17-19 листопада 2021 р.). - Міжнародний симпозіум з інжинірингу та виробництва (International Symposium on Engineering and Manufacturing(ISEM2021)) - онлайн-конференція. Тема роботи «Adaptation of Distilling Knowledge Method in Natural Language Processing for Sentiment Analysis». Прийняті роботи ISEM2021 будуть опубліковані у «Lecture Notes in Networks and Systems» - Springer(Pending), який індексується в SCOPUS, INSPEC, WTI Frankfurt eG, zbMATH, SCImago. (Київ, 25-26 грудня 2021) Структура та обсяг роботи. Магістерська дисертація складається з вступу, чотирьох розділів, висновків та додатків. У вступі було описано проблему та загальний опис, та рішення У першому розділі описано аналіз існуючих проблем та завдань в області обробки природньої мови та рішень для оптимізації обчислювальних ресурсів при використанні нейронних мереж. У другому розділі описано аналіз процесу «дистиляції знань», використаних архітектур нейронних мереж, їх переваги, недоліки порівняння. У третьому розділі описано створення вибірки даних, процесу навчання та аналіз синтетичних даних. У четвертому розділі описано результати тестування, порівняльний аналіз двох нейронних мереж та тестування швидкодії. У висновках підведено підсумки та думки як можна імплентувати даний процес до інших задач в області обробки природньої мови. Робота представлена на 83 аркушах, містить 31 рисунок, 4 таблиці та посилання на список використаних літературних джерел. | uk |
dc.format.page | 95 с. | uk |
dc.identifier.citation | Коровій, О. С. Спосіб розпізнавання тонального забарвлення текстів на основі процесу дистиляції знань : магістерська дис. : 123 Комп’ютерна інженерія / Коровій Олександр Сергійович. – Київ, 2021. – 95 с. | uk |
dc.identifier.uri | https://ela.kpi.ua/handle/123456789/45911 | |
dc.language.iso | uk | uk |
dc.publisher | КПІ ім. Ігоря Сікорського | uk |
dc.publisher.place | Київ | uk |
dc.subject | обробка природньої мови | uk |
dc.subject | штучні нейронні мережі | uk |
dc.subject | natural language processing | uk |
dc.subject | artificial neural networks | uk |
dc.subject.udc | 004.53 | uk |
dc.title | Спосіб розпізнавання тонального забарвлення текстів на основі процесу дистиляції знань | uk |
dc.type | Master Thesis | uk |
Файли
Контейнер файлів
1 - 1 з 1
Вантажиться...
- Назва:
- Korovij_magistr.pdf
- Розмір:
- 3.21 MB
- Формат:
- Adobe Portable Document Format
- Опис:
Ліцензійна угода
1 - 1 з 1
Ескіз недоступний
- Назва:
- license.txt
- Розмір:
- 9.1 KB
- Формат:
- Item-specific license agreed upon to submission
- Опис: