Спосіб розпізнавання тонального забарвлення текстів на основі процесу дистиляції знань

Вантажиться...
Ескіз

Дата

2021

Назва журналу

Номер ISSN

Назва тому

Видавець

КПІ ім. Ігоря Сікорського

Анотація

Актуальність теми. Розвиток штучного інтелекту у світі стимулює майже всі області нашого життя. Останні досягнення в області штучного інтелекту, а саме природньої обробки мови, показують актуальність вивчення даної теми. Кожен день хтось робить пошуковий запит в інтернеті, пише відгук, коментар тощо. Це генерує великий об’єм текстової інформації яку потрібно обробляти та зберігати. Але на те що обробити великі обєми текстових даних, штучним інтелектом потрібно дуже багато дороговартісних ресурсів, а саме графічних процесорів. Тому використання процесу «дистиляції знань» дозволяє скоротити витрати на дороговартісні ресурси, і перекласти обчислення нейронних мереж з графічного процесора на центральний. Що в свою чергу набагато дешевше. Об’єктом дослідження є процес визначення тонального забарвлення текстів природною мовою. Предметом дослідження є процес оптимізації навчання двох штучних нейронних, для виконання задачі тонального забарвлення тексту українською та російською мовами. Мета роботи – збільшити швидкодію обробки текстів при визначенні тонального забарвлення тексту та зменшити витрати на хмарні ресурси при роботі з нейронними мережами в області обробки природньої мови. Завдяки адаптації процесу «дистиляції знань» з області комп’ютерного зору, в область обробки природньої мови. Методи дослідження. Основним методом дослідження є використання найкращих архітектурних нейронних мереж, та застосування їх до задачі тонального забарвлення тексту. Особливу увагу приділялося збору та аналізу даних для навчання штучних нейронних мереж. Використання процесу «дистиляції знань» дозволяє нам перенести знання які вивчила глибока нейронна мережа на не глибоку, втрачаючи декілька пунктів точності ми отримуємо підвищення швидкодії та зменшення ресурсів у декілька разів. Наукова новизна полягає в тому, що створено підхід використання методу «дистиляції знань» для задачі тонального забарвлення тексту області обробки природньої мови української та російської мови, відрізняється від інших у використанні одної громіздкої нейронної мережі замість ансамблю та перенесенню знань від неї до малої нейронної мережі, що дозволяє підвищити швидкодію ~5 разів, та зменшити використання обчислювальних ресурсів. Практична цінність полягає в зменшенні ресурсів на застосування нейронної мережі для тонального забарвлення тексту та зменшення витрат на хмарні обчислення при розгортанні в хмарній інфраструктури. Апробація роботи. Основні положення і результати роботи були представлені та обговорювались на конференціях: - XIV науковій конференції магістрантів та аспірантів «Прикладна математика та комп’ютинг» ПМК-2021 (Київ, 17-19 листопада 2021 р.). - Міжнародний симпозіум з інжинірингу та виробництва (International Symposium on Engineering and Manufacturing(ISEM2021)) - онлайн-конференція. Тема роботи «Adaptation of Distilling Knowledge Method in Natural Language Processing for Sentiment Analysis». Прийняті роботи ISEM2021 будуть опубліковані у «Lecture Notes in Networks and Systems» - Springer(Pending), який індексується в SCOPUS, INSPEC, WTI Frankfurt eG, zbMATH, SCImago. (Київ, 25-26 грудня 2021) Структура та обсяг роботи. Магістерська дисертація складається з вступу, чотирьох розділів, висновків та додатків. У вступі було описано проблему та загальний опис, та рішення У першому розділі описано аналіз існуючих проблем та завдань в області обробки природньої мови та рішень для оптимізації обчислювальних ресурсів при використанні нейронних мереж. У другому розділі описано аналіз процесу «дистиляції знань», використаних архітектур нейронних мереж, їх переваги, недоліки порівняння. У третьому розділі описано створення вибірки даних, процесу навчання та аналіз синтетичних даних. У четвертому розділі описано результати тестування, порівняльний аналіз двох нейронних мереж та тестування швидкодії. У висновках підведено підсумки та думки як можна імплентувати даний процес до інших задач в області обробки природньої мови. Робота представлена на 83 аркушах, містить 31 рисунок, 4 таблиці та посилання на список використаних літературних джерел.

Опис

Ключові слова

обробка природньої мови, штучні нейронні мережі, natural language processing, artificial neural networks

Бібліографічний опис

Коровій, О. С. Спосіб розпізнавання тонального забарвлення текстів на основі процесу дистиляції знань : магістерська дис. : 123 Комп’ютерна інженерія / Коровій Олександр Сергійович. – Київ, 2021. – 95 с.

ORCID

DOI