Метод формування векторного подання природомовних текстів
Вантажиться...
Дата
2020
Науковий керівник
Назва журналу
Номер ISSN
Назва тому
Видавець
КПІ ім. Ігоря Сікорського
Анотація
Актуальність теми. Галузь обробки природної мови (Natural Language
Processing (NLP)) є однією з найцікавіших та найменш розвинених на
сьогоднішній день в області машинного навчання. Це сфера штучного
інтелекту, яка займається взаємодією комп'ютерів з людьми за допомогою
природної мови. Наразі NLP застосовується у таких продуктах, як програми для
перекладу мов, текстові процесори, програми інтерактивної голосової відповіді,
персональні програми-помічники тощо. Для багатьох задач в області обробки
природної мови центральним є питання представлення тексту у машинно зрозумілому форматі. Для використання алгоритмів машинного навчання
необхідно представити вхідний текст у числовому просторі таким чином, щоб
будь-який текстовий документ характеризувався фіксованою кількістю
числових значень – вектором заданої розмірності. Маючи таке векторне
представлення текстів їх можна легко використовувати у задачах різної
складності, таких як класифікація текстів за тематикою, групування схожих за
сенсом документів, ефективне ранжування веб-сторінок у пошукових системах,
генерація скорочених текстів зі збереженням сенсу тощо. Існуючі методи
векторизації текстів є недостатньо ефективними для високоточного виконання
таких задач. З огляду на це пошук більш ефективних методів є актуальною
проблемою в галузі обробки природної мови.
Мета роботи: підвищення якості векторного подання природомовних
текстів для використання у системах машинного навчання, що працюють з
текстовими даними.
Об’єктом дослідження є методи представлення природомовних текстів у
векторному просторі будь-якої розмірності.
Предметом дослідження є методи формування векторного подання
природомовних текстів на основі нейромережевих архітектур.
Методи дослідження: в роботі використані інформаційний пошук для
огляду і аналізу існуючих рішень та пошуку моделей для роботи з текстовими
даними, нейромережеві методи дослідження для побудови власної моделі
векторного подання текстів, програмна розробка для реалізації та тренування
запропонованої архітектури.
Наукова новизна полягає у тому, що вперше запропоновано метод
векторного подання природомовних текстів на основі нейромережевої
архітектури Transformer, що дозволяє підвищити значення результуючих
метрик при виконанні задач машинного навчання, в яких використовуються
неструктуровані текстові дані.
Практична цінність: розроблений метод векторного подання
природомовних текстів може ефективно застосовуватись в різноманітних
системах обробки даних, що використовують в якості вхідної інформації
неструктуровані текстові дані.
Особистий внесок магістранта.
1. В ході проведення аналізу досліджуваної області було визначено, що
існуючі методи векторного подання природомовних текстів в повній мірі не
задовольняють сучасним вимогам точності при використанні їх у задачах
обробки природної мови.
2. Розроблений новий метод векторного представлення текстів на основі
сучасної нейромережевої архітектури, використання якого у ряді задач з
обробки текстових даних дозволяє підвищити точність їх виконання порівняно
з існуючими алгоритмами.
Апробація роботи. Основні положення та ідеї роботи були представлені
та обговорювались на XII науковій конференції молодих вчених «Прикладна
математика та комп‘ютинг» ПМК-2019 (Київ, 13-15 листопада 2019 р.) та
опубліковані у міжнародному науковому журналі «ΛΌГOΣ.ONLINE» (2020).
Структура та обсяг роботи. Магістерська дисертація складається з
вступу, чотирьох розділів, висновків по кожному розділу, загальних висновків
по роботі в цілому, списку використаних літературних джерел та додатків.
У вступі подано загальну характеристику роботи, зроблено оцінку
сучасного стану проблеми, обґрунтовано актуальність напрямку досліджень,
сформульовано мету і задачі досліджень, продемонстровано наукову новизну і
практичну цінність роботи.
У першому розділі визначено та сформульовано задачу векторизації
природомовних текстів, її актуальність, наведено приклади використання
векторних представлень. Розглянуто процес попередньої обробки текстів,
примітивні алгоритми векторизації, проведено дослідження існуючих
нейромережевих методів векторизації природомовних текстів.
У другому розділі розглянуто проблеми використання глибинних
нейронних мереж для формування векторного представлення текстів,
проведено аналіз сучасних нейромережевих технологій для роботи з
текстовими даними, детально описано сучасну архітектуру Transformer.
У третьому розділі описаний процес та етапи розробки методу формування
векторного подання текстів, обґрунтований вибір базової
реалізації архітектури Transformer, детально представлені запропоновані
модифікації. Проведений опис даних, що були використані для тренування
моделі.
У четвертому розділі розглянуті всі особливості процесу тренування,
описані методи порівняння та оцінки векторних представлень та проведені
оцінка та аналіз якості розробленого методу.
У висновках представлені результати проведеної роботи.
Робота виконана на 82 аркушах, містить додатки та посилання на список
використаних літературних джерел. У роботі наведено 25 рисунків та 15
таблиць.
Опис
Ключові слова
векторизація, енкодер, Transformer, Self-attention
Бібліографічний опис
Брикалова, В. В. Метод формування векторного подання природомовних текстів : магістерська дис. : 123 Комп’ютерна інженерія / Брикалова Вікторія Валеріївна. – Київ, 2020. – 115 с