Метод формування векторного подання природомовних текстів
dc.contributor.advisor | Петрашенко, Андрій Васильович | |
dc.contributor.author | Брикалова, Вікторія Валеріївна | |
dc.date.accessioned | 2023-06-07T10:59:22Z | |
dc.date.available | 2023-06-07T10:59:22Z | |
dc.date.issued | 2020 | |
dc.description.abstract | Актуальність теми. Галузь обробки природної мови (Natural Language Processing (NLP)) є однією з найцікавіших та найменш розвинених на сьогоднішній день в області машинного навчання. Це сфера штучного інтелекту, яка займається взаємодією комп'ютерів з людьми за допомогою природної мови. Наразі NLP застосовується у таких продуктах, як програми для перекладу мов, текстові процесори, програми інтерактивної голосової відповіді, персональні програми-помічники тощо. Для багатьох задач в області обробки природної мови центральним є питання представлення тексту у машинно зрозумілому форматі. Для використання алгоритмів машинного навчання необхідно представити вхідний текст у числовому просторі таким чином, щоб будь-який текстовий документ характеризувався фіксованою кількістю числових значень – вектором заданої розмірності. Маючи таке векторне представлення текстів їх можна легко використовувати у задачах різної складності, таких як класифікація текстів за тематикою, групування схожих за сенсом документів, ефективне ранжування веб-сторінок у пошукових системах, генерація скорочених текстів зі збереженням сенсу тощо. Існуючі методи векторизації текстів є недостатньо ефективними для високоточного виконання таких задач. З огляду на це пошук більш ефективних методів є актуальною проблемою в галузі обробки природної мови. Мета роботи: підвищення якості векторного подання природомовних текстів для використання у системах машинного навчання, що працюють з текстовими даними. Об’єктом дослідження є методи представлення природомовних текстів у векторному просторі будь-якої розмірності. Предметом дослідження є методи формування векторного подання природомовних текстів на основі нейромережевих архітектур. Методи дослідження: в роботі використані інформаційний пошук для огляду і аналізу існуючих рішень та пошуку моделей для роботи з текстовими даними, нейромережеві методи дослідження для побудови власної моделі векторного подання текстів, програмна розробка для реалізації та тренування запропонованої архітектури. Наукова новизна полягає у тому, що вперше запропоновано метод векторного подання природомовних текстів на основі нейромережевої архітектури Transformer, що дозволяє підвищити значення результуючих метрик при виконанні задач машинного навчання, в яких використовуються неструктуровані текстові дані. Практична цінність: розроблений метод векторного подання природомовних текстів може ефективно застосовуватись в різноманітних системах обробки даних, що використовують в якості вхідної інформації неструктуровані текстові дані. Особистий внесок магістранта. 1. В ході проведення аналізу досліджуваної області було визначено, що існуючі методи векторного подання природомовних текстів в повній мірі не задовольняють сучасним вимогам точності при використанні їх у задачах обробки природної мови. 2. Розроблений новий метод векторного представлення текстів на основі сучасної нейромережевої архітектури, використання якого у ряді задач з обробки текстових даних дозволяє підвищити точність їх виконання порівняно з існуючими алгоритмами. Апробація роботи. Основні положення та ідеї роботи були представлені та обговорювались на XII науковій конференції молодих вчених «Прикладна математика та комп‘ютинг» ПМК-2019 (Київ, 13-15 листопада 2019 р.) та опубліковані у міжнародному науковому журналі «ΛΌГOΣ.ONLINE» (2020). Структура та обсяг роботи. Магістерська дисертація складається з вступу, чотирьох розділів, висновків по кожному розділу, загальних висновків по роботі в цілому, списку використаних літературних джерел та додатків. У вступі подано загальну характеристику роботи, зроблено оцінку сучасного стану проблеми, обґрунтовано актуальність напрямку досліджень, сформульовано мету і задачі досліджень, продемонстровано наукову новизну і практичну цінність роботи. У першому розділі визначено та сформульовано задачу векторизації природомовних текстів, її актуальність, наведено приклади використання векторних представлень. Розглянуто процес попередньої обробки текстів, примітивні алгоритми векторизації, проведено дослідження існуючих нейромережевих методів векторизації природомовних текстів. У другому розділі розглянуто проблеми використання глибинних нейронних мереж для формування векторного представлення текстів, проведено аналіз сучасних нейромережевих технологій для роботи з текстовими даними, детально описано сучасну архітектуру Transformer. У третьому розділі описаний процес та етапи розробки методу формування векторного подання текстів, обґрунтований вибір базової реалізації архітектури Transformer, детально представлені запропоновані модифікації. Проведений опис даних, що були використані для тренування моделі. У четвертому розділі розглянуті всі особливості процесу тренування, описані методи порівняння та оцінки векторних представлень та проведені оцінка та аналіз якості розробленого методу. У висновках представлені результати проведеної роботи. Робота виконана на 82 аркушах, містить додатки та посилання на список використаних літературних джерел. У роботі наведено 25 рисунків та 15 таблиць. | uk |
dc.description.abstractother | The Relevance. The Natural Language Processing (NLP) industry is one of the most interesting and least developed in the field of machine learning today. This is the field of artificial intelligence, which deals with computer-human interactions through natural language. NLP is currently used in products such as language translation programs, word processors, interactive voice response programs, personal assistants etc. For many tasks in the field of natural language processing, the central issue is text representation in a machine-readable format. To use machine learning algorithms, it is necessary to present the input text in numerical space so that any text document is characterized by a fixed number of numerical values - a vector of a given dimension. With such a vector representation of texts, it can be easily used in different tasks, such as topical text classification, documents clusterization, efficient web pages ranking in search engines, meaningful text summary generation etc. Existing texts vectorization methods are not effective enough for high-precision performance of such tasks. That is why searching for more effective methods is an urgent task in the field of natural language processing. The purpose is to improve the quality of the natural language texts vectorization methods for use in machine learning systems that work with text data. The object of research is the methods of natural language texts representation in vector space of any dimension. The subject of research is the natural language texts representation methods developed based on neural network architectures. Research methods: in the work used information search methods to review and analyze existing solutions, search for models for working with text data, neural networks to build own model of text vectorization, software development for implementation and training of the proposed architecture. The scientific novelty is the first time proposed method of natural language texts vectorization based on the Transformer architecture, which allows to improve the value of the resulting metrics when performing machine learning tasks that use unstructured text data. Practical value: the developed method of vector representation of natural language texts can be effectively applied in various data processing systems that use unstructured text data as input information. Personal contribution of the undergraduate. 1. During the analysis of the studied area it was determined that the existing methods of text vectorization do not fully satisfy the modern requirements of accuracy when using them in natural language processing tasks. 2. A new method of vector representation of texts based on modern neural network architecture has been developed. Using it in several text data processing tasks allows to increase the accuracy of their result in comparison with existing algorithms. Publications. The main provisions and ideas of the work were presented and discussed at the XII scientific conference of young scientists "Applied Mathematics and Computing" PMK-2019 (Kyiv, November 13-15, 2019) and published in the international scientific journal "ΛΌГOΣ.ONLINE "(2020)). Structure and scope of work. The master's dissertation consists of an introduction, four sections, conclusions on each section, general conclusions of the work as a whole, a list of used literature sources and appendices. The introduction presents a general description of the work, estimated the current state of the problem, substantiated the relevance of research, formulated the purpose and objectives of research, and demonstrated the scientific novelty and practical value of the work. In the first section the problem of natural language texts vectorization and its relevance is defines and describes, gave examples of the use of text vector representations. The process of preprocessing of texts and primitive text vectorization algorithms are considered, the research of the existing neural network methods of text vectorization are carried out. In the second section the problems of using feed-forward deep neural networks for creating text vectorization method are considered, the modern neural network technologies for working with text data are analyzed, Transformer architecture describes in details. The third section describes the process and stages of development text vectorization method, substantiates the choice of the basic implementation of the Transformer architecture, and presents in details the proposed modifications. Given a description of the data used to train the model. The fourth section describes all features of the training process, methods of comparison and evaluation of vector representations and analyzes the quality of the developed method. In the conclusions the results of the work presented. The work presented on 82 sheets, contains appendices and links to the list of sources of used literature. The work contains 25 pictures and 15 tables. | uk |
dc.format.extent | 115 с. | uk |
dc.identifier.citation | Брикалова, В. В. Метод формування векторного подання природомовних текстів : магістерська дис. : 123 Комп’ютерна інженерія / Брикалова Вікторія Валеріївна. – Київ, 2020. – 115 с | uk |
dc.identifier.uri | https://ela.kpi.ua/handle/123456789/56761 | |
dc.language.iso | uk | uk |
dc.publisher | КПІ ім. Ігоря Сікорського | uk |
dc.publisher.place | Київ | uk |
dc.subject | векторизація | uk |
dc.subject | енкодер | uk |
dc.subject | Transformer | uk |
dc.subject | Self-attention | uk |
dc.subject.udc | 004.8 | uk |
dc.title | Метод формування векторного подання природомовних текстів | uk |
dc.type | Master Thesis | uk |
Files
Original bundle
1 - 1 of 1
Loading...
- Name:
- Брикалова_В_В_КВ-82мн_Маг_дис_2020_original_31052023_180231.pdf
- Size:
- 2.98 MB
- Format:
- Adobe Portable Document Format
- Description:
License bundle
1 - 1 of 1
No Thumbnail Available
- Name:
- license.txt
- Size:
- 1.71 KB
- Format:
- Item-specific license agreed upon to submission
- Description: