Метод автоматичного екстрактивного узагальнення тексту на основі рекурентних нейронних мереж

dc.contributor.authorІванишин, О. В.
dc.contributor.authorБатюк, А. Є.
dc.contributor.authorIvanyshyn, О. V.
dc.contributor.authorBatyuk, A. E.
dc.date.accessioned2018-10-18T15:46:02Z
dc.date.available2018-10-18T15:46:02Z
dc.date.issued2018
dc.description.abstractenBackground. The article deals with the solution of the problem of automatic extractive text summarization on the basis of recurrent artificial neural network, using graph interpretation of the text and a text unit importance estimator. Abstractive approach is much more complex than extractive as it requires network to generate personal thought vector which is not obliged to contain words from input text as well as it should be built grammatically correct. The text unit importance estimator uses recommendation rating principle which balances the graph weights depending on the popularity of text units. The principle of unsupervised learning is much closer to real biological learning process and doesn’t require labeled preprocessed dataset. Objective. The aim of the paper is the method of automatic extractive text summarization based on recurrent artificial neural networks using unsupervised learning. Methods. An algorithm for the achievement of deeper abstract text processing using the interpretation of the text in the form of a graph is proposed. The algorithm uses elements of graph theory and methods of algorithms’ design. The text unit importance estimator uses recommendation rating principle. Results. In relative comparison, the performance of the directed graph based on neural network is almost 5 % higher than undirected graph network version. Using graph interpretation algorithm, the network performance is 15 % higher than the usual simple lexical n-gram representation. Conclusions. This method is characterised in that it takes into account its own structure of the text, instead of processing the text as simple rows of lexical and semantic terms. It is the transformation of the text into a multidimensional oriented graph that opens the potential for much more abstract text processing. Practical application, in its turn, covers a large area of continuous processing of not only social networks and news, blogs, articles or communications, but also the fields of education, genetics and medicine.uk
dc.description.abstractruПроблематика. В статье рассматривается решение задания автоматического экстрактивного обобщения текста на базе рекуррентной искусственной нейронной сети с использованием графовой интерпретации текста и алгоритма оценки важности текстовой единицы. Абстрактный подход намного сложнее, чем экстрактивный, поскольку он требует создания собственного вектора мысли сети, который не обязательно должен включать слова из входного текста, а также должен быть грамматически правильно построен. Алгоритм оценки важности текстовой единицы заключается в использовании принципа рейтинга рекомендаций, который балансирует веса графа в зависимости от популярности текстовых единиц. Принцип обучения без учителя является более близким к обучению биологического интеллекта и не требует помеченных подготовленных данных. Цель исследования. Целью работы является анализ метода автоматического экстрактивного обобщения текста на основе рекуррентных искусственных нейронных сетей с использованием парадигмы обучения без учителя. Методика реализации. Предлагается алгоритм достижения более глубокой абстрактной обработки текста при помощи интерпретации текста в виде графа. Использованы элементы теории графов, теории и методы проектирования алгоритмов. Алгоритм оценки важности текстовой единицы использует принцип рейтинга рекомендаций. Результаты исследования. В относительном сравнении продуктивность нейронной сети на базе ориентированного графа почти на 5 % превышает неориентированную версию. При помощи графовой интерпретации продуктивность сети на 15 % выше, чем обычное лексическое семантическое n-грамм представление. Выводы. Метод отличается тем, что учитывает собственную структуру текста вместо того, чтобы обрабатывать текст как простые ряди лексических семантических терминов. Именно преобразование текста в многомерный ориентированный граф открывает потенциал значительно более абстрактной обработки. Практическое применение в свою очередь охватывает большую область непрерывной обработки не только социальных сетей и новостей, блогов, статей или сообщений, но и сферу образования, генетики и медицины.uk
dc.description.abstractukПроблематика. У статті розглядається вирішення завдання автоматичного екстрактивного узагальнення тексту на основі рекурентної штучної нейронної мережі з використанням графової інтерпретації тексту й алгоритму оцінки важливості текстової одиниці. Абстрактний підхід набагато складніший, ніж екстрактивний, оскільки він вимагає створення власного вектора думки мережі, який не обов’язково має містити слова з вхідного тексту, а також повинен бути граматично правильно побудований. Алгоритм оцінки важливості текстової одиниці полягає у використанні принципу рейтингу рекомендацій, який збалансовує ваги графу залежно від популярності текстових одиниць. Принцип навчання без учителя є набагато ближчим до навчання біологічного інтелекту і не вимагає позначених підготовлених даних. Мета дослідження. Метою статті є аналіз методу автоматичного екстрактивного узагальнення тексту на основі рекурентних штучних нейронних мереж з використанням навчання без учителя. Методика реалізації. Пропонується алгоритм досягнення глибшого абстрактного опрацювання тексту за допомогою інтерпретації тексту у вигляді графу. Використано елементи теорії графів, теорію та методи проектування алгоритмів. Алгоритм оцінки важливості текстової одиниці використовує принцип рейтингу рекомендацій. Результатати дослідження. У відносному порівнянні продуктивність нейронної мережі на базі орієнтованого графу майже на 5 % перевищує неорієнтовану версію. За допомогою графової інтерпретації продуктивність мережі на 15 % вища, ніж звичайне лексичне семантичне n-грам представлення. Висновки. Метод відрізняється тим, що враховує власну структуру тексту замість того, щоб обробляти текст як прості ряди лексичних семантичних термінів. Саме перетворення тексту на багатовимірний орієнтований граф відкриває потенціал значно абстрактнішої обробки. Практичне застосування своєю чергою охоплює велику область безперервного опрацювання не тільки соціальних мереж і новин, блогів, статей чи повідомлень, а й сферу освіти, генетики та медицини.uk
dc.format.pagerangeС. 25–29uk
dc.identifier.citationІванишин, О. В. Метод автоматичного екстрактивного узагальнення тексту на основі рекурентних нейронних мереж / О. В. Іванишин, А. Є. Батюк // Наукові вісті КПІ : міжнародний науково-технічний журнал. – 2018. – № 4(120). – С. 25–29. – Бібліогр.: 14 назв.uk
dc.identifier.doihttps://doi.org/10.20535/1810-0546.2018.4.141286
dc.identifier.urihttps://ela.kpi.ua/handle/123456789/24866
dc.language.isoukuk
dc.publisherКПІ ім. Ігоря Сікорськогоuk
dc.publisher.placeКиївuk
dc.sourceНаукові вісті КПІ : міжнародний науково-технічний журнал, 2018, № 4(120)uk
dc.subjectрекурентна штучна нейронна мережаuk
dc.subjectекстрактивне узагальнення текстуuk
dc.subjectглибоке навчанняuk
dc.subjectобробка природної мовиuk
dc.subjectнавчання без учителяuk
dc.subjectrecurrent neural networkuk
dc.subjectextractive text summarizationuk
dc.subjectdeep learninguk
dc.subjectnatural language processinguk
dc.subjectunsupervised learninguk
dc.subjectрекуррентная искусственная нейронная сетьuk
dc.subjectэкстрактивное обобщение текстаuk
dc.subjectглубокое обучениеuk
dc.subjectобработка природного языкаuk
dc.subjectобучение без учителяuk
dc.subject.udc004.8uk
dc.titleМетод автоматичного екстрактивного узагальнення тексту на основі рекурентних нейронних мережuk
dc.title.alternativeMethod of Automatic Extractive Text Summarization on the Basis of Recurrent Neural Networksuk
dc.title.alternativeМетод автоматического экстрактивного обобщения текста на основе рекуррентных нейронных cетейuk
dc.typeArticleuk

Файли

Контейнер файлів
Зараз показуємо 1 - 1 з 1
Вантажиться...
Ескіз
Назва:
5.pdf
Розмір:
238.26 KB
Формат:
Adobe Portable Document Format
Опис:
Ліцензійна угода
Зараз показуємо 1 - 1 з 1
Ескіз недоступний
Назва:
license.txt
Розмір:
7.74 KB
Формат:
Item-specific license agreed upon to submission
Опис: