Data augmentation with foreign language content in text classification using machine learning

Oliinyk, V.; Osadcha, K.

Data augmentation with foreign language content in text classification using machine learning

dc.contributor.author	Oliinyk, V.
dc.contributor.author	Osadcha, K.
dc.date.accessioned	2020-12-08T09:47:08Z
dc.date.available	2020-12-08T09:47:08Z
dc.date.issued	2020
dc.description.abstracten	The object of research is the data augmentation method in text classification problems using machine learning methods. The method is considered on the example of sentiment analysis of visitor reviews of hotels. It is shown that datasets with insufficient volume or representativeness requires special methods for increasing the amount of data in it. The aim of the work is to improve the accuracy of the neural network in the tasks of text classification by increasing the amount of data. To achieve the goal, it was proposed to use text data written in languages of other families, which will be translated into the target language using Google translator. Russian was chosen as the target language. To level the effect of the model on the results, a simple neural network is used - a multilayer perceptron with variations in the parameters of its structure. The article investigated the influence of the considered data augmentation method on the resulting accuracy of the network. According to experimental results, the expediency of using this method in a number of tasks is shown.	en
dc.description.abstractru	Объектом исследования является метод аугментации данных в задаче классификации текстового контента с помощью методов машинного обучения. Метод рассматривается на примере задачи определения тональности отзывов посетителей об отелях. Показана необходимость применения методов искусственного увеличения количества данных при недостаточном объеме или репрезентативности датасета. Целью работы является улучшение точности работы нейронной сети в задаче классификации текстов за счет увеличения объема данных. Для достижения цели было предложено использование текстовых данных написанных на языках других семейств, которые будут переводится на целевой язык с помощью Google переводчика, в качестве целевого языка был выбран русский язык. Для нивелирования влияния модели на результаты используется простая нейронная сеть – многослойный персептрон с вариациями параметров его структуры. В статье исследовалось влияние рассматриваемого метода аугментации данных на результаты точности работы сети. По результатам работы показана целесообразность использования данного метода в ряде задач.	ru
dc.description.abstractuk	Об'єктом дослідження є метод аугментації даних в задачі класифікації текстового контенту за допомогою методів машинного навчання. Метод розглядається на прикладі задачі визначення тональності відгуків відвідувачів про готелі. Показана необхідність застосування методів штучного збільшення кількості даних при недостатньому обсязі або репрезентативності датасету. Метою роботи є поліпшення точності роботи нейронної мережі в задачі класифікації текстів за рахунок збільшення обсягу даних. Для досягнення мети було запропоновано використання текстових даних, написаних на мовах інших сімейств, які будуть перекладається на цільову мову за допомогою Google перекладача, кінцевою мовою перекладу була обрана російська. Для нівелювання впливу моделі на результати використовується проста нейронна мережа - багатошаровий персептрон з варіаціями параметрів його структури. У статті досліджувався вплив даного методу аугментації даних на результати точності роботи мережі. За результатами роботи показана доцільність використання даного методу в ряді задач.	uk
dc.format.pagerange	Pp. 51-59	uk
dc.identifier.citation	Oliinyk, V. Data augmentation with foreign language content in text classification using machine learning / V. Oliinyk, K. Osadcha // Адаптивні системи автоматичного управління : міжвідомчий науково-технічний збірник. – 2020. – № 1 (36). – С. 51–59. – Бібліогр.: 7 назв.	uk
dc.identifier.doi	https://doi.org/10.20535/1560-8956.36.2020.209763
dc.identifier.uri	https://ela.kpi.ua/handle/123456789/37947
dc.language.iso	en	uk
dc.publisher	КПІ ім. Ігоря Сікорського	uk
dc.publisher.place	Київ	uk
dc.source	Адаптивні системи автоматичного управління : міжвідомчий науково-технічний збірник, 2020, № 1 (36)	uk
dc.subject	sentiment analysis	en
dc.subject	text classification	en
dc.subject	representative data	en
dc.subject	data processing	en
dc.subject	data augmentation	en
dc.subject	machine learning	en
dc.subject	MLP	en
dc.subject	аналіз тональності тексту	uk
dc.subject	класифікація тексту	uk
dc.subject	репрезентативні дані	uk
dc.subject	обробка даних	uk
dc.subject	збільшення даних	uk
dc.subject	машинне навчання	uk
dc.subject	анализ тональности текста	ru
dc.subject	классификация текста	ru
dc.subject	репрезентативные данные	ru
dc.subject	обработка данных	ru
dc.subject	увеличение данных	ru
dc.subject	машинное обучение	ru
dc.subject.udc	004.855.5	uk
dc.title	Data augmentation with foreign language content in text classification using machine learning	en
dc.title.alternative	Доповнення даних контентом на іноземних мовах в текстовій класифікації з використанням машинного навчання	uk
dc.title.alternative	Дополнение данных контентом на иностранных языках в текстовой классификации с использованием машинного обучения	ru
dc.type	Article	uk

Файли

Контейнер файлів

Зараз показуємо 1 - 1 з 1

Назва:: asau-2020-1_51-59.pdf
Розмір:: 581.52 KB
Формат:: Adobe Portable Document Format
Опис:

Завантажити

Ліцензійна угода

Зараз показуємо 1 - 1 з 1

Назва:: license.txt
Розмір:: 9.16 KB
Формат:: Item-specific license agreed upon to submission
Опис:

Завантажити

Зібрання

Адаптивні системи автоматичного управління: міжвідомчий науково-технічний збірник, № 1 (36)