Data augmentation with foreign language content in text classification using machine learning

dc.contributor.authorOliinyk, V.
dc.contributor.authorOsadcha, K.
dc.date.accessioned2020-12-08T09:47:08Z
dc.date.available2020-12-08T09:47:08Z
dc.date.issued2020
dc.description.abstractenThe object of research is the data augmentation method in text classification problems using machine learning methods. The method is considered on the example of sentiment analysis of visitor reviews of hotels. It is shown that datasets with insufficient volume or representativeness requires special methods for increasing the amount of data in it. The aim of the work is to improve the accuracy of the neural network in the tasks of text classification by increasing the amount of data. To achieve the goal, it was proposed to use text data written in languages of other families, which will be translated into the target language using Google translator. Russian was chosen as the target language. To level the effect of the model on the results, a simple neural network is used - a multilayer perceptron with variations in the parameters of its structure. The article investigated the influence of the considered data augmentation method on the resulting accuracy of the network. According to experimental results, the expediency of using this method in a number of tasks is shown.en
dc.description.abstractruОбъектом исследования является метод аугментации данных в задаче классификации текстового контента с помощью методов машинного обучения. Метод рассматривается на примере задачи определения тональности отзывов посетителей об отелях. Показана необходимость применения методов искусственного увеличения количества данных при недостаточном объеме или репрезентативности датасета. Целью работы является улучшение точности работы нейронной сети в задаче классификации текстов за счет увеличения объема данных. Для достижения цели было предложено использование текстовых данных написанных на языках других семейств, которые будут переводится на целевой язык с помощью Google переводчика, в качестве целевого языка был выбран русский язык. Для нивелирования влияния модели на результаты используется простая нейронная сеть – многослойный персептрон с вариациями параметров его структуры. В статье исследовалось влияние рассматриваемого метода аугментации данных на результаты точности работы сети. По результатам работы показана целесообразность использования данного метода в ряде задач.ru
dc.description.abstractukОб'єктом дослідження є метод аугментації даних в задачі класифікації текстового контенту за допомогою методів машинного навчання. Метод розглядається на прикладі задачі визначення тональності відгуків відвідувачів про готелі. Показана необхідність застосування методів штучного збільшення кількості даних при недостатньому обсязі або репрезентативності датасету. Метою роботи є поліпшення точності роботи нейронної мережі в задачі класифікації текстів за рахунок збільшення обсягу даних. Для досягнення мети було запропоновано використання текстових даних, написаних на мовах інших сімейств, які будуть перекладається на цільову мову за допомогою Google перекладача, кінцевою мовою перекладу була обрана російська. Для нівелювання впливу моделі на результати використовується проста нейронна мережа - багатошаровий персептрон з варіаціями параметрів його структури. У статті досліджувався вплив даного методу аугментації даних на результати точності роботи мережі. За результатами роботи показана доцільність використання даного методу в ряді задач.uk
dc.format.pagerangePp. 51-59uk
dc.identifier.citationOliinyk, V. Data augmentation with foreign language content in text classification using machine learning / V. Oliinyk, K. Osadcha // Адаптивні системи автоматичного управління : міжвідомчий науково-технічний збірник. – 2020. – № 1 (36). – С. 51–59. – Бібліогр.: 7 назв.uk
dc.identifier.doihttps://doi.org/10.20535/1560-8956.36.2020.209763
dc.identifier.urihttps://ela.kpi.ua/handle/123456789/37947
dc.language.isoenuk
dc.publisherКПІ ім. Ігоря Сікорськогоuk
dc.publisher.placeКиївuk
dc.sourceАдаптивні системи автоматичного управління : міжвідомчий науково-технічний збірник, 2020, № 1 (36)uk
dc.subjectsentiment analysisen
dc.subjecttext classificationen
dc.subjectrepresentative dataen
dc.subjectdata processingen
dc.subjectdata augmentationen
dc.subjectmachine learningen
dc.subjectMLPen
dc.subjectаналіз тональності текстуuk
dc.subjectкласифікація текстуuk
dc.subjectрепрезентативні даніuk
dc.subjectобробка данихuk
dc.subjectзбільшення данихuk
dc.subjectмашинне навчанняuk
dc.subjectанализ тональности текстаru
dc.subjectклассификация текстаru
dc.subjectрепрезентативные данныеru
dc.subjectобработка данныхru
dc.subjectувеличение данныхru
dc.subjectмашинное обучениеru
dc.subject.udc004.855.5uk
dc.titleData augmentation with foreign language content in text classification using machine learningen
dc.title.alternativeДоповнення даних контентом на іноземних мовах в текстовій класифікації з використанням машинного навчанняuk
dc.title.alternativeДополнение данных контентом на иностранных языках в текстовой классификации с использованием машинного обученияru
dc.typeArticleuk

Файли

Контейнер файлів
Зараз показуємо 1 - 1 з 1
Вантажиться...
Ескіз
Назва:
asau-2020-1_51-59.pdf
Розмір:
581.52 KB
Формат:
Adobe Portable Document Format
Опис:
Ліцензійна угода
Зараз показуємо 1 - 1 з 1
Ескіз недоступний
Назва:
license.txt
Розмір:
9.16 KB
Формат:
Item-specific license agreed upon to submission
Опис: