Data augmentation with foreign language content in text classification using machine learning
dc.contributor.author | Oliinyk, V. | |
dc.contributor.author | Osadcha, K. | |
dc.date.accessioned | 2020-12-08T09:47:08Z | |
dc.date.available | 2020-12-08T09:47:08Z | |
dc.date.issued | 2020 | |
dc.description.abstracten | The object of research is the data augmentation method in text classification problems using machine learning methods. The method is considered on the example of sentiment analysis of visitor reviews of hotels. It is shown that datasets with insufficient volume or representativeness requires special methods for increasing the amount of data in it. The aim of the work is to improve the accuracy of the neural network in the tasks of text classification by increasing the amount of data. To achieve the goal, it was proposed to use text data written in languages of other families, which will be translated into the target language using Google translator. Russian was chosen as the target language. To level the effect of the model on the results, a simple neural network is used - a multilayer perceptron with variations in the parameters of its structure. The article investigated the influence of the considered data augmentation method on the resulting accuracy of the network. According to experimental results, the expediency of using this method in a number of tasks is shown. | en |
dc.description.abstractru | Объектом исследования является метод аугментации данных в задаче классификации текстового контента с помощью методов машинного обучения. Метод рассматривается на примере задачи определения тональности отзывов посетителей об отелях. Показана необходимость применения методов искусственного увеличения количества данных при недостаточном объеме или репрезентативности датасета. Целью работы является улучшение точности работы нейронной сети в задаче классификации текстов за счет увеличения объема данных. Для достижения цели было предложено использование текстовых данных написанных на языках других семейств, которые будут переводится на целевой язык с помощью Google переводчика, в качестве целевого языка был выбран русский язык. Для нивелирования влияния модели на результаты используется простая нейронная сеть – многослойный персептрон с вариациями параметров его структуры. В статье исследовалось влияние рассматриваемого метода аугментации данных на результаты точности работы сети. По результатам работы показана целесообразность использования данного метода в ряде задач. | ru |
dc.description.abstractuk | Об'єктом дослідження є метод аугментації даних в задачі класифікації текстового контенту за допомогою методів машинного навчання. Метод розглядається на прикладі задачі визначення тональності відгуків відвідувачів про готелі. Показана необхідність застосування методів штучного збільшення кількості даних при недостатньому обсязі або репрезентативності датасету. Метою роботи є поліпшення точності роботи нейронної мережі в задачі класифікації текстів за рахунок збільшення обсягу даних. Для досягнення мети було запропоновано використання текстових даних, написаних на мовах інших сімейств, які будуть перекладається на цільову мову за допомогою Google перекладача, кінцевою мовою перекладу була обрана російська. Для нівелювання впливу моделі на результати використовується проста нейронна мережа - багатошаровий персептрон з варіаціями параметрів його структури. У статті досліджувався вплив даного методу аугментації даних на результати точності роботи мережі. За результатами роботи показана доцільність використання даного методу в ряді задач. | uk |
dc.format.pagerange | Pp. 51-59 | uk |
dc.identifier.citation | Oliinyk, V. Data augmentation with foreign language content in text classification using machine learning / V. Oliinyk, K. Osadcha // Адаптивні системи автоматичного управління : міжвідомчий науково-технічний збірник. – 2020. – № 1 (36). – С. 51–59. – Бібліогр.: 7 назв. | uk |
dc.identifier.doi | https://doi.org/10.20535/1560-8956.36.2020.209763 | |
dc.identifier.uri | https://ela.kpi.ua/handle/123456789/37947 | |
dc.language.iso | en | uk |
dc.publisher | КПІ ім. Ігоря Сікорського | uk |
dc.publisher.place | Київ | uk |
dc.source | Адаптивні системи автоматичного управління : міжвідомчий науково-технічний збірник, 2020, № 1 (36) | uk |
dc.subject | sentiment analysis | en |
dc.subject | text classification | en |
dc.subject | representative data | en |
dc.subject | data processing | en |
dc.subject | data augmentation | en |
dc.subject | machine learning | en |
dc.subject | MLP | en |
dc.subject | аналіз тональності тексту | uk |
dc.subject | класифікація тексту | uk |
dc.subject | репрезентативні дані | uk |
dc.subject | обробка даних | uk |
dc.subject | збільшення даних | uk |
dc.subject | машинне навчання | uk |
dc.subject | анализ тональности текста | ru |
dc.subject | классификация текста | ru |
dc.subject | репрезентативные данные | ru |
dc.subject | обработка данных | ru |
dc.subject | увеличение данных | ru |
dc.subject | машинное обучение | ru |
dc.subject.udc | 004.855.5 | uk |
dc.title | Data augmentation with foreign language content in text classification using machine learning | en |
dc.title.alternative | Доповнення даних контентом на іноземних мовах в текстовій класифікації з використанням машинного навчання | uk |
dc.title.alternative | Дополнение данных контентом на иностранных языках в текстовой классификации с использованием машинного обучения | ru |
dc.type | Article | uk |
Файли
Контейнер файлів
1 - 1 з 1
Вантажиться...
- Назва:
- asau-2020-1_51-59.pdf
- Розмір:
- 581.52 KB
- Формат:
- Adobe Portable Document Format
- Опис:
Ліцензійна угода
1 - 1 з 1
Ескіз недоступний
- Назва:
- license.txt
- Розмір:
- 9.16 KB
- Формат:
- Item-specific license agreed upon to submission
- Опис: