Класифікація текстових повідомлень на основі обмежених наборів даних за допомогою мультимовних моделей глибинного навчання
dc.contributor.advisor | Олійник, Володимир Валентинович | |
dc.contributor.author | Матвійчук, Ірина Анатоліївна | |
dc.date.accessioned | 2023-07-11T09:41:48Z | |
dc.date.available | 2023-07-11T09:41:48Z | |
dc.date.issued | 2023-05 | |
dc.description.abstract | Пояснювальна записка магістерської дисертації складається з чотирьох розділів, містить 54 рисунка, 2 таблиці, 2 додатки та 29 джерел. Об`єкт дослідження: процес виявлення булінгу в україномовних текстах при відсутності достатньої кількості навчальних прикладів природною українською мовою. Мета дипломного проекту: підвищення ефективності текстової класифікації в умовах обмежених наборів даних за рахунок: застосування методів аугментації навчальних даних, використання мультимовниз моделей без навчання, створення гібридних моделей на основі мультимовних моделей з донавчанням на реальних даних. Практична цінність розробленої моделі полягає в тому, що доведена ефективність використання машинного перекладу для доповнення навчального і валідаційного наборів даних та запропонована двохетапна модель вирішення задач класифікації текстових даних для мов з обмеженими ресурсами на основі донавчання мультимовних моделей на доповнених наборах навчальних даних. | uk |
dc.description.abstractother | The explanatory note of the master’s dissertation consists of four sections, contains 54 pictures, 2 tables, 2 appendix, 29 sources. The object of study: the process of identifying bullying in Ukrainian-language texts in the absence of a sufficient number of educational examples in the natural Ukrainian language. The aim of the diploma project: increasing the effectiveness of text classification in conditions of limited datasets due to: the use of training data augmentation methods, the use of multilingual models without training, the creation of hybrid models based on multilingual models with additional training on real data. The practical value of the developed information system is that the effectiveness of using machine translation for addition of training and validation data sets was proven and a two-stage model for solving text data classification problems for languages with limited resources based on retraining multilingual models on supplemented training data sets was proposed. | uk |
dc.format.extent | 104 с. | uk |
dc.identifier.citation | Матвійчук, І. А. Класифікація текстових повідомлень на основі обмежених наборів даних за допомогою мультимовних моделей глибинного навчання : магістерська дис. : 126 Інформаційні системи та технології / Матвійчук Ірина Анатоліївна. – Київ, 2023. – 104 с. | uk |
dc.identifier.uri | https://ela.kpi.ua/handle/123456789/57964 | |
dc.language.iso | uk | uk |
dc.publisher | КПІ ім. Ігоря Сікорського | uk |
dc.publisher.place | Київ | uk |
dc.subject | мультимовні моделі | uk |
dc.subject | класифікація без навчання | uk |
dc.subject | виявлення булінгу | uk |
dc.subject | мультимовні моделі | uk |
dc.subject | програмний застосунок | uk |
dc.subject.udc | 004.852 | uk |
dc.title | Класифікація текстових повідомлень на основі обмежених наборів даних за допомогою мультимовних моделей глибинного навчання | uk |
dc.type | Master Thesis | uk |
Файли
Контейнер файлів
1 - 1 з 1
Вантажиться...
- Назва:
- Matviychuk_magistr.pdf
- Розмір:
- 3.07 MB
- Формат:
- Adobe Portable Document Format
- Опис:
Ліцензійна угода
1 - 1 з 1
Ескіз недоступний
- Назва:
- license.txt
- Розмір:
- 9.1 KB
- Формат:
- Item-specific license agreed upon to submission
- Опис: