Порiвняння методiв токенiзацiї WordPiece, та SentencePiece на прикладi задачi автоматизованого реферування
Вантажиться...
Дата
2023
Науковий керівник
Назва журналу
Номер ISSN
Назва тому
Видавець
КПІ ім. Ігоря Сікорського
Анотація
Квалiфiкацiйна робота мiстить: 58 сторiнок, 11 рисункiв, 6 таблиць, 38 джерел.
У данiй роботi розглядаються методи обробки даних для моделей глибинного навчання, а саме: частина речення, частина слова. Для порiвняння даних методiв, було вибрано модель трансформер, а задача – автоматизоване реферування тексту, або пiдсумовування тексту. В ходi дослiдження, було показано що метод частина речення є кращим методом за метрикою Rouge для поданих в данiй роботi даних та конфiгурацiї моделi.
Опис
Ключові слова
обробка природньої мови, natural language processing, машинне навчання, machine learning, трансформер, transformer, оптимiзацiя, optimization, методи токенiзацiї, tokenization methods, sentencepiece, wordpiece
Бібліографічний опис
Шморгун, Д. О. Порiвняння методiв токенiзацiї WordPiece, та SentencePiece на прикладi задачi автоматизованого реферування : дипломна робота … бакалавра : 113 Прикладна математика / Шморгун Данило Олександрович. – Київ, 2023. – 58 с.