Порiвняння методiв токенiзацiї WordPiece, та SentencePiece на прикладi задачi автоматизованого реферування

Вантажиться...
Ескіз

Дата

2023

Назва журналу

Номер ISSN

Назва тому

Видавець

КПІ ім. Ігоря Сікорського

Анотація

Квалiфiкацiйна робота мiстить: 58 сторiнок, 11 рисункiв, 6 таблиць, 38 джерел. У данiй роботi розглядаються методи обробки даних для моделей глибинного навчання, а саме: частина речення, частина слова. Для порiвняння даних методiв, було вибрано модель трансформер, а задача – автоматизоване реферування тексту, або пiдсумовування тексту. В ходi дослiдження, було показано що метод частина речення є кращим методом за метрикою Rouge для поданих в данiй роботi даних та конфiгурацiї моделi.

Опис

Ключові слова

обробка природньої мови, natural language processing, машинне навчання, machine learning, трансформер, transformer, оптимiзацiя, optimization, методи токенiзацiї, tokenization methods, sentencepiece, wordpiece

Бібліографічний опис

Шморгун, Д. О. Порiвняння методiв токенiзацiї WordPiece, та SentencePiece на прикладi задачi автоматизованого реферування : дипломна робота … бакалавра : 113 Прикладна математика / Шморгун Данило Олександрович. – Київ, 2023. – 58 с.

DOI