Порiвняння методiв токенiзацiї WordPiece, та SentencePiece на прикладi задачi автоматизованого реферування

dc.contributor.advisorЯворський, Олександр Андрійович
dc.contributor.authorШморгун, Данило Олександрович
dc.date.accessioned2023-09-10T17:16:27Z
dc.date.available2023-09-10T17:16:27Z
dc.date.issued2023
dc.description.abstractКвалiфiкацiйна робота мiстить: 58 сторiнок, 11 рисункiв, 6 таблиць, 38 джерел. У данiй роботi розглядаються методи обробки даних для моделей глибинного навчання, а саме: частина речення, частина слова. Для порiвняння даних методiв, було вибрано модель трансформер, а задача – автоматизоване реферування тексту, або пiдсумовування тексту. В ходi дослiдження, було показано що метод частина речення є кращим методом за метрикою Rouge для поданих в данiй роботi даних та конфiгурацiї моделi.uk
dc.description.abstractotherThis paper examines data processing methods for deep learning models, such as text tokenization methods: part-of-sentence, part-of-word. To compare these methods, a transformer model was chosen, and the task was automated abstracting or summarization of the text. During the research, it was shown that the SentencePiece method is the best method according to the Rouge metric with respect to the data and model configuration presented in this paper.uk
dc.format.extent58 с.uk
dc.identifier.citationШморгун, Д. О. Порiвняння методiв токенiзацiї WordPiece, та SentencePiece на прикладi задачi автоматизованого реферування : дипломна робота … бакалавра : 113 Прикладна математика / Шморгун Данило Олександрович. – Київ, 2023. – 58 с.uk
dc.identifier.urihttps://ela.kpi.ua/handle/123456789/60140
dc.language.isoukuk
dc.publisherКПІ ім. Ігоря Сікорськогоuk
dc.publisher.placeКиївuk
dc.subjectобробка природньої мовиuk
dc.subjectnatural language processinguk
dc.subjectмашинне навчанняuk
dc.subjectmachine learninguk
dc.subjectтрансформерuk
dc.subjecttransformeruk
dc.subjectоптимiзацiяuk
dc.subjectoptimizationuk
dc.subjectметоди токенiзацiїuk
dc.subjecttokenization methodsuk
dc.subjectsentencepieceuk
dc.subjectwordpieceuk
dc.titleПорiвняння методiв токенiзацiї WordPiece, та SentencePiece на прикладi задачi автоматизованого реферуванняuk
dc.typeBachelor Thesisuk

Файли

Контейнер файлів
Зараз показуємо 1 - 1 з 1
Вантажиться...
Ескіз
Назва:
Shmorhun_bakalavr.pdf
Розмір:
780.33 KB
Формат:
Adobe Portable Document Format
Опис:
Ліцензійна угода
Зараз показуємо 1 - 1 з 1
Ескіз недоступний
Назва:
license.txt
Розмір:
9.1 KB
Формат:
Item-specific license agreed upon to submission
Опис: