Порiвняння методiв токенiзацiї WordPiece, та SentencePiece на прикладi задачi автоматизованого реферування
dc.contributor.advisor | Яворський, Олександр Андрійович | |
dc.contributor.author | Шморгун, Данило Олександрович | |
dc.date.accessioned | 2023-09-10T17:16:27Z | |
dc.date.available | 2023-09-10T17:16:27Z | |
dc.date.issued | 2023 | |
dc.description.abstract | Квалiфiкацiйна робота мiстить: 58 сторiнок, 11 рисункiв, 6 таблиць, 38 джерел. У данiй роботi розглядаються методи обробки даних для моделей глибинного навчання, а саме: частина речення, частина слова. Для порiвняння даних методiв, було вибрано модель трансформер, а задача – автоматизоване реферування тексту, або пiдсумовування тексту. В ходi дослiдження, було показано що метод частина речення є кращим методом за метрикою Rouge для поданих в данiй роботi даних та конфiгурацiї моделi. | uk |
dc.description.abstractother | This paper examines data processing methods for deep learning models, such as text tokenization methods: part-of-sentence, part-of-word. To compare these methods, a transformer model was chosen, and the task was automated abstracting or summarization of the text. During the research, it was shown that the SentencePiece method is the best method according to the Rouge metric with respect to the data and model configuration presented in this paper. | uk |
dc.format.extent | 58 с. | uk |
dc.identifier.citation | Шморгун, Д. О. Порiвняння методiв токенiзацiї WordPiece, та SentencePiece на прикладi задачi автоматизованого реферування : дипломна робота … бакалавра : 113 Прикладна математика / Шморгун Данило Олександрович. – Київ, 2023. – 58 с. | uk |
dc.identifier.uri | https://ela.kpi.ua/handle/123456789/60140 | |
dc.language.iso | uk | uk |
dc.publisher | КПІ ім. Ігоря Сікорського | uk |
dc.publisher.place | Київ | uk |
dc.subject | обробка природньої мови | uk |
dc.subject | natural language processing | uk |
dc.subject | машинне навчання | uk |
dc.subject | machine learning | uk |
dc.subject | трансформер | uk |
dc.subject | transformer | uk |
dc.subject | оптимiзацiя | uk |
dc.subject | optimization | uk |
dc.subject | методи токенiзацiї | uk |
dc.subject | tokenization methods | uk |
dc.subject | sentencepiece | uk |
dc.subject | wordpiece | uk |
dc.title | Порiвняння методiв токенiзацiї WordPiece, та SentencePiece на прикладi задачi автоматизованого реферування | uk |
dc.type | Bachelor Thesis | uk |
Файли
Контейнер файлів
1 - 1 з 1
Вантажиться...
- Назва:
- Shmorhun_bakalavr.pdf
- Розмір:
- 780.33 KB
- Формат:
- Adobe Portable Document Format
- Опис:
Ліцензійна угода
1 - 1 з 1
Ескіз недоступний
- Назва:
- license.txt
- Розмір:
- 9.1 KB
- Формат:
- Item-specific license agreed upon to submission
- Опис: