Метод розпізнавання іменованих сутностей в українській мові з малою кількістю навчальних прикладів
| dc.contributor.advisor | Шаповал, Наталія Віталіївна | |
| dc.contributor.author | Кашперова, Софія Володимирівна | |
| dc.date.accessioned | 2026-02-18T13:02:48Z | |
| dc.date.available | 2026-02-18T13:02:48Z | |
| dc.date.issued | 2025 | |
| dc.description.abstract | Магістерська дисертація: 132с., 14 рис., 19 табл., 49 посилань, додаток. Об’єкт дослідження – процес розпізнавання іменованих сутностей в українських текстах. Предмет дослідження – метод розпізнавання іменованих сутностей з малою кількістю навчальних прикладів. Мета дослідження – розробити та експериментально оцінити метод розпізнавання іменованих сутностей в українських текстах з малою кількістю навчальних прикладів, порівняти ефективність з великими мовними моделями. Новизна: запропонований метод раніше не застосовувався для розпізнавання іменованих сутностей; на момент розробки програмного продукту не існує відкритих моделей, що працюють у zero-shot/few-shot режимі й спеціально навчені для української мови. У даній роботі було реалізовано метод з модулем, який поєднує контекстні подання токенів тексту з поданнями текстових промптів класів сутностей та модулем, що підвищує розрізнювальну здатність моделі за рахунок явного моделювання як подібності, так і відмінностей між поданнями. Практичне значення роботи полягає у створенні прототипу NER системи, що підтримує українську, може застосовуватися для попередньої обробки текстових даних у задачах аналітики, пошуку, чат-ботів та інформаційного видобування, а також розширенні розмічених корпусів українською мовою. | |
| dc.description.abstractother | Master's thesis: 132 p., 14 figures, 19 tables, 49 references, appendix. The object of the study is the process of named entity recognition in Ukrainian. The subject of the research is a method for named entity recognition with small number of training examples. The purpose of the work is to develop and experimentally evaluate a method for named entity recognition in Ukrainian texts with a small amount of training data and to compare its effectiveness with large language models. Novelty: the proposed method has not previously been used for named entity recognition; at the time of developing the software product there were no open-source models that operate in a zero-shot mode and are specifically trained for the Ukrainian language. In this paper the method was implemented with a module that fuses contextual representations of text tokens with textual prompts of entity classes, and with a scoring module that increases the discriminative power of the model by explicitly modelling both similarity and difference between the representations. The practical significance of the study lies in the development of a prototype NER system that supports Ukrainian and can be used for preprocessing textual data in analytics, search, chat-bots and information retrieval tasks, as well as for extending annotated corpora in the Ukrainian language. | |
| dc.format.extent | 132 с. | |
| dc.identifier.citation | Кашперова, С. В. Метод розпізнавання іменованих сутностей в українській мові з малою кількістю навчальних прикладів : магістерська дис. : 122 Комп'ютерні науки / Кашперова Софія Володимирівна. – Київ, 2025. – 132 с. | |
| dc.identifier.uri | https://ela.kpi.ua/handle/123456789/78856 | |
| dc.language.iso | uk | |
| dc.publisher | КПІ ім. Ігоря Сікорського | |
| dc.publisher.place | Київ | |
| dc.subject | розпізнавання іменованих сутностей | |
| dc.subject | малорозмічені дані | |
| dc.subject | великі мовні моделі | |
| dc.subject | трансформери | |
| dc.subject | глибоке навчання | |
| dc.subject | доменна адаптація | |
| dc.subject.udc | 004.85:004.912:811.161.2(043.3) | |
| dc.title | Метод розпізнавання іменованих сутностей в українській мові з малою кількістю навчальних прикладів | |
| dc.type | Master Thesis |
Файли
Контейнер файлів
1 - 1 з 1
Вантажиться...
- Назва:
- Kashperova_magistr-1.pdf
- Розмір:
- 2.71 MB
- Формат:
- Adobe Portable Document Format
Ліцензійна угода
1 - 1 з 1
Ескіз недоступний
- Назва:
- license.txt
- Розмір:
- 8.98 KB
- Формат:
- Item-specific license agreed upon to submission
- Опис: