Метод розпізнавання іменованих сутностей в українській мові з малою кількістю навчальних прикладів
Вантажиться...
Дата
2025
Науковий керівник
Назва журналу
Номер ISSN
Назва тому
Видавець
КПІ ім. Ігоря Сікорського
Анотація
Магістерська дисертація: 132с., 14 рис., 19 табл., 49 посилань,
додаток.
Об’єкт дослідження – процес розпізнавання іменованих сутностей в
українських текстах.
Предмет дослідження – метод розпізнавання іменованих сутностей з
малою кількістю навчальних прикладів.
Мета дослідження – розробити та експериментально оцінити метод
розпізнавання іменованих сутностей в українських текстах з малою кількістю
навчальних прикладів, порівняти ефективність з великими мовними
моделями.
Новизна: запропонований метод раніше не
застосовувався для
розпізнавання іменованих сутностей; на момент розробки програмного
продукту не існує відкритих моделей, що працюють у zero-shot/few-shot
режимі й спеціально навчені для української мови.
У даній роботі було реалізовано метод з модулем, який поєднує
контекстні подання токенів тексту з поданнями текстових промптів класів
сутностей та модулем, що підвищує розрізнювальну здатність моделі за
рахунок явного моделювання як подібності, так і відмінностей між
поданнями.
Практичне значення роботи полягає у створенні прототипу NER
системи, що підтримує українську, може застосовуватися для попередньої
обробки текстових даних у задачах аналітики, пошуку, чат-ботів та
інформаційного видобування, а також розширенні розмічених корпусів
українською мовою.
Опис
Ключові слова
розпізнавання іменованих сутностей, малорозмічені дані, великі мовні моделі, трансформери, глибоке навчання, доменна адаптація
Бібліографічний опис
Кашперова, С. В. Метод розпізнавання іменованих сутностей в українській мові з малою кількістю навчальних прикладів : магістерська дис. : 122 Комп'ютерні науки / Кашперова Софія Володимирівна. – Київ, 2025. – 132 с.