Вилучення знань з великих мовних моделей: метод видалення шкідливих, авторських та приватних даних

dc.contributor.advisorБаздирев, Антон Андрійович
dc.contributor.authorБаштовий, Іван Сергійович
dc.date.accessioned2025-09-22T08:19:51Z
dc.date.available2025-09-22T08:19:51Z
dc.date.issued2025
dc.description.abstractДипломна робота: 208 ст., 12 рис., 8 табл., 38 джерела, 1 додаток. Об’єктом дослідження є методи вилучення знань із великих мовних моделей (LLM), які забезпечують селективне видалення приватних, ліцензійних та шкідливих відомостей без повного перетренування, зберігаючи загальну точність моделі. Предметом дослідження виступають математичні та алгоритмічні підходи до селективного вилучення знань, а також методологія оцінювання цього процесу за допомогою існуючих і розроблених бенчмарків. Метою роботи є створення уніфікованої методології й yoпрограмного забезпечення, які дозволяють точково видаляти небажані дані з LLM, одночасно підтримуючи корисну функціональність. Актуальність зумовлена потребою гарантувати конфіденційність, дотримання авторських прав і протидію поширенню шкідливої інформації на тлі стрімкого зростання використання LLM та недостатньо досліджених методів розв’язання цих викликів. Результатом роботи є програмна система, що реалізує запропоновану методологію вилучення знань для LLM і забезпечує їх оцінювання на уніфікованій шкалі. Подальший розвиток передбачає удосконалення алгоритмів для точнішої інтеграції процедур вилучення знань, розширення набору бенчмарків, дослідження довготривалої стійкості моделей до повторних запитів на забуття та поліпшення підтримки багатомовних сценаріїв.
dc.description.abstractotherBachelor’s thesis: 208 p., 12 figures, 8 tables, 38 references, 1 appendix. The object of the study is a set of methods for removing knowledge from large language models (LLMs) that enable selective elimination of private, copyrighted and harmful content without full retraining while preserving overall model accuracy. The subject of the research comprises mathematical and algorithmic approaches to selective knowledge unlearning, together with an evaluation methodology based on existing and newly designed benchmarks. The purpose of the work is to develop a unified methodology and software that allow targeted deletion of unwanted data from LLMs while maintaining their useful functionality on Ukrainian and multilingual corpora. The relevance of the study stems from the need to ensure privacy, uphold copyright and counteract the spread of harmful information amid the rapid adoption of LLMs and the limited exploration of effective mitigation techniques. The result of the work is a software system that implements the proposed knowledge-unlearning methodology for LLMs and provides evaluation on a unified scale. Future development includes refining algorithms for more precise integration of unlearning procedures, expanding the benchmark suite, investigating long-term model robustness to repeated deletion requests and enhancing support for multilingual scenarios.
dc.format.extent210 с.
dc.identifier.citationБаштовий, І. С. Вилучення знань з великих мовних моделей: метод видалення шкідливих, авторських та приватних даних : дипломна робота … бакалавра : 124 Системний аналіз / Баштовий Іван Сергійович. – Київ, 2025. – 210 с.
dc.identifier.urihttps://ela.kpi.ua/handle/123456789/76201
dc.language.isouk
dc.publisherКПІ ім. Ігоря Сікорського
dc.publisher.placeКиїв
dc.subjectвеликі мовні моделі
dc.subjectвилучення знань
dc.subjectправо на забуття
dc.subjectкопірайт
dc.subjectприватні дані
dc.subjectдезінформація
dc.titleВилучення знань з великих мовних моделей: метод видалення шкідливих, авторських та приватних даних
dc.typeBachelor Thesis

Файли

Контейнер файлів
Зараз показуємо 1 - 1 з 1
Вантажиться...
Ескіз
Назва:
Bashtovyi_bakalavr.pdf
Розмір:
18.46 MB
Формат:
Adobe Portable Document Format
Ліцензійна угода
Зараз показуємо 1 - 1 з 1
Ескіз недоступний
Назва:
license.txt
Розмір:
8.98 KB
Формат:
Item-specific license agreed upon to submission
Опис: