Атаки на великі мовні моделі та впровадження механізмів захисту
dc.contributor.advisor | Родіонов, Андрій Миколайович | |
dc.contributor.author | Сотнікова, Поліна Олегівна | |
dc.date.accessioned | 2025-09-15T07:59:40Z | |
dc.date.available | 2025-09-15T07:59:40Z | |
dc.date.issued | 2024 | |
dc.description.abstract | Обсяг дипломної роботи 96 сторінок, 69 ілюстрацій, 2 таблиці, 1 додаток і 56 джерел літератури. Об’єкт дослідження: Великі мовні моделі. Предмет дослідження: Атаки на великі мовні моделі та механізми захисту. Мета дослідження: впровадження механізмів захисту великих мовних моделей для протидії атакам прямої ін’єкції запиту та витоку конфіденційної інформації. Методи дослідження: аналіз (аналіз наявних теоретичних джерел, що стосуються функціонування великих мовних моделей, документації, проєкту OWASP Top 10 for LLMs, звіту NIST AI), тестування атак прямої ін'єкції запиту на існуючих ВММ, збір наборів даних, тонке налаштування моделі, порівняння впроваджених механізмів. Отримані результати: були протестовані найефективніші методи захисту від атак на великі мовні моделі, отримана тонко налаштована модель TinyLlama, яка здатна протистояти існуючим маніпуляціям та отриманий анонімізований датасет, який можна використовувати для подальшого навчання моделей. Результати роботи були представлені на XXII Всеукраїнській науковопрактичній конференції студентів, аспірантів та молодих вчених «Теоретичні і прикладні проблеми фізики, математики та інформатики (13-17 травня 2024 р., м. Київ, Україна). | |
dc.description.abstractother | The volume of the thesis is 96 pages, 69 illustrations, 2 tables, 1 appendix and 56 sources of literature. Object of research: Large language models. Subject of research: Attacks on large language models and defense mechanisms. Purpose of the study: implementation of security mechanisms for large language models in order to counter direct prompt injection attacks and confidential information leakage. Research methods: analysis (analysis of available theoretical sources related to the functioning of large language models, documentation, OWASP Top 10 for LLMs project, NIST AI report), testing of direct pronpt injection attacks on existing LLMs, collection of datasets, fine-tuning of the model, comparison of the effectiveness of the implemented mechanisms. Results: the most effective methods of protection against attacks on large language models were tested, a fine-tuned TinyLlama model was obtained that is able to withstand existing manipulations, and an anonymized dataset was obtained that can be used for further model training. The results were presented at the XXII All-Ukrainian Scientific and Practical Conference of Students, Postgraduates and Young Scientists "Theoretical and Applied Problems of Physics, Mathematics and Informatics" (13-17 May 2024, Kyiv, Ukraine) | |
dc.format.extent | 96 с. | |
dc.identifier.citation | Сотнікова, П. О. Атаки на великі мовні моделі та впровадження механізмів захисту : дипломна робота ... бакалавра : 125 Кібербезпека / Сотнікова Поліна Олегівна. – Київ, 2024. – 96с. | |
dc.identifier.uri | https://ela.kpi.ua/handle/123456789/75995 | |
dc.language.iso | uk | |
dc.publisher | КПІ ім. Ігоря Сікорського | |
dc.publisher.place | Київ | |
dc.subject | велика мовна модель (ВММ) | |
dc.subject | штучний інтелект (ШІ) | |
dc.subject | ін’єкція запиту | |
dc.subject | джейлбрейк | |
dc.subject | тонке налаштування | |
dc.subject | large language model (LLM) | |
dc.subject | artificial intelligence (AI) | |
dc.subject | prompt injection | |
dc.subject | jailbreak | |
dc.subject | fine-tuning | |
dc.title | Атаки на великі мовні моделі та впровадження механізмів захисту | |
dc.type | Bachelor Thesis |
Файли
Контейнер файлів
1 - 1 з 1
Вантажиться...
- Назва:
- Sotnikova_bakalavr.pdf
- Розмір:
- 4.73 MB
- Формат:
- Adobe Portable Document Format
Ліцензійна угода
1 - 1 з 1
Ескіз недоступний
- Назва:
- license.txt
- Розмір:
- 8.98 KB
- Формат:
- Item-specific license agreed upon to submission
- Опис: