Приватність користувацьких даних при обробці великими мовними моделями
| dc.contributor.advisor | Стьопочкіна, Ірина Валеріївна | |
| dc.contributor.author | Шахова, Катерина Євгеніївна | |
| dc.date.accessioned | 2025-10-03T09:22:33Z | |
| dc.date.available | 2025-10-03T09:22:33Z | |
| dc.date.issued | 2024 | |
| dc.description.abstract | Магістерська дисертація має обсяг 90 сторінок, містить 39 рисунків, 2 додатки, 20 таблиць та 25 джерел посилань. Завдяки своїй багатофункціональності великі мовні моделі стали незамінним інструментом у різних сферах, включаючи бізнес, освіту, медицину, розробку технологій тощо, забезпечуючи автоматизацію, ефективність та нові можливості для обробки інформації. Однак поширення великих мовних моделей підвищило ризики для конфіденційності та безпеки даних, зокрема можливість витоку особистої інформації. Під час навчання моделі можуть запам’ятати чутливу інформацію з навчальних текстів, а потім ненавмисно відобразити її у згенерованих відповідях. Крім того, дані користувачів, що надсилаються LLM під час сеансу, можуть зберігатися та аналізуватися компаніями без отримання дозволу. У даній роботі досліджено великі мовні моделі із фокусом на приватність даних користувачів. Міститься аналіз потенцій атак великих мовних моделей, та аналіз загроз безпеці із OWASP Top-10 для LLM. Розроблено програмне забезпечення для автоматичної анонімізації даних із використанням регулярних виразів, та за допомогою алгоритмів диференційної приватності здійснено тестування на витоки даних. Отримані результати дослідження можуть бути використані компаніями, що працюють із конфіденційними даними, для захисту інформації від витоків та несанкціонованого доступу. | |
| dc.description.abstractother | The master's thesis has a volume of 90 pages, contains 39 figures, 2 appendixes, 20 tables and 25 reference sources. Due to their multifunctionality, large language models have become an indispensable tool in various fields, including business, education, medicine, technology development, etc., providing automation, efficiency and new opportunities for information processing. However, the spread of large language models has increased risks to data privacy and security, in particular the possibility of leakage of personal information. During training, models can remember sensitive information from training texts, and then inadvertently display it in generated responses. In addition, user data sent to LLM during a session can be stored and analyzed by companies without obtaining permission. This paper investigates large language models with a focus on the privacy of user data. It contains an analysis of the attack potential of large language models, and an analysis of security threats from the OWASP Top-10 for LLM. Software for automatic data anonymization using regular expressions was developed, and data leakage testing was performed using differential privacy algorithms. The results of the research can be used by companies working with confidential data to protect information from leaks and unauthorized access. | |
| dc.format.extent | 90 с. | |
| dc.identifier.citation | Шахова, К. Є. Приватність користувацьких даних при обробці великими мовними моделями : магістерська дис. : 125 Кібербезпека та захист інформації / Шахова Катерина Євгеніївна. – Київ, 2024. – 90 с. | |
| dc.identifier.uri | https://ela.kpi.ua/handle/123456789/76550 | |
| dc.language.iso | uk | |
| dc.publisher | КПІ ім. Ігоря Сікорського | |
| dc.publisher.place | Київ | |
| dc.subject | великі мовні моделі | |
| dc.subject | приватність даних | |
| dc.subject | безпека даних | |
| dc.subject | джейлбрейкінг | |
| dc.subject | large language models | |
| dc.subject | data privacy | |
| dc.subject | data security | |
| dc.subject | jailbreaking | |
| dc.subject.udc | 004.056 | |
| dc.title | Приватність користувацьких даних при обробці великими мовними моделями | |
| dc.type | Master Thesis |
Файли
Контейнер файлів
1 - 1 з 1
Вантажиться...
- Назва:
- Shakhova_magistr.pdf
- Розмір:
- 4.63 MB
- Формат:
- Adobe Portable Document Format
Ліцензійна угода
1 - 1 з 1
Ескіз недоступний
- Назва:
- license.txt
- Розмір:
- 8.98 KB
- Формат:
- Item-specific license agreed upon to submission
- Опис: