Приватність користувацьких даних при обробці великими мовними моделями

dc.contributor.advisorСтьопочкіна, Ірина Валеріївна
dc.contributor.authorШахова, Катерина Євгеніївна
dc.date.accessioned2025-10-03T09:22:33Z
dc.date.available2025-10-03T09:22:33Z
dc.date.issued2024
dc.description.abstractМагістерська дисертація має обсяг 90 сторінок, містить 39 рисунків, 2 додатки, 20 таблиць та 25 джерел посилань. Завдяки своїй багатофункціональності великі мовні моделі стали незамінним інструментом у різних сферах, включаючи бізнес, освіту, медицину, розробку технологій тощо, забезпечуючи автоматизацію, ефективність та нові можливості для обробки інформації. Однак поширення великих мовних моделей підвищило ризики для конфіденційності та безпеки даних, зокрема можливість витоку особистої інформації. Під час навчання моделі можуть запам’ятати чутливу інформацію з навчальних текстів, а потім ненавмисно відобразити її у згенерованих відповідях. Крім того, дані користувачів, що надсилаються LLM під час сеансу, можуть зберігатися та аналізуватися компаніями без отримання дозволу. У даній роботі досліджено великі мовні моделі із фокусом на приватність даних користувачів. Міститься аналіз потенцій атак великих мовних моделей, та аналіз загроз безпеці із OWASP Top-10 для LLM. Розроблено програмне забезпечення для автоматичної анонімізації даних із використанням регулярних виразів, та за допомогою алгоритмів диференційної приватності здійснено тестування на витоки даних. Отримані результати дослідження можуть бути використані компаніями, що працюють із конфіденційними даними, для захисту інформації від витоків та несанкціонованого доступу.
dc.description.abstractotherThe master's thesis has a volume of 90 pages, contains 39 figures, 2 appendixes, 20 tables and 25 reference sources. Due to their multifunctionality, large language models have become an indispensable tool in various fields, including business, education, medicine, technology development, etc., providing automation, efficiency and new opportunities for information processing. However, the spread of large language models has increased risks to data privacy and security, in particular the possibility of leakage of personal information. During training, models can remember sensitive information from training texts, and then inadvertently display it in generated responses. In addition, user data sent to LLM during a session can be stored and analyzed by companies without obtaining permission. This paper investigates large language models with a focus on the privacy of user data. It contains an analysis of the attack potential of large language models, and an analysis of security threats from the OWASP Top-10 for LLM. Software for automatic data anonymization using regular expressions was developed, and data leakage testing was performed using differential privacy algorithms. The results of the research can be used by companies working with confidential data to protect information from leaks and unauthorized access.
dc.format.extent90 с.
dc.identifier.citationШахова, К. Є. Приватність користувацьких даних при обробці великими мовними моделями : магістерська дис. : 125 Кібербезпека та захист інформації / Шахова Катерина Євгеніївна. – Київ, 2024. – 90 с.
dc.identifier.urihttps://ela.kpi.ua/handle/123456789/76550
dc.language.isouk
dc.publisherКПІ ім. Ігоря Сікорського
dc.publisher.placeКиїв
dc.subjectвеликі мовні моделі
dc.subjectприватність даних
dc.subjectбезпека даних
dc.subjectджейлбрейкінг
dc.subjectlarge language models
dc.subjectdata privacy
dc.subjectdata security
dc.subjectjailbreaking
dc.subject.udc004.056
dc.titleПриватність користувацьких даних при обробці великими мовними моделями
dc.typeMaster Thesis

Файли

Контейнер файлів
Зараз показуємо 1 - 1 з 1
Вантажиться...
Ескіз
Назва:
Shakhova_magistr.pdf
Розмір:
4.63 MB
Формат:
Adobe Portable Document Format
Ліцензійна угода
Зараз показуємо 1 - 1 з 1
Ескіз недоступний
Назва:
license.txt
Розмір:
8.98 KB
Формат:
Item-specific license agreed upon to submission
Опис: