Приватність користувацьких даних при обробці великими мовними моделями
Вантажиться...
Дата
2024
Автори
Науковий керівник
Назва журналу
Номер ISSN
Назва тому
Видавець
КПІ ім. Ігоря Сікорського
Анотація
Магістерська дисертація має обсяг 90 сторінок, містить 39 рисунків, 2 додатки, 20 таблиць та 25 джерел посилань. Завдяки своїй багатофункціональності великі мовні моделі стали незамінним інструментом у різних сферах, включаючи бізнес, освіту, медицину, розробку технологій тощо, забезпечуючи автоматизацію, ефективність та нові можливості для обробки інформації. Однак поширення великих мовних моделей підвищило ризики для конфіденційності та безпеки даних, зокрема можливість витоку особистої інформації. Під час навчання моделі можуть запам’ятати чутливу інформацію з навчальних текстів, а потім ненавмисно відобразити її у згенерованих відповідях. Крім того, дані користувачів, що надсилаються LLM під час сеансу, можуть зберігатися та аналізуватися компаніями без отримання дозволу. У даній роботі досліджено великі мовні моделі із фокусом на приватність даних користувачів. Міститься аналіз потенцій атак великих мовних моделей, та аналіз загроз безпеці із OWASP Top-10 для LLM. Розроблено програмне забезпечення для автоматичної анонімізації даних із використанням регулярних виразів, та за допомогою алгоритмів диференційної приватності здійснено тестування на витоки даних. Отримані результати дослідження можуть бути використані компаніями, що працюють із конфіденційними даними, для захисту інформації від витоків та несанкціонованого доступу.
Опис
Ключові слова
великі мовні моделі, приватність даних, безпека даних, джейлбрейкінг, large language models, data privacy, data security, jailbreaking
Бібліографічний опис
Шахова, К. Є. Приватність користувацьких даних при обробці великими мовними моделями : магістерська дис. : 125 Кібербезпека та захист інформації / Шахова Катерина Євгеніївна. – Київ, 2024. – 90 с.