Фільтр конфіденційної інформації для чатів із великими лінгвістичними моделями та використання локальних текстових баз даних

Вантажиться...
Ескіз

Дата

2024

Назва журналу

Номер ISSN

Назва тому

Видавець

КПІ ім. Ігоря Сікорського

Анотація

Магістерська дисертація: 81 с., 22 табл., 19 рис., 12 посилань, 1 додаток. Об’єкт дослідження – великі лінгвістичні моделі (LLM). Предмет дослідження – безпека їх використання разом з локальними текстовими базами даних. Метою роботи є створення такого фільтру, який би завадив витоку конфіденційної інформації та зловмисним маніпулюванням LLM, таким чином зробивши її безпечнішою відносно збереження особистої інформації. У магістерській дисертації виконано такі задачі: досліджено актуальність обраної теми, розглянуто підходи, методи та програми, що мають функціонал таких фільтрів, виявлені недоліки наявних методів, розроблено власний алгоритм та його реалізацію. Актуальність теми полягає у популярності використання LLM разом із локальними текстовими базами даних і відсутності належного захисту як LLM , так і конфіденційної інформації. У результаті створено фільтр як окремий функціональний блок із застосуванням семантичної подібності тексту для захисту конфіденційних даних та поліпшеною моделлю класифікації запитів, що має більшу швидкість та точність (0.85 проти 0.76 у найближчого конкурента). Семантичний фільтр не пропускає конфіденційну інформацію з вірогідністю 85%, порівняно з використанням заборони у промпті – 30%. Результати дослідження апробовано на двох конференціях та опубліковані у статті.

Опис

Ключові слова

семантичий пошук, великі лінгвістичні моделі, класифікація запитів, глибоке навчання, обробка природньої мови, конфіденційний фільтр, захист інформації, semantic search, large language models, query classification, deep learning, natural language processing, privacy filter, information protection

Бібліографічний опис

Безимянний, О. Є. Фільтр конфіденційної інформації для чатів із великими лінгвістичними моделями та використання локальних текстових баз даних : магістерська дис. : 122 Комп'ютерні науки / Безимянний Олексій Євгенович. - Київ, 2024. - 81 с.

DOI