Фільтр конфіденційної інформації для чатів із великими лінгвістичними моделями та використання локальних текстових баз даних

dc.contributor.advisorШаповал, Наталія Віталіївна
dc.contributor.authorБезимянний, Олексій Євгенович
dc.date.accessioned2024-02-19T09:55:30Z
dc.date.available2024-02-19T09:55:30Z
dc.date.issued2024
dc.description.abstractМагістерська дисертація: 81 с., 22 табл., 19 рис., 12 посилань, 1 додаток. Об’єкт дослідження – великі лінгвістичні моделі (LLM). Предмет дослідження – безпека їх використання разом з локальними текстовими базами даних. Метою роботи є створення такого фільтру, який би завадив витоку конфіденційної інформації та зловмисним маніпулюванням LLM, таким чином зробивши її безпечнішою відносно збереження особистої інформації. У магістерській дисертації виконано такі задачі: досліджено актуальність обраної теми, розглянуто підходи, методи та програми, що мають функціонал таких фільтрів, виявлені недоліки наявних методів, розроблено власний алгоритм та його реалізацію. Актуальність теми полягає у популярності використання LLM разом із локальними текстовими базами даних і відсутності належного захисту як LLM , так і конфіденційної інформації. У результаті створено фільтр як окремий функціональний блок із застосуванням семантичної подібності тексту для захисту конфіденційних даних та поліпшеною моделлю класифікації запитів, що має більшу швидкість та точність (0.85 проти 0.76 у найближчого конкурента). Семантичний фільтр не пропускає конфіденційну інформацію з вірогідністю 85%, порівняно з використанням заборони у промпті – 30%. Результати дослідження апробовано на двох конференціях та опубліковані у статті.
dc.description.abstractotherMaster's thesis: 81 pp., 22 tables, 19 figures, 12 sources, 1 appendix. The object of research is Large Language Models. The subject of research is the security of using LLM together with local text databases. The purpose of the work is to create such a filter that would prevent the leakage of confidential information and malicious manipulation of LLM, thus making it safer in terms of personal information. In the master's thesis, the following tasks were performed: the relevance of the chosen topic was investigated, approaches, methods and programs with the functionality of such filters were considered, shortcomings of existing methods were identified, an own algorithm and its implementation were developed. The relevance of the topic lies in the popularity of using LLM together with local text databases and the lack of adequate protection of both LLM and confidential information. As a result, a filter was created as a separate functional block using semantic text similarity to protect confidential data and an improved query classification model, which has greater speed and accuracy (0.85 vs. 0.76 of the nearest competitor). The semantic filter does not pass confidential information with a probability of 85% compared to the use of the prohibition in the prompt - 30%. The results of the research were tested at two conferences and published in an article.
dc.format.extent81 с.
dc.identifier.citationБезимянний, О. Є. Фільтр конфіденційної інформації для чатів із великими лінгвістичними моделями та використання локальних текстових баз даних : магістерська дис. : 122 Комп'ютерні науки / Безимянний Олексій Євгенович. - Київ, 2024. - 81 с.
dc.identifier.urihttps://ela.kpi.ua/handle/123456789/64677
dc.language.isouk
dc.publisherКПІ ім. Ігоря Сікорського
dc.publisher.placeКиїв
dc.subjectсемантичий пошук
dc.subjectвеликі лінгвістичні моделі
dc.subjectкласифікація запитів
dc.subjectглибоке навчання
dc.subjectобробка природньої мови
dc.subjectконфіденційний фільтр
dc.subjectзахист інформації
dc.subjectsemantic search
dc.subjectlarge language models
dc.subjectquery classification
dc.subjectdeep learning
dc.subjectnatural language processing
dc.subjectprivacy filter
dc.subjectinformation protection
dc.subject.udc004.8.056.5(043.3)
dc.titleФільтр конфіденційної інформації для чатів із великими лінгвістичними моделями та використання локальних текстових баз даних
dc.typeMaster Thesis

Файли

Контейнер файлів
Зараз показуємо 1 - 1 з 1
Вантажиться...
Ескіз
Назва:
Bezymiannyi_magistr.pdf
Розмір:
2.51 MB
Формат:
Adobe Portable Document Format
Ліцензійна угода
Зараз показуємо 1 - 1 з 1
Ескіз недоступний
Назва:
license.txt
Розмір:
8.98 KB
Формат:
Item-specific license agreed upon to submission
Опис: