Фільтр конфіденційної інформації для чатів із великими лінгвістичними моделями та використання локальних текстових баз даних
dc.contributor.advisor | Шаповал, Наталія Віталіївна | |
dc.contributor.author | Безимянний, Олексій Євгенович | |
dc.date.accessioned | 2024-02-19T09:55:30Z | |
dc.date.available | 2024-02-19T09:55:30Z | |
dc.date.issued | 2024 | |
dc.description.abstract | Магістерська дисертація: 81 с., 22 табл., 19 рис., 12 посилань, 1 додаток. Об’єкт дослідження – великі лінгвістичні моделі (LLM). Предмет дослідження – безпека їх використання разом з локальними текстовими базами даних. Метою роботи є створення такого фільтру, який би завадив витоку конфіденційної інформації та зловмисним маніпулюванням LLM, таким чином зробивши її безпечнішою відносно збереження особистої інформації. У магістерській дисертації виконано такі задачі: досліджено актуальність обраної теми, розглянуто підходи, методи та програми, що мають функціонал таких фільтрів, виявлені недоліки наявних методів, розроблено власний алгоритм та його реалізацію. Актуальність теми полягає у популярності використання LLM разом із локальними текстовими базами даних і відсутності належного захисту як LLM , так і конфіденційної інформації. У результаті створено фільтр як окремий функціональний блок із застосуванням семантичної подібності тексту для захисту конфіденційних даних та поліпшеною моделлю класифікації запитів, що має більшу швидкість та точність (0.85 проти 0.76 у найближчого конкурента). Семантичний фільтр не пропускає конфіденційну інформацію з вірогідністю 85%, порівняно з використанням заборони у промпті – 30%. Результати дослідження апробовано на двох конференціях та опубліковані у статті. | |
dc.description.abstractother | Master's thesis: 81 pp., 22 tables, 19 figures, 12 sources, 1 appendix. The object of research is Large Language Models. The subject of research is the security of using LLM together with local text databases. The purpose of the work is to create such a filter that would prevent the leakage of confidential information and malicious manipulation of LLM, thus making it safer in terms of personal information. In the master's thesis, the following tasks were performed: the relevance of the chosen topic was investigated, approaches, methods and programs with the functionality of such filters were considered, shortcomings of existing methods were identified, an own algorithm and its implementation were developed. The relevance of the topic lies in the popularity of using LLM together with local text databases and the lack of adequate protection of both LLM and confidential information. As a result, a filter was created as a separate functional block using semantic text similarity to protect confidential data and an improved query classification model, which has greater speed and accuracy (0.85 vs. 0.76 of the nearest competitor). The semantic filter does not pass confidential information with a probability of 85% compared to the use of the prohibition in the prompt - 30%. The results of the research were tested at two conferences and published in an article. | |
dc.format.extent | 81 с. | |
dc.identifier.citation | Безимянний, О. Є. Фільтр конфіденційної інформації для чатів із великими лінгвістичними моделями та використання локальних текстових баз даних : магістерська дис. : 122 Комп'ютерні науки / Безимянний Олексій Євгенович. - Київ, 2024. - 81 с. | |
dc.identifier.uri | https://ela.kpi.ua/handle/123456789/64677 | |
dc.language.iso | uk | |
dc.publisher | КПІ ім. Ігоря Сікорського | |
dc.publisher.place | Київ | |
dc.subject | семантичий пошук | |
dc.subject | великі лінгвістичні моделі | |
dc.subject | класифікація запитів | |
dc.subject | глибоке навчання | |
dc.subject | обробка природньої мови | |
dc.subject | конфіденційний фільтр | |
dc.subject | захист інформації | |
dc.subject | semantic search | |
dc.subject | large language models | |
dc.subject | query classification | |
dc.subject | deep learning | |
dc.subject | natural language processing | |
dc.subject | privacy filter | |
dc.subject | information protection | |
dc.subject.udc | 004.8.056.5(043.3) | |
dc.title | Фільтр конфіденційної інформації для чатів із великими лінгвістичними моделями та використання локальних текстових баз даних | |
dc.type | Master Thesis |
Файли
Контейнер файлів
1 - 1 з 1
Вантажиться...
- Назва:
- Bezymiannyi_magistr.pdf
- Розмір:
- 2.51 MB
- Формат:
- Adobe Portable Document Format
Ліцензійна угода
1 - 1 з 1
Ескіз недоступний
- Назва:
- license.txt
- Розмір:
- 8.98 KB
- Формат:
- Item-specific license agreed upon to submission
- Опис: