Методи пошуку рецептів на основі TF-IDF і ембедінгів: порівняльний аналіз

dc.contributor.advisorКухарєв, Сергій Олександрович
dc.contributor.authorКимачинський, Кирил Дмитрович
dc.date.accessioned2025-09-04T09:57:22Z
dc.date.available2025-09-04T09:57:22Z
dc.date.issued2025
dc.description.abstractДипломна робота: 95 стор., 14 рис., 17 посилань, 1 додаток. Об’єктом дослідження є процес текстового інформаційного пошуку в системах, орієнтованих на користувача. Предметом дослідження є вплив спотворень у текстових запитах на якість пошуку при використанні моделей TF-IDF та Sentence-BERT. Метою роботи є порівняльний аналіз ефективності TF-IDF та Sentence-BERT у задачі пошуку текстової інформації за спотвореними запитами. У дипломній роботі досліджується ефективність методів текстового пошуку в умовах спотворених запитів на прикладі системи пошуку кулінарних рецептів. Основна увага приділяється порівнянню класичного лексичного підходу TF-IDF та сучасного векторного пошуку за допомогою моделі Sentence–BERT. У ході роботи було реалізовано програмне забезпечення, яке дозволяє моделювати різні типи та рівні спотворень, оцінювати результати пошуку та аналізувати стійкість обох моделей. Актуальність роботи зумовлена тим, що в реальних умовах користувачі часто вводять неточні або неформалізовані запити, що істотно впливає на релевантність відповідей у пошукових системах. У роботі представлено набір експериментів із поступовим ускладненням запитів, зібрано порівняльну статистику точності, візуалізовано результати та зроблено висновки щодо переваг векторних моделей у контексті помилкового або неповного введення. Запропонований підхід можна адаптувати до інших задач семантичного пошуку, що робить роботу цінною з прикладової точки зору.
dc.description.abstractotherMaster's thesis: 95 pages, 14 figures, 17 sources, 1 appendice. The object of the study is the process of text information retrieval in user–oriented systems. The subject of the research is the impact of distortions in text queries on search quality using TF-IDF and Sentence-BERT models. The purpose of the work is to conduct a comparative analysis of the effectiveness of TF-IDF and Sentence-BERT in text information retrieval with distorted queries. This thesis investigates the effectiveness of text search methods under conditions of query distortion, using a recipe search system as a case study. The primary focus is on comparing the classical lexical approach of TF-IDF with modern vector–based search using the Sentence-BERT model. A software system was developed to simulate various types and levels of distortions, evaluate search results, and analyze the robustness of both models. The relevance of the study stems from the fact that, in real-world scenarios, users often input inaccurate or unstructured queries, which significantly affects the relevance of search responses. The thesis presents a set of experiments with progressively distorted queries, collects comparative accuracy statistics, visualizes the results, and draws conclusions regarding the advantages of vector-based models in handling erroneous or incomplete input. The proposed approach is adaptable to other semantic search tasks, making this work practically valuable.
dc.format.extent95 с.
dc.identifier.citationКимачинський, К. Д. Методи пошуку рецептів на основі TF-IDF і ембедінгів: порівняльний аналіз : дипломна робота … бакалавра : 122 Комп'ютерні науки / Кимачинський Кирил Дмитрович. – Київ, 2025. – 95 с.
dc.identifier.urihttps://ela.kpi.ua/handle/123456789/75796
dc.language.isouk
dc.publisherКПІ ім. Ігоря Сікорського
dc.publisher.placeКиїв
dc.subjecttf-idf
dc.subjectsbert
dc.subjectbert
dc.subjectвекторний пошук
dc.subjectембедінги
dc.subjectдатасет
dc.subjecttf-idf
dc.subjectsbert
dc.subjectbert
dc.subjectvector search
dc.subjectembeddings
dc.subjectdataset
dc.titleМетоди пошуку рецептів на основі TF-IDF і ембедінгів: порівняльний аналіз
dc.typeBachelor Thesis

Файли

Контейнер файлів
Зараз показуємо 1 - 1 з 1
Вантажиться...
Ескіз
Назва:
Kymachynskyi_bakalavr.pdf
Розмір:
2.44 MB
Формат:
Adobe Portable Document Format
Ліцензійна угода
Зараз показуємо 1 - 1 з 1
Ескіз недоступний
Назва:
license.txt
Розмір:
8.98 KB
Формат:
Item-specific license agreed upon to submission
Опис: