Дослідження алгоритмів нечіткого пошуку в текстових даних з використанням таблиці подібності символів

dc.contributor.advisorКлещ, Кирило Олегович
dc.contributor.authorЦарьов, Максим Олександрович
dc.date.accessioned2023-11-01T12:09:44Z
dc.date.available2023-11-01T12:09:44Z
dc.date.issued2023
dc.description.abstractУ сучасному світі, насиченому величезним обсягом інформації, здатність ефективно знаходити в тексті релевантну та точну інформацію в тексті є надзвичайно важливою. Саме тому пошукові алгоритми є надзвичайно важливими інструментами, які дозволяють нам орієнтуватися в цьому величезному обсязі доступної інформації. Проте традиційні алгоритми не справляються з випадками, коли текст чи пошуковий запит містить орфографічні помилки чи друкарські помилки. У таких випадках, щоби швидко знайти відповідні результати нам допомагають алгоритми нечіткого пошуку. Тому метою дипломної роботи є дослідження сучасних алгоритмів нечіткого пошуку в тексті, реалізація нечіткого пошуку в тексті з використанням таблиці подібності символів та створення самої таблиці. Передусім найважливішою частиною дипломної роботи є саме розробка алгоритму нечіткого пошуку з використанням таблиці подібності. Реалізований алгоритм має включати декілька етапів, які включають попередню обробку таблиці подібності символів, токенізацію вхідного тексту, обчислення балів подібності та виконання нечіткого зіставлення. Також для успішної роботи алгоритму було проведено його тестування та проведено порівняння швидкодії алгоритму з використанням таблиці подібності символів та без. Результатами роботи є дослідження сучасних алгоритмів нечіткого пошуку, розроблена таблиця подібності символів та реалізований алгоритм нечіткого пошуку з використанням таблиці подібності. Загальний обсяг роботи 100 с., 35 рис., 6 таблиць, 4 додатки, 11 джерела.uk
dc.description.abstractotherIn today’s world, filled with a huge amount of information, the ability to effectively find relevant and accurate information in a text is extremely important. That is why search algorithms are extremely important tools that allow us to operate with this huge amount of available information. However, traditional algorithms do not handle cases where the text or search query contains misspellings or typographical errors. In such cases, fuzzy search algorithms help us to quickly find relevant results. Therefore, the aim of the thesis is to research on modern algorithms for fuzzy text search, to implement fuzzy search algorithm using a symbol similarity table and to create the table itself. First of all, the most important part of the thesis is the development of a fuzzy search algorithm using a symbol similarity table. The algorithm's implementation should involve several steps, including preprocessing the symbol similarity table, tokenizing input string, calculating similarity scores, and performing fuzzy matching. Also, for the successful operation of the algorithm, it was tested and was performed a comparison of the speeds of the algorithms with and without the use of the symbol similarity table. The results of the work are a research on modern fuzzy search algorithms, a developed symbol similarity table and an implemented fuzzy search algorithm using a symbol similarity table. The total volume of work is 100 pages, 35 figures, 6 tables, 4 appendices, 11 sources.uk
dc.format.extent100 с.uk
dc.identifier.citationЦарьов, М.О. Дослідження алгоритмів нечіткого пошуку в текстових даних з використанням таблиці подібності символів : дипломний проект … бакалавра : 122 Комп'ютерні науки / Царьов Максим Олександрович. - Київ, 2023. - 100 с.uk
dc.identifier.urihttps://ela.kpi.ua/handle/123456789/61954
dc.language.isoukuk
dc.publisherКПІ ім. Ігоря Сікорськогоuk
dc.publisher.placeКиївuk
dc.subjectнечіткий пошукuk
dc.subjectтаблиця подібності символівuk
dc.subjectалгоритм Дамерау-Левенштейнаuk
dc.subjectобробка текстових данихuk
dc.subjectвідстань редагуванняuk
dc.subjectfuzzy searchuk
dc.subjectsymbol similarity tableuk
dc.subjectDamerau-Levenstein algorithmuk
dc.subjecttext processinguk
dc.subjectedit distanceuk
dc.titleДослідження алгоритмів нечіткого пошуку в текстових даних з використанням таблиці подібності символівuk
dc.title.alternativeResearch on fuzzy search algorithms in textual data using symbol similarity tableuk
dc.typeBachelor Thesisuk

Файли

Контейнер файлів
Зараз показуємо 1 - 1 з 1
Вантажиться...
Ескіз
Назва:
Tsarov_bakalavr.pdf
Розмір:
3.01 MB
Формат:
Adobe Portable Document Format
Опис:
Ліцензійна угода
Зараз показуємо 1 - 1 з 1
Ескіз недоступний
Назва:
license.txt
Розмір:
9.1 KB
Формат:
Item-specific license agreed upon to submission
Опис: