Дослідження алгоритмів нечіткого пошуку в текстових даних з використанням таблиці подібності символів

Вантажиться...
Ескіз

Дата

2023

Науковий керівник

Назва журналу

Номер ISSN

Назва тому

Видавець

КПІ ім. Ігоря Сікорського

Анотація

У сучасному світі, насиченому величезним обсягом інформації, здатність ефективно знаходити в тексті релевантну та точну інформацію в тексті є надзвичайно важливою. Саме тому пошукові алгоритми є надзвичайно важливими інструментами, які дозволяють нам орієнтуватися в цьому величезному обсязі доступної інформації. Проте традиційні алгоритми не справляються з випадками, коли текст чи пошуковий запит містить орфографічні помилки чи друкарські помилки. У таких випадках, щоби швидко знайти відповідні результати нам допомагають алгоритми нечіткого пошуку. Тому метою дипломної роботи є дослідження сучасних алгоритмів нечіткого пошуку в тексті, реалізація нечіткого пошуку в тексті з використанням таблиці подібності символів та створення самої таблиці. Передусім найважливішою частиною дипломної роботи є саме розробка алгоритму нечіткого пошуку з використанням таблиці подібності. Реалізований алгоритм має включати декілька етапів, які включають попередню обробку таблиці подібності символів, токенізацію вхідного тексту, обчислення балів подібності та виконання нечіткого зіставлення. Також для успішної роботи алгоритму було проведено його тестування та проведено порівняння швидкодії алгоритму з використанням таблиці подібності символів та без. Результатами роботи є дослідження сучасних алгоритмів нечіткого пошуку, розроблена таблиця подібності символів та реалізований алгоритм нечіткого пошуку з використанням таблиці подібності. Загальний обсяг роботи 100 с., 35 рис., 6 таблиць, 4 додатки, 11 джерела.

Опис

Ключові слова

нечіткий пошук, таблиця подібності символів, алгоритм Дамерау-Левенштейна, обробка текстових даних, відстань редагування, fuzzy search, symbol similarity table, Damerau-Levenstein algorithm, text processing, edit distance

Бібліографічний опис

Царьов, М.О. Дослідження алгоритмів нечіткого пошуку в текстових даних з використанням таблиці подібності символів : дипломний проект … бакалавра : 122 Комп'ютерні науки / Царьов Максим Олександрович. - Київ, 2023. - 100 с.

DOI