Дослідження алгоритмів нечіткого пошуку в текстових даних з використанням таблиці подібності символів
Вантажиться...
Дата
2023
Автори
Науковий керівник
Назва журналу
Номер ISSN
Назва тому
Видавець
КПІ ім. Ігоря Сікорського
Анотація
У сучасному світі, насиченому величезним обсягом інформації,
здатність ефективно знаходити в тексті релевантну та точну інформацію в
тексті є надзвичайно важливою. Саме тому пошукові алгоритми є надзвичайно
важливими інструментами, які дозволяють нам орієнтуватися в цьому
величезному обсязі доступної інформації. Проте традиційні алгоритми не
справляються з випадками, коли текст чи пошуковий запит містить
орфографічні помилки чи друкарські помилки. У таких випадках, щоби
швидко знайти відповідні результати нам допомагають алгоритми нечіткого
пошуку.
Тому метою дипломної роботи є дослідження сучасних алгоритмів
нечіткого пошуку в тексті, реалізація нечіткого пошуку в тексті з
використанням таблиці подібності символів та створення самої таблиці.
Передусім найважливішою частиною дипломної роботи є саме розробка
алгоритму нечіткого пошуку з використанням таблиці подібності.
Реалізований алгоритм має включати декілька етапів, які включають
попередню обробку таблиці подібності символів, токенізацію вхідного тексту,
обчислення балів подібності та виконання нечіткого зіставлення. Також для
успішної роботи алгоритму було проведено його тестування та проведено
порівняння швидкодії алгоритму з використанням таблиці подібності
символів та без.
Результатами роботи є дослідження сучасних алгоритмів нечіткого
пошуку, розроблена таблиця подібності символів та реалізований алгоритм
нечіткого пошуку з використанням таблиці подібності.
Загальний обсяг роботи 100 с., 35 рис., 6 таблиць, 4 додатки, 11
джерела.
Опис
Ключові слова
нечіткий пошук, таблиця подібності символів, алгоритм Дамерау-Левенштейна, обробка текстових даних, відстань редагування, fuzzy search, symbol similarity table, Damerau-Levenstein algorithm, text processing, edit distance
Бібліографічний опис
Царьов, М.О. Дослідження алгоритмів нечіткого пошуку в текстових даних з використанням таблиці подібності символів : дипломний проект … бакалавра : 122 Комп'ютерні науки / Царьов Максим Олександрович. - Київ, 2023. - 100 с.