Метод ефективного нечiткого пошуку документiв в наборi текстових даних

dc.contributor.authorКлещ, К. О.
dc.contributor.authorПетренко, А. І.
dc.date.accessioned2024-10-18T13:36:50Z
dc.date.available2024-10-18T13:36:50Z
dc.date.issued2024
dc.description.abstractУ статті розглянуто метод нечіткого пошуку, який складається з дев’яти послідовних кроків та потрібен для швидкого пошуку текстових співпадінь у великому наборі даних. На основі цього методу пропонується створення системи нечіткого пошуку, яка дозволила розв’язати задачу пошуку найбільш релевантних документів з набору таких документів. Розроблений метод нечіткого пошуку комбінує переваги алгоритмів на основі детермінованих скінченних автоматів та алгоритмів на основі динамічного програмування для підрахунку відстані Дамерау-Левенштейна. Така комбінація дозволила впровадити таблицю подібності символів оптимальним чином. В рамках роботи запропоновано підхід створення такої таблиці та створено приклад таблиці подібності символів з англійського алфавіту, що дозволяє з константною асимптотикою знаходити міру подібності поміж двома символами та перетворювати поточний символ в його базовий аналог. Алгоритм Дамерау-Левенштейна дозволяє знаходити відстань редагування між двома словами, враховуючи помилки наступних типів: додавання, заміна, видалення та транспозиція символів. В рамках роботи цей алгоритм був модифікований за допомогою впровадження таблиці подібності для більш точної оцінки відстані редагування між двома словами. Розроблений метод дозволив створити систему нечіткого пошуку, яка допоможе знаходити шукані результати швидше та підвищить релевантність отриманих результатів, за рахунок їхнього сортування відповідно до значень метрики подібності тестових даних.
dc.format.pagerangeС. 326-329
dc.identifier.citationКлещ, К. О. Метод ефективного нечiткого пошуку документiв в наборi текстових даних / К. О. Клещ, А. І. Петренко // Теоретичні і прикладні проблеми фізики, математики та інформатики : матерiали XXII Всеукраїнської науково-практичної конференцiї студентiв, аспiрантiв та молодих вчених, [Київ], 13−17 травня 2024 р. / КПІ ім. Ігоря Сікорського. – Київ, 2024. – С. 326-329.
dc.identifier.urihttps://ela.kpi.ua/handle/123456789/69993
dc.language.isouk
dc.publisherКПІ ім. Ігоря Сікорського
dc.publisher.placeКиїв
dc.sourceТеоретичні і прикладні проблеми фізики, математики та інформатики : матерiали XXII Всеукраїнської науково-практичної конференцiї студентiв, аспiрантiв та молодих вчених (13−17 травня 2024 р., м. Київ, Україна)
dc.subjectнечіткий пошук
dc.subjectобробка текстових даних
dc.subjectавтомат Левенштейна
dc.subjectвідстань редагування
dc.subject.udc004.02
dc.titleМетод ефективного нечiткого пошуку документiв в наборi текстових даних
dc.typeArticle

Файли

Контейнер файлів
Зараз показуємо 1 - 1 з 1
Вантажиться...
Ескіз
Назва:
Pp-326-329.pdf
Розмір:
252.58 KB
Формат:
Adobe Portable Document Format
Ліцензійна угода
Зараз показуємо 1 - 1 з 1
Ескіз недоступний
Назва:
license.txt
Розмір:
8.98 KB
Формат:
Item-specific license agreed upon to submission
Опис: