Метод ефективного нечiткого пошуку документiв в наборi текстових даних
dc.contributor.author | Клещ, К. О. | |
dc.contributor.author | Петренко, А. І. | |
dc.date.accessioned | 2024-10-18T13:36:50Z | |
dc.date.available | 2024-10-18T13:36:50Z | |
dc.date.issued | 2024 | |
dc.description.abstract | У статті розглянуто метод нечіткого пошуку, який складається з дев’яти послідовних кроків та потрібен для швидкого пошуку текстових співпадінь у великому наборі даних. На основі цього методу пропонується створення системи нечіткого пошуку, яка дозволила розв’язати задачу пошуку найбільш релевантних документів з набору таких документів. Розроблений метод нечіткого пошуку комбінує переваги алгоритмів на основі детермінованих скінченних автоматів та алгоритмів на основі динамічного програмування для підрахунку відстані Дамерау-Левенштейна. Така комбінація дозволила впровадити таблицю подібності символів оптимальним чином. В рамках роботи запропоновано підхід створення такої таблиці та створено приклад таблиці подібності символів з англійського алфавіту, що дозволяє з константною асимптотикою знаходити міру подібності поміж двома символами та перетворювати поточний символ в його базовий аналог. Алгоритм Дамерау-Левенштейна дозволяє знаходити відстань редагування між двома словами, враховуючи помилки наступних типів: додавання, заміна, видалення та транспозиція символів. В рамках роботи цей алгоритм був модифікований за допомогою впровадження таблиці подібності для більш точної оцінки відстані редагування між двома словами. Розроблений метод дозволив створити систему нечіткого пошуку, яка допоможе знаходити шукані результати швидше та підвищить релевантність отриманих результатів, за рахунок їхнього сортування відповідно до значень метрики подібності тестових даних. | |
dc.format.pagerange | С. 326-329 | |
dc.identifier.citation | Клещ, К. О. Метод ефективного нечiткого пошуку документiв в наборi текстових даних / К. О. Клещ, А. І. Петренко // Теоретичні і прикладні проблеми фізики, математики та інформатики : матерiали XXII Всеукраїнської науково-практичної конференцiї студентiв, аспiрантiв та молодих вчених, [Київ], 13−17 травня 2024 р. / КПІ ім. Ігоря Сікорського. – Київ, 2024. – С. 326-329. | |
dc.identifier.uri | https://ela.kpi.ua/handle/123456789/69993 | |
dc.language.iso | uk | |
dc.publisher | КПІ ім. Ігоря Сікорського | |
dc.publisher.place | Київ | |
dc.source | Теоретичні і прикладні проблеми фізики, математики та інформатики : матерiали XXII Всеукраїнської науково-практичної конференцiї студентiв, аспiрантiв та молодих вчених (13−17 травня 2024 р., м. Київ, Україна) | |
dc.subject | нечіткий пошук | |
dc.subject | обробка текстових даних | |
dc.subject | автомат Левенштейна | |
dc.subject | відстань редагування | |
dc.subject.udc | 004.02 | |
dc.title | Метод ефективного нечiткого пошуку документiв в наборi текстових даних | |
dc.type | Article |
Файли
Контейнер файлів
1 - 1 з 1
Ліцензійна угода
1 - 1 з 1
Ескіз недоступний
- Назва:
- license.txt
- Розмір:
- 8.98 KB
- Формат:
- Item-specific license agreed upon to submission
- Опис: