Дослідження алгоритмів нечіткого пошуку в текстових даних з використанням таблиці подібності символів
dc.contributor.advisor | Клещ, Кирило Олегович | |
dc.contributor.author | Царьов, Максим Олександрович | |
dc.date.accessioned | 2023-11-01T12:09:44Z | |
dc.date.available | 2023-11-01T12:09:44Z | |
dc.date.issued | 2023 | |
dc.description.abstract | У сучасному світі, насиченому величезним обсягом інформації, здатність ефективно знаходити в тексті релевантну та точну інформацію в тексті є надзвичайно важливою. Саме тому пошукові алгоритми є надзвичайно важливими інструментами, які дозволяють нам орієнтуватися в цьому величезному обсязі доступної інформації. Проте традиційні алгоритми не справляються з випадками, коли текст чи пошуковий запит містить орфографічні помилки чи друкарські помилки. У таких випадках, щоби швидко знайти відповідні результати нам допомагають алгоритми нечіткого пошуку. Тому метою дипломної роботи є дослідження сучасних алгоритмів нечіткого пошуку в тексті, реалізація нечіткого пошуку в тексті з використанням таблиці подібності символів та створення самої таблиці. Передусім найважливішою частиною дипломної роботи є саме розробка алгоритму нечіткого пошуку з використанням таблиці подібності. Реалізований алгоритм має включати декілька етапів, які включають попередню обробку таблиці подібності символів, токенізацію вхідного тексту, обчислення балів подібності та виконання нечіткого зіставлення. Також для успішної роботи алгоритму було проведено його тестування та проведено порівняння швидкодії алгоритму з використанням таблиці подібності символів та без. Результатами роботи є дослідження сучасних алгоритмів нечіткого пошуку, розроблена таблиця подібності символів та реалізований алгоритм нечіткого пошуку з використанням таблиці подібності. Загальний обсяг роботи 100 с., 35 рис., 6 таблиць, 4 додатки, 11 джерела. | uk |
dc.description.abstractother | In today’s world, filled with a huge amount of information, the ability to effectively find relevant and accurate information in a text is extremely important. That is why search algorithms are extremely important tools that allow us to operate with this huge amount of available information. However, traditional algorithms do not handle cases where the text or search query contains misspellings or typographical errors. In such cases, fuzzy search algorithms help us to quickly find relevant results. Therefore, the aim of the thesis is to research on modern algorithms for fuzzy text search, to implement fuzzy search algorithm using a symbol similarity table and to create the table itself. First of all, the most important part of the thesis is the development of a fuzzy search algorithm using a symbol similarity table. The algorithm's implementation should involve several steps, including preprocessing the symbol similarity table, tokenizing input string, calculating similarity scores, and performing fuzzy matching. Also, for the successful operation of the algorithm, it was tested and was performed a comparison of the speeds of the algorithms with and without the use of the symbol similarity table. The results of the work are a research on modern fuzzy search algorithms, a developed symbol similarity table and an implemented fuzzy search algorithm using a symbol similarity table. The total volume of work is 100 pages, 35 figures, 6 tables, 4 appendices, 11 sources. | uk |
dc.format.extent | 100 с. | uk |
dc.identifier.citation | Царьов, М.О. Дослідження алгоритмів нечіткого пошуку в текстових даних з використанням таблиці подібності символів : дипломний проект … бакалавра : 122 Комп'ютерні науки / Царьов Максим Олександрович. - Київ, 2023. - 100 с. | uk |
dc.identifier.uri | https://ela.kpi.ua/handle/123456789/61954 | |
dc.language.iso | uk | uk |
dc.publisher | КПІ ім. Ігоря Сікорського | uk |
dc.publisher.place | Київ | uk |
dc.subject | нечіткий пошук | uk |
dc.subject | таблиця подібності символів | uk |
dc.subject | алгоритм Дамерау-Левенштейна | uk |
dc.subject | обробка текстових даних | uk |
dc.subject | відстань редагування | uk |
dc.subject | fuzzy search | uk |
dc.subject | symbol similarity table | uk |
dc.subject | Damerau-Levenstein algorithm | uk |
dc.subject | text processing | uk |
dc.subject | edit distance | uk |
dc.title | Дослідження алгоритмів нечіткого пошуку в текстових даних з використанням таблиці подібності символів | uk |
dc.title.alternative | Research on fuzzy search algorithms in textual data using symbol similarity table | uk |
dc.type | Bachelor Thesis | uk |
Файли
Контейнер файлів
1 - 1 з 1
Вантажиться...
- Назва:
- Tsarov_bakalavr.pdf
- Розмір:
- 3.01 MB
- Формат:
- Adobe Portable Document Format
- Опис:
Ліцензійна угода
1 - 1 з 1
Ескіз недоступний
- Назва:
- license.txt
- Розмір:
- 9.1 KB
- Формат:
- Item-specific license agreed upon to submission
- Опис: