The algorithm for selecting publications on a given topic considering keyword priorities

dc.contributor.authorSuprun, Olha
dc.contributor.authorZhurakovska, Oksana
dc.date.accessioned2025-04-16T12:14:09Z
dc.date.available2025-04-16T12:14:09Z
dc.date.issued2024
dc.description.abstractThe article investigates the problems that exist in existing search engines for scientific publications. The search algorithms used in various search engines for scientific publications are described. The aim of the article is to develop a method for selecting publications on a given topic based on assessing the relevance of keyword sets. A review of the literature that was analyzed during the research is presented. Among the publications studied were materials related to the theory of set similarity, namely the use of the Jacquard coefficient and editing distance. A measure for determining the similarity of keyword sets is presented, which is based on the Jacquard coefficient taking into account the weighting coefficients of keywords. An algorithm is presented that can be used to determine the degree of similarity of publications to a user's search query based on keyword sets with weighting coefficients. The algorithm is based on the measure of similarity presented by us and the editing distance presented by us. The algorithm can be used to rank search results in search engines for scientific publications, as well as to compare the efficiency of different search engines, assess the quality of the results they return. The algorithm can also be used in book and film recommendation systems based on user preferences. The article provides the pseudocode of the algorithm. It is demonstrated on a limited data set how the measure calculated by the algorithm changes depending on the distribution of keyword weights in the user's query and the number of keywords.
dc.description.abstractotherВ статті досліджено проблеми пошукових систем наукових публікацій. Описано алгоритми пошуку, які використовуються у пошукових системах наукових публікацій. Мета статті полягає в розробці методу підбору публікацій за заданою тематикою на основі оцінки подібності множин ключових слів. Викладено огляд літератури проаналізований під час виконання дослідження. Серед досліджених публікацій були матеріали, що стосувалися використання коефіцієнту Жаккарда та відстані редагування. Представлено міру для визначення подібності множин ключових слів, що базується на коефіцієнті Жаккарда з урахуванням вагових коефіцієнтів ключових слів. Представлено алгоритм, що може бути використаний для визначення ступеню подібності публікацій пошуковому запиту користувача на основі множин ключових слів з ваговими коефіцієнтами. В основі алгоритму лежать представлена нами міра та відстань редагування. Алгоритм може бути використаний для ранжування результатів пошуку у пошукових системах наукових публікацій, а також для порівняння ефективності роботи різних пошукових систем, оцінки якості результатів, що вони повертають. В статті наведено псевдокод алгоритму. Продемонстровано на обмеженому наборі даних як змінюється підрахована алгоритмом міра в залежності від розподілу вагових коефіцієнтів ключових слів та в залежності від кількості ключових слів.
dc.format.pagerangePp. 101-111
dc.identifier.citationSuprun, O. The algorithm for selecting publications on a given topic considering keyword priorities / Olha Suprun, Oksana Zhurakovska // Information, Computing and Intelligent systems. – 2024. – No. 5. – Pp. 101-111. – Bibliogr.: 16 ref.
dc.identifier.doihttps://doi.org/10.20535.2786-8729.5.2024/316521
dc.identifier.orcid0009-0006-9165-3446
dc.identifier.orcid0000-0002-2804-5556
dc.identifier.urihttps://ela.kpi.ua/handle/123456789/73398
dc.language.isoen
dc.publisherNational Technical University of Ukraine "Igor Sikorsky Kyiv Polytechnic Institute"
dc.publisher.placeKyiv
dc.relation.ispartofInformation, Computing and Intelligent systems, No.5
dc.subjectsearch of scientific publications
dc.subjectsimilarity of sets
dc.subjectJaccard criterion
dc.subjectedit distance
dc.subjectміра подібності множин
dc.subjectвідстань редагування
dc.subjectтеорія подібності множин
dc.subjectкоефіцієнт Жаккара
dc.subjectсистема підбору наукових публікацій
dc.subject.udc004.9+519.816
dc.titleThe algorithm for selecting publications on a given topic considering keyword priorities
dc.title.alternativeАлгоритм підбору публікацій за заданою тематикою із урахуванням пріоритетів ключових слів
dc.typeArticle

Файли

Контейнер файлів
Зараз показуємо 1 - 1 з 1
Вантажиться...
Ескіз
Назва:
101-111.pdf
Розмір:
867.48 KB
Формат:
Adobe Portable Document Format
Ліцензійна угода
Зараз показуємо 1 - 1 з 1
Ескіз недоступний
Назва:
license.txt
Розмір:
8.98 KB
Формат:
Item-specific license agreed upon to submission
Опис: