Програмний метод кластеризації веб-сайтів на основі аналізу пошукових запитів користувачів

dc.contributor.advisorОлещенко, Любов Михайлівна
dc.contributor.authorБілогуб, Дар'я Сергіївна
dc.date.accessioned2020-01-27T09:48:27Z
dc.date.available2020-01-27T09:48:27Z
dc.date.issued2019-12
dc.description.abstractenActuality. Given the constant struggle of search engines, the right structure of the site is increasingly coming to the fore when conducting search engine optimization of the site. One of the main keys to the competent development of the structure of the site - is the most detailed elaboration of the semantic kernel. By analyzing the characteristics of search clusters, you can better understand the users of the Internet, and thus obtain more relevant web documents. Object of research the process of analyzing webpage keywords using user search information. Subjects of research are models, methods, algorithms for cluster analysis of user searches. Goal of the work is to optimize the relevance of a user query document by developing software using clustering methods for user queries. Methods of research include methods of theoretical research: analysis and synthesis. Also there were used empirical methods: experiment, measurement and comparison. Scientific novelty of the work is to develop a modified k-means method for search queries, which improves the accuracy of the result by 3 times, by retaining the structural query information, which is usually discarded when using the typical vector model approach. This method is superior to the vector-based k-means method that uses Euclidean distance to calculate the distance between clusters. Practical value of the received results of work is that the proposed method increases the relevance of the web document. Also, in the framework of this study, an automated system for analyzing the semantic kernel of a website was developed based on the proposed modified method. Approbation. The main provisions and results of the work were presented and discussed at the XIІ scientific conference of masters and postgraduates "Applied Mathematics and Computer" PMK-2019 and published in the proceedings. Structure and content of the thesis. Master's thesis consists of an introduction, five chapters, conclusions and appendices. The introduction provides a general description of the work, evaluated the current state of the problem, substantiated the relevance of the research direction, formulated the purpose and objectives of the study. The first chapter analyzes existing clustering methods, identifies their advantages and disadvantages, reviews existing business solutions, analyzes their work algorithms, and identifies advantages and disadvantages of these solutions The second chapter discusses the methods of graph theory, analyzes its advantages and disadvantages. A modified method based on the k-means algorithm using graph theory is proposed to cluster user searches. In the third section, the basic requirements to the automated system of analysis of the semantic kernel of the website are formed; the choice of the means used in the development is justified; describes a developed system that implements a modified method of clustering user searches. The fourth chapter defines the performance evaluation criteria that apply to the method developed; provides information on data used in performance analysis; the performance analysis of the modified and basic clustering of user searches. The conclusion contains brief overview of the results obtained in the work. The work is done on 79 pages, contains 2 appendices and reference list of 50 titles. The work contains 18 pictures and 11 tables.uk
dc.description.abstractukАктуальність теми. З огляду на постійну боротьбу пошукових систем, правильна структура сайту все більше виходить на перший план при проведенні пошукової оптимізації сайту. Один з основних ключів для грамотної опрацювання структури сайту – є максимально детальне опрацювання семантичного ядра. Аналізуючи характеристики кластерів пошукових запитів, можна краще зрозуміти користувачів Інтернету, і, таким чином, можна отримати більш релевантні веб-документи. Об’єктом дослідження процес аналізу ключових слів веб сторінок використовуючи інформацію про пошукові запити користувачів. Предметом дослідження є моделі, методи, алгоритми кластерного аналізу пошукових запитів користувачів. Мета роботи полягає у оптимізації релевантності документа запиту користувача шляхом розробки програмного забезпечення з використанням методів кластеризації пошукових запитів користувачів. Методи дослідження: в роботі використовуються методи теоретичного дослідження: аналіз та синтез. Також застосовувалися емпіричні методи: експеримент, вимірювання та порівняння. Наукова новизна роботи полягає у розробленні модифікованого методу k-means для пошукових запитів, який дозволяє підвищити точність результату у 3 рази, шляхом збереження структурної інформації запитів, яка зазвичай відкидається при використанні типового підходу векторної моделі. Даний метод перевершує метод на основі векторних k-means, що використовує евклідову відстань для обчислення відстані між кластерами. Практична цінність отриманих результатів роботи полягає в тому, що запропонований метод дає змогу підвищити релевантність веб-документу. Також в рамках даного дослідження була розроблена автоматизована система аналізу семантичного ядра веб-сайту на основі запропонованого модифікованого методу. Апробація роботи. Основні положення і результати роботи були представлені та обговорювались на XІІ науковій конференції магістрантів та аспірантів «Прикладна математика та комп’ютинг» ПМК-2019 та опубліковані у збірнику тез доповідей. Структура та обсяг роботи. Магістерська дисертація складається з вступу, п’яти розділів, висновків та додатків. У вступі надано загальну характеристику роботи, виконано оцінку сучасного стану проблеми, обґрунтовано актуальність напрямку досліджень, сформульовано мету і задачі досліджень. У першому розділі проведено аналіз існуючих методів кластеризації, виявлено їх переваги та недоліки, оглянуто існуючі комерційні рішення, проаналізовано алгоритми їх роботи та виявлено переваги та недоліки даних рішень. У другому розділі розглянуто більш детально методи теорії графів та алгоритм кластеризації k-means. Запропонований модифікований метод на основі алгоритму k-means з використанням теорії графів, для кластеризації пошукових запитів користувачів. У третьому розділі сформовані основні вимоги до автоматизованої системи аналізу семантичного ядра веб-сайту; обґрунтовано вибір засобів, що використовувались при розробці; описана розроблена система, що реалізує модифікований метод кластеризації пошукових запитів користувачів. У четвертому розділі визначено критерії оцінки ефективності, які застосовуються до розробленого методу; наведена інформація про дані, що використовувались при аналізі ефективності; проведений аналіз ефективності модифікованого та базового кластерзації пошукових запитів користувачів. У п’ятому розділі визначено ринкові перспективи проекту, графік та принципи організації виробництва, фінансовий аналіз та аналіз ризиків і заходи з просування пропозиції для інвесторів. Узагальнено етапи розроблення та виведення стартап-проекту на ринок. У висновках проаналізовано отримані результати роботи. Робота виконана на 79 аркушах, містить 2 додатки та посилання на список використаних літературних джерел з 50 найменувань. У роботі наведено 18 рисунків та 11 таблиць.uk
dc.format.page121 с.uk
dc.identifier.citationБілогуб, Д. С. Програмний метод кластеризації веб-сайтів на основі аналізу пошукових запитів користувачів : магістерська дис. : 121 Інженерія програмного забезпечення / Білогуб Дар'я Сергіївна. – Київ, 2019. – 121 с.uk
dc.identifier.urihttps://ela.kpi.ua/handle/123456789/31121
dc.language.isoukuk
dc.publisherКПІ ім. Ігоря Сікорськогоuk
dc.publisher.placeКиївuk
dc.subjectкластерний аналізuk
dc.subjectсемантичне ядроuk
dc.subjectметоди теорії графівuk
dc.subjectкластеризація пошукових запитівuk
dc.subjectавтоматизована система аналізу семантичного ядраuk
dc.subjectk-meansuk
dc.subjectcluster analysisuk
dc.subjectsemantic kerneluk
dc.subjectgraph theory methodsuk
dc.subjectquery clusteringuk
dc.subjectautomated semantic kernel analysis systemuk
dc.subject.udc004.89uk
dc.titleПрограмний метод кластеризації веб-сайтів на основі аналізу пошукових запитів користувачівuk
dc.typeMaster Thesisuk

Файли

Контейнер файлів
Зараз показуємо 1 - 1 з 1
Вантажиться...
Ескіз
Назва:
Bilohub_magistr.pdf
Розмір:
3.1 MB
Формат:
Adobe Portable Document Format
Опис:
Ліцензійна угода
Зараз показуємо 1 - 1 з 1
Ескіз недоступний
Назва:
license.txt
Розмір:
9.06 KB
Формат:
Item-specific license agreed upon to submission
Опис: