Програмний метод кластеризації веб-сайтів на основі аналізу пошукових запитів користувачів

Білогуб, Дар'я Сергіївна

Програмний метод кластеризації веб-сайтів на основі аналізу пошукових запитів користувачів

dc.contributor.advisor	Олещенко, Любов Михайлівна
dc.contributor.author	Білогуб, Дар'я Сергіївна
dc.date.accessioned	2020-01-27T09:48:27Z
dc.date.available	2020-01-27T09:48:27Z
dc.date.issued	2019-12
dc.description.abstract	Актуальність теми. З огляду на постійну боротьбу пошукових систем, правильна структура сайту все більше виходить на перший план при проведенні пошукової оптимізації сайту. Один з основних ключів для грамотної опрацювання структури сайту – є максимально детальне опрацювання семантичного ядра. Аналізуючи характеристики кластерів пошукових запитів, можна краще зрозуміти користувачів Інтернету, і, таким чином, можна отримати більш релевантні веб-документи. Об’єктом дослідження процес аналізу ключових слів веб сторінок використовуючи інформацію про пошукові запити користувачів. Предметом дослідження є моделі, методи, алгоритми кластерного аналізу пошукових запитів користувачів. Мета роботи полягає у оптимізації релевантності документа запиту користувача шляхом розробки програмного забезпечення з використанням методів кластеризації пошукових запитів користувачів. Методи дослідження: в роботі використовуються методи теоретичного дослідження: аналіз та синтез. Також застосовувалися емпіричні методи: експеримент, вимірювання та порівняння. Наукова новизна роботи полягає у розробленні модифікованого методу k-means для пошукових запитів, який дозволяє підвищити точність результату у 3 рази, шляхом збереження структурної інформації запитів, яка зазвичай відкидається при використанні типового підходу векторної моделі. Даний метод перевершує метод на основі векторних k-means, що використовує евклідову відстань для обчислення відстані між кластерами. Практична цінність отриманих результатів роботи полягає в тому, що запропонований метод дає змогу підвищити релевантність веб-документу. Також в рамках даного дослідження була розроблена автоматизована система аналізу семантичного ядра веб-сайту на основі запропонованого модифікованого методу. Апробація роботи. Основні положення і результати роботи були представлені та обговорювались на XІІ науковій конференції магістрантів та аспірантів «Прикладна математика та комп’ютинг» ПМК-2019 та опубліковані у збірнику тез доповідей. Структура та обсяг роботи. Магістерська дисертація складається з вступу, п’яти розділів, висновків та додатків. У вступі надано загальну характеристику роботи, виконано оцінку сучасного стану проблеми, обґрунтовано актуальність напрямку досліджень, сформульовано мету і задачі досліджень. У першому розділі проведено аналіз існуючих методів кластеризації, виявлено їх переваги та недоліки, оглянуто існуючі комерційні рішення, проаналізовано алгоритми їх роботи та виявлено переваги та недоліки даних рішень. У другому розділі розглянуто більш детально методи теорії графів та алгоритм кластеризації k-means. Запропонований модифікований метод на основі алгоритму k-means з використанням теорії графів, для кластеризації пошукових запитів користувачів. У третьому розділі сформовані основні вимоги до автоматизованої системи аналізу семантичного ядра веб-сайту; обґрунтовано вибір засобів, що використовувались при розробці; описана розроблена система, що реалізує модифікований метод кластеризації пошукових запитів користувачів. У четвертому розділі визначено критерії оцінки ефективності, які застосовуються до розробленого методу; наведена інформація про дані, що використовувались при аналізі ефективності; проведений аналіз ефективності модифікованого та базового кластерзації пошукових запитів користувачів. У п’ятому розділі визначено ринкові перспективи проекту, графік та принципи організації виробництва, фінансовий аналіз та аналіз ризиків і заходи з просування пропозиції для інвесторів. Узагальнено етапи розроблення та виведення стартап-проекту на ринок. У висновках проаналізовано отримані результати роботи. Робота виконана на 79 аркушах, містить 2 додатки та посилання на список використаних літературних джерел з 50 найменувань. У роботі наведено 18 рисунків та 11 таблиць.	uk
dc.description.abstracten	Actuality. Given the constant struggle of search engines, the right structure of the site is increasingly coming to the fore when conducting search engine optimization of the site. One of the main keys to the competent development of the structure of the site - is the most detailed elaboration of the semantic kernel. By analyzing the characteristics of search clusters, you can better understand the users of the Internet, and thus obtain more relevant web documents. Object of research the process of analyzing webpage keywords using user search information. Subjects of research are models, methods, algorithms for cluster analysis of user searches. Goal of the work is to optimize the relevance of a user query document by developing software using clustering methods for user queries. Methods of research include methods of theoretical research: analysis and synthesis. Also there were used empirical methods: experiment, measurement and comparison. Scientific novelty of the work is to develop a modified k-means method for search queries, which improves the accuracy of the result by 3 times, by retaining the structural query information, which is usually discarded when using the typical vector model approach. This method is superior to the vector-based k-means method that uses Euclidean distance to calculate the distance between clusters. Practical value of the received results of work is that the proposed method increases the relevance of the web document. Also, in the framework of this study, an automated system for analyzing the semantic kernel of a website was developed based on the proposed modified method. Approbation. The main provisions and results of the work were presented and discussed at the XIІ scientific conference of masters and postgraduates "Applied Mathematics and Computer" PMK-2019 and published in the proceedings. Structure and content of the thesis. Master's thesis consists of an introduction, five chapters, conclusions and appendices. The introduction provides a general description of the work, evaluated the current state of the problem, substantiated the relevance of the research direction, formulated the purpose and objectives of the study. The first chapter analyzes existing clustering methods, identifies their advantages and disadvantages, reviews existing business solutions, analyzes their work algorithms, and identifies advantages and disadvantages of these solutions The second chapter discusses the methods of graph theory, analyzes its advantages and disadvantages. A modified method based on the k-means algorithm using graph theory is proposed to cluster user searches. In the third section, the basic requirements to the automated system of analysis of the semantic kernel of the website are formed; the choice of the means used in the development is justified; describes a developed system that implements a modified method of clustering user searches. The fourth chapter defines the performance evaluation criteria that apply to the method developed; provides information on data used in performance analysis; the performance analysis of the modified and basic clustering of user searches. The conclusion contains brief overview of the results obtained in the work. The work is done on 79 pages, contains 2 appendices and reference list of 50 titles. The work contains 18 pictures and 11 tables.	uk
dc.format.page	121 с.	uk
dc.identifier.citation	Білогуб, Д. С. Програмний метод кластеризації веб-сайтів на основі аналізу пошукових запитів користувачів : магістерська дис. : 121 Інженерія програмного забезпечення / Білогуб Дар'я Сергіївна. – Київ, 2019. – 121 с.	uk
dc.identifier.uri	https://ela.kpi.ua/handle/123456789/31121
dc.language.iso	uk	uk
dc.publisher	КПІ ім. Ігоря Сікорського	uk
dc.publisher.place	Київ	uk
dc.subject	кластерний аналіз	uk
dc.subject	семантичне ядро	uk
dc.subject	методи теорії графів	uk
dc.subject	кластеризація пошукових запитів	uk
dc.subject	автоматизована система аналізу семантичного ядра	uk
dc.subject	k-means	uk
dc.subject	cluster analysis	uk
dc.subject	semantic kernel	uk
dc.subject	graph theory methods	uk
dc.subject	query clustering	uk
dc.subject	automated semantic kernel analysis system	uk
dc.subject.udc	004.89	uk
dc.title	Програмний метод кластеризації веб-сайтів на основі аналізу пошукових запитів користувачів	uk
dc.type	Master Thesis	uk

Файли

Контейнер файлів

Зараз показуємо 1 - 1 з 1

Назва:: Bilohub_magistr.pdf
Розмір:: 3.1 MB
Формат:: Adobe Portable Document Format
Опис:

Завантажити

Ліцензійна угода

Зараз показуємо 1 - 1 з 1

Назва:: license.txt
Розмір:: 9.06 KB
Формат:: Item-specific license agreed upon to submission
Опис:

Завантажити

Зібрання

Магістерські роботи (ПЗКС)
Магістерські роботи