Програмний метод кластеризації веб-сайтів на основі аналізу пошукових запитів користувачів
Вантажиться...
Дата
2019-12
Автори
Науковий керівник
Назва журналу
Номер ISSN
Назва тому
Видавець
КПІ ім. Ігоря Сікорського
Анотація
Актуальність теми. З огляду на постійну боротьбу пошукових систем, правильна структура сайту все більше виходить на перший план при проведенні пошукової оптимізації сайту. Один з основних ключів для грамотної опрацювання структури сайту – є максимально детальне опрацювання семантичного ядра. Аналізуючи характеристики кластерів пошукових запитів, можна краще зрозуміти користувачів Інтернету, і, таким чином, можна отримати більш релевантні веб-документи.
Об’єктом дослідження процес аналізу ключових слів веб сторінок використовуючи інформацію про пошукові запити користувачів.
Предметом дослідження є моделі, методи, алгоритми кластерного аналізу пошукових запитів користувачів.
Мета роботи полягає у оптимізації релевантності документа запиту користувача шляхом розробки програмного забезпечення з використанням методів кластеризації пошукових запитів користувачів.
Методи дослідження: в роботі використовуються методи теоретичного дослідження: аналіз та синтез. Також застосовувалися емпіричні методи: експеримент, вимірювання та порівняння.
Наукова новизна роботи полягає у розробленні модифікованого методу k-means для пошукових запитів, який дозволяє підвищити точність результату у 3 рази, шляхом збереження структурної інформації запитів, яка зазвичай відкидається при використанні типового підходу векторної моделі. Даний метод перевершує метод на основі векторних k-means, що використовує евклідову відстань для обчислення відстані між кластерами.
Практична цінність отриманих результатів роботи полягає в тому, що запропонований метод дає змогу підвищити релевантність веб-документу.
Також в рамках даного дослідження була розроблена автоматизована система аналізу семантичного ядра веб-сайту на основі запропонованого модифікованого методу.
Апробація роботи. Основні положення і результати роботи були представлені та обговорювались на XІІ науковій конференції магістрантів та аспірантів «Прикладна математика та комп’ютинг» ПМК-2019 та опубліковані у збірнику тез доповідей.
Структура та обсяг роботи. Магістерська дисертація складається з вступу, п’яти розділів, висновків та додатків.
У вступі надано загальну характеристику роботи, виконано оцінку сучасного стану проблеми, обґрунтовано актуальність напрямку досліджень, сформульовано мету і задачі досліджень.
У першому розділі проведено аналіз існуючих методів кластеризації, виявлено їх переваги та недоліки, оглянуто існуючі комерційні рішення, проаналізовано алгоритми їх роботи та виявлено переваги та недоліки даних рішень.
У другому розділі розглянуто більш детально методи теорії графів та алгоритм кластеризації k-means. Запропонований модифікований метод на основі алгоритму k-means з використанням теорії графів, для кластеризації пошукових запитів користувачів.
У третьому розділі сформовані основні вимоги до автоматизованої системи аналізу семантичного ядра веб-сайту; обґрунтовано вибір засобів, що використовувались при розробці; описана розроблена система, що реалізує модифікований метод кластеризації пошукових запитів користувачів.
У четвертому розділі визначено критерії оцінки ефективності, які застосовуються до розробленого методу; наведена інформація про дані, що використовувались при аналізі ефективності; проведений аналіз ефективності модифікованого та базового кластерзації пошукових запитів користувачів.
У п’ятому розділі визначено ринкові перспективи проекту, графік та принципи організації виробництва, фінансовий аналіз та аналіз ризиків і
заходи з просування пропозиції для інвесторів. Узагальнено етапи розроблення та виведення стартап-проекту на ринок.
У висновках проаналізовано отримані результати роботи.
Робота виконана на 79 аркушах, містить 2 додатки та посилання на список використаних літературних джерел з 50 найменувань. У роботі наведено 18 рисунків та 11 таблиць.
Опис
Ключові слова
кластерний аналіз, семантичне ядро, методи теорії графів, кластеризація пошукових запитів, автоматизована система аналізу семантичного ядра, k-means, cluster analysis, semantic kernel, graph theory methods, query clustering, automated semantic kernel analysis system
Бібліографічний опис
Білогуб, Д. С. Програмний метод кластеризації веб-сайтів на основі аналізу пошукових запитів користувачів : магістерська дис. : 121 Інженерія програмного забезпечення / Білогуб Дар'я Сергіївна. – Київ, 2019. – 121 с.