Алгоритм зіставлення шаблонів пошуку з вхідними рядками для визначення можливостей браузера
Ескіз недоступний
Дата
2019-05
Автори
Науковий керівник
Назва журналу
Номер ISSN
Назва тому
Видавець
Анотація
На сьогоднішній день для багатьох компаній та бізнесів які здійснюють свою діяльність в мережі інтернет необхідність у визначенні усієї можливої інформації про користувача стоїть дуже гостро. Один з найбільш дієвих шляхів отримання такої інформації – це аналіз user-agent заголовку запиту користувача, тому що використовуючи цей заголовок можна отримати інформацію про браузер користувача, платформу яку цей браузер використовує, перелік можливостей браузера та інше. Використовуючи отриману інформацію бізнес може налаштувати обробку запитів клієнтів в залежності від типу трафіку, чи то мобільний телефон чи то комп’ютер, можна вирішити який вміст буде відправлено до запитуючого пристрою, або навіть адаптувати вміст на льоту.
Але аналіз user-agent заголовку не є тривіальним завданням. Існує багато бібліотек які вирішують цю задачу балансуючи між точністю та швидкістю отримання результатів. Існують навіть сервіси, що надають послуги по визначенню та аналізу user-agent заголовку, такі як deviceatlas.com. Проблема точності може бути вирішена використовуючи відкриті списки user-agent шаблонів з browscap.org, які постійно оновлюються. Наразі таких шаблонів більше ніж двісті тисяч та вони постійно поповнюються – наявні рішення не в змозі швидко їх обробляти, в той час як швидкість повернення відповіді до клієнта є іншим життєво важливим показником для бізнеса. Тому виникає необхідність в швидких методах аналізу цих шаблонів, а саме методах швидкого зіставлення великої кількості шаблонів пошуку з user-agent екземплярами.
Зв'язок роботи з науковими програмами, планами, темами. Робота виконувалась на кафедрі автоматизованих систем обробки інформації та управління Національного технічного університету України «Київський політехнічний інститут ім. Ігоря Сікорського» в рамках ініціативної теми «Інтелектуальні системи обробки тексту».
Мета дослідження – розробити алгоритм зіставлення шаблонів пошуку з вхідними рядками та програмне застосування (бібліотеку) для вирішення задачі визначення можливостей браузера на основі даних з browscap.org. Бібліотека повинна працювати швидше за своїх аналогів – швидкість роботи повинна бути порівнянною з бібліотеками для визначення можливостей браузера які використовують спрощенні (неточні) схеми визначення можливостей браузера.
Для досягнення поставленої мети необхідно виконати наступні завдання:
дослідити дані про агенти користувача з browscap.org, їх структуру та залежності між різними агентами користувача одного сімейства;
виконати огляд досліджень та отриманих результатів з розв’язання задачі зіставлення шаблонів пошуку з вхідними рядками;
обрати ряд алгоритмів та методів розв’язання задачі зіставлення шаблонів пошуку з вхідними рядками та провести ряд випробувань;
на основі проведеного аналізу здійснити прискорення існуючого алгоритму або розробити новий;
розробити програмну реалізацію алгоритму;
провести порівняння швидкості роботи запропонованого алгоритму з бібліотеками-аналогами, такими що засновані на даних з browscap.org так і іншими, що дають приблизні результати;
провести аналіз отриманих результатів.
Об’єкт дослідження – система обробки тексту.
Предмет дослідження – методи зіставлення шаблонів пошуку з екземплярами текстів.
Наукова новизна отриманих результатів полягає у отриманні алгоритму зіставлення довільної кількості шаблонів пошуку з екземпляром тексту з найкращою часовою оцінкою складності з низу серед існуючих та її практичним підтвердженням.
Практичне значення одержаних результатів полягає у створенні програмного застосування, яке здатне аналізувати заголовок запитів user-agent та точно та повно визначати усі характеристики та можливості браузера клієнта. Бібліотека дозволяє динамічне додавання нових екземплярів до бази агентів користувачів, без необхідності оновлення версії бібліотеки. Порівнюючи з аналогами які роблять повну перевірку за списком даних з browscap.org – отриманий програмний продукт робить той самий аналіз в рази швидше, тим самим дозволяючи користувачам цієї бібліотеки не обирати між швидкістю отримання результатів та їх повнотою та точністю.
Публікації. Результати проведених досліджень були опубліковані у в рамках всеукраїнської науково-практична конференція молодих вчених та студентів «Інформаційні системи та технології управління» (ІСТУ-2019) та на V Міжнародна науково-практична конференція «Обчислювальний інтелект».
Опис
Ключові слова
зіставлення шаблонів пошуку, символи підстановки, агент користувача, можливості браузера, browsecap, multi-pattern mathcing, wildcards, variable length don’t care, browser capabilities, user agent, browsecap
Бібліографічний опис
Блажко, І. О. Алгоритм зіставлення шаблонів пошуку з вхідними рядками для визначення можливостей браузера : магістерська дис. : 126 Інформаційні системи та технології / Блажко Ігнат Олегович. - Київ, 2019. - 58 с.