Спосіб виявлення основних ключових фрагментів в неструктурованих текстах

Вантажиться...
Ескіз

Дата

2020-12

Науковий керівник

Назва журналу

Номер ISSN

Назва тому

Видавець

КПІ ім. Ігоря Сікорського

Анотація

Актуальність теми. Для надання інформації про товари і послуги, яка відповідає пошуковим запитам користувачів і має високий ступінь пертінентності, багато Інтернет-порталів впроваджують відповідні рекомендаційні сервіси. Найпростішим і найбільш поширеним різновидом таких рекомендаційних сервісів є системи фільтрації, засновані на фіксованому наборі параметрів-фільтрів, організованих у форму введення на сайті. Для здійснення фільтрації туристичних продуктів за фіксованим набором параметрів, як правило, використовується база даних, що містить набір характеристик продукту. При цьому впровадження такої бази знань в сервіс накладає зобов'язання з підтримки її актуальності, а також регулярної перевірці та коригуванні інформації, що міститься в ній. Як правило, здійснення цих завдань вимагає залучення контент-менеджерів для виконання значної кількості «ручної» праці. Як відгуки туристів, так і новинні замітки є неструктурованими текстами, представленими природною мовою. Для ефективного аналізу вмісту подібних текстів використовуються так звані «факти» - пари слів виду «параметр» (головне, слово, що визначає зміст) + «характеристика» (залежне слово, визначення), - які можна отримати з тексту за допомогою різних інструментів синтаксичного аналізу. Мета роботи полягає у підвищенні ефективності пошуку ключових фраз у неструктурованих текстах, що представлені природною мовою, зокрема українською, за рахунок автоматизацій деяких процесів виділення ключових фраз та залучення словників фраз з певної тематики, що збільшує швидкість обробки текстів без залучення людини. Для досягнення поставленої мети в роботі вирішуються наступні задачі. 1. Дослідження існуючих елементів для роботи з текстами написаними природною мовою. 2. Розробка методу вилучення ключових фрагментів з текстів природною мовою. 3. Реалізація розробленого алгоритму для статей та відгуків про готелі. Об’єктом дослідження є способи виділення ключових фраз з неструктурованих текстів. Предметом дослідження є способи виділення ключових фактів на основі алгоритму TF-IDF та алгоритму пошуку ключових слів, який базується на частоті фактів, що виділяють інформацію з тексту а основі онтології. Методи дослідження. В роботі використовуються методи оптимізації, методи системного аналізу, а також методів моделювання. Наукова новизна одержаних результатів полягає в тому, що підвищена ефективність виявлення ключових фактів з неструктурованих текстів, розроблений на його основі алгоритм, який нівелює недоліки вже існуючих, а саме: 1. Виявляє кочові фрази за заданою тематикикою. 2. Оцінює достовірність вилучених фактів. Практична цінність одержаних результатів зводиться до виділення ключових слів з статей та відгуків про готелі українською мовою, що спрощує подальшу роботу з ними, тобто побудову коротшого та більш чіткого опису готелів і спрощує пошук потрібних для клієнтів характеристик готелів. Апробація роботи. Основні положення і результати роботи були представлені та обговорювались на: • XIII науковій конференції молодих вчених «Прикладна математика та комп’ютинг» ПМК-2020; • VІ міжнародна науково-технічна Internet-конференція. Публікації. За тематикою проведених досліджень опубліковано 2 наукові праці, а саме тези доповідей на 2-х конференціях. Структура та обсяг роботи. Магістерська дисертація складається з вступу, трьох розділів, висновків та додатків. У вступі надано загальну характеристику програмного коду, проблематику виділення ключових фраз з неструктурованих текстів, сформульовано мету дослідження, показано практичну цінність роботи. У першому розділі надано детальне обґрунтування актуальності напрямку досліджень, виконано оцінку поточного стану в даній сфері, представлено теоретичний огляд виділення ключових фраз з неструктурованих текстів. У другому розділі розроблено та описано спосіб виділення фраз з неструктурованих тестів українською мовою. У третьому розділі проведено апробацію. У висновках проаналізовано отримані результати роботи.

Опис

Ключові слова

ключові фрази, алгоритм TF-IDF, частота фактів, неструктуровані тексти, природна мова, key phrases, TF-IDF algorithm, frequency of facts, unstructured texts, natural language

Бібліографічний опис

Мандрік, М. В. Спосіб виявлення основних ключових фрагментів в неструктурованих текстах : магістерська дис. : 123 Комп’ютерна інженерія / Мандрік Марія Владиславівна. – Київ, 2020. – 93 с.

ORCID

DOI