Спосіб виявлення основних ключових фрагментів в неструктурованих текстах
Вантажиться...
Дата
2020-12
Автори
Науковий керівник
Назва журналу
Номер ISSN
Назва тому
Видавець
КПІ ім. Ігоря Сікорського
Анотація
Актуальність теми. Для надання інформації про товари і послуги, яка відповідає пошуковим запитам користувачів і має високий ступінь пертінентності, багато Інтернет-порталів впроваджують відповідні рекомендаційні сервіси. Найпростішим і найбільш поширеним різновидом таких рекомендаційних сервісів є системи фільтрації, засновані на фіксованому наборі параметрів-фільтрів, організованих у форму введення на сайті.
Для здійснення фільтрації туристичних продуктів за фіксованим набором параметрів, як правило, використовується база даних, що містить набір характеристик продукту. При цьому впровадження такої бази знань в сервіс накладає зобов'язання з підтримки її актуальності, а також регулярної перевірці та коригуванні інформації, що міститься в ній. Як правило, здійснення цих завдань вимагає залучення контент-менеджерів для виконання значної кількості «ручної» праці. Як відгуки туристів, так і новинні замітки є неструктурованими текстами, представленими природною мовою. Для ефективного аналізу вмісту подібних текстів використовуються так звані «факти» - пари слів виду «параметр» (головне, слово, що визначає зміст) + «характеристика» (залежне слово, визначення), - які можна отримати з тексту за допомогою різних інструментів синтаксичного аналізу.
Мета роботи полягає у підвищенні ефективності пошуку ключових фраз у неструктурованих текстах, що представлені природною мовою, зокрема українською, за рахунок автоматизацій деяких процесів виділення ключових фраз та залучення словників фраз з певної тематики, що збільшує швидкість обробки текстів без залучення людини.
Для досягнення поставленої мети в роботі вирішуються наступні задачі.
1. Дослідження існуючих елементів для роботи з текстами написаними природною мовою.
2. Розробка методу вилучення ключових фрагментів з текстів природною мовою.
3. Реалізація розробленого алгоритму для статей та відгуків про готелі.
Об’єктом дослідження є способи виділення ключових фраз з неструктурованих текстів.
Предметом дослідження є способи виділення ключових фактів на основі алгоритму TF-IDF та алгоритму пошуку ключових слів, який базується на частоті фактів, що виділяють інформацію з тексту а основі онтології.
Методи дослідження. В роботі використовуються методи оптимізації, методи системного аналізу, а також методів моделювання.
Наукова новизна одержаних результатів полягає в тому, що підвищена ефективність виявлення ключових фактів з неструктурованих текстів, розроблений на його основі алгоритм, який нівелює недоліки вже існуючих, а саме:
1. Виявляє кочові фрази за заданою тематикикою.
2. Оцінює достовірність вилучених фактів.
Практична цінність одержаних результатів зводиться до виділення ключових слів з статей та відгуків про готелі українською мовою, що спрощує подальшу роботу з ними, тобто побудову коротшого та більш чіткого опису готелів і спрощує пошук потрібних для клієнтів характеристик готелів.
Апробація роботи. Основні положення і результати роботи були представлені та обговорювались на:
• XIII науковій конференції молодих вчених «Прикладна математика та комп’ютинг» ПМК-2020;
• VІ міжнародна науково-технічна Internet-конференція.
Публікації. За тематикою проведених досліджень опубліковано 2 наукові праці, а саме тези доповідей на 2-х конференціях.
Структура та обсяг роботи.
Магістерська дисертація складається з вступу, трьох розділів, висновків та додатків.
У вступі надано загальну характеристику програмного коду, проблематику виділення ключових фраз з неструктурованих текстів, сформульовано мету дослідження, показано практичну цінність роботи.
У першому розділі надано детальне обґрунтування актуальності напрямку досліджень, виконано оцінку поточного стану в даній сфері, представлено теоретичний огляд виділення ключових фраз з неструктурованих текстів.
У другому розділі розроблено та описано спосіб виділення фраз з неструктурованих тестів українською мовою.
У третьому розділі проведено апробацію.
У висновках проаналізовано отримані результати роботи.
Опис
Ключові слова
ключові фрази, алгоритм TF-IDF, частота фактів, неструктуровані тексти, природна мова, key phrases, TF-IDF algorithm, frequency of facts, unstructured texts, natural language
Бібліографічний опис
Мандрік, М. В. Спосіб виявлення основних ключових фрагментів в неструктурованих текстах : магістерська дис. : 123 Комп’ютерна інженерія / Мандрік Марія Владиславівна. – Київ, 2020. – 93 с.