Спосіб виявлення основних ключових фрагментів в неструктурованих текстах

dc.contributor.advisorОрлова, Марія Миколаївна
dc.contributor.authorМандрік, Марія Владиславівна
dc.date.accessioned2020-12-25T22:03:43Z
dc.date.available2020-12-25T22:03:43Z
dc.date.issued2020-12
dc.description.abstractenActuality of theme. There is a high degree of consistency in providing information about products and services that is responsible for users' search queries, and many Internet portals implement responses to service recommendations. The simplest and most common type of such recommendation services is a filtering system, fixed on a fixed set of filter parameters, organized in the form of input to the Internet. To perform the filtering of tourist products for fixed sets of parameters, as a rule, a database containing a set of product characteristics is used. In this way, the introduction of the knowledge base in the service staff is associated with maintaining its relevance, as well as regular viewers and information on the use contained in it. As a rule, the use of these tasks requires the involvement of content managers to perform a significant amount of "manual" work. Both tourist reviews and replacement news are unstructured texts presented in natural language. For effective analysis of the content of such texts are used so-called "facts" - pairs of words in the form of "parameter" (main, the word that defines the content) + "characteristic" (dependent word, definition) - which can be obtained from the text using various tools parsing. The purpose of the work is to increase the efficiency of searching for key phrases in structured texts, presented in natural language, Ukrainian, to automate certain processes of selection of key phrases and to involve dictionaries on certain topics, which increases the speed of word processing without human intervention. To achieve this goal, the following tasks are solved in the work. 1. Research of existing elements for work with texts written in natural language. 2. Development of a method of extracting key fragments from the text of a natural word. 3. Implementation of the developed algorithm for the state and change of residence. The object of the study are ways to extract key phrases from unstructured texts. The subject of the research is the methods of highlighting key facts based on the TF-IDF algorithm and the keyword search algorithm, which are based on the frequency of facts that extract information from the text and the basis of the ontology. Research methods. The paper uses optimization methods, methods of systems analysis, graph theory, as well as modeling methods. The scientific novelty of the obtained results is that the efficiency of detection of key facts from unstructured texts is increased, the algorithm developed on its basis which eliminates shortcomings of already existing, namely: 1. Detects nomadic phrases on a given topic. 2. Evaluates the authenticity of the removed facts. The practical novelty of search results search results to the selection of keywords from articles and descriptions of living in the Ukrainian language, which facilitates further work with them, creating a shorter and clearer description of hotels and search queries for customers. Approbation of work. The main provisions and results of the work were presented and discussed at the XIII Scientific Conference of Young Scientists "Applied Mathematics and Computing" PMK-2020. Publications. 2 scientific papers were published on the subject of the conducted researches, namely these reports at 2 conferences. Structure and scope of work. The master's dissertation is created from the introduction, three sections, the conclusion and appendices. In the introduction the general characteristic of the program code, problems of allocation of key phrases from unstructured texts is given, the purpose of research is formed, practical value of work is shown. The first section provides a detailed report on the relevance of research results, evaluates the current situation in this area, presents a theoretical overview of the selection of key phrases from unstructured texts. Another section develops and describes a method of extracting phrases from unstructured tests in the Ukrainian language. In the third section the approbation is carried out. The results of the work are analyzed in the conclusions.uk
dc.description.abstractukАктуальність теми. Для надання інформації про товари і послуги, яка відповідає пошуковим запитам користувачів і має високий ступінь пертінентності, багато Інтернет-порталів впроваджують відповідні рекомендаційні сервіси. Найпростішим і найбільш поширеним різновидом таких рекомендаційних сервісів є системи фільтрації, засновані на фіксованому наборі параметрів-фільтрів, організованих у форму введення на сайті. Для здійснення фільтрації туристичних продуктів за фіксованим набором параметрів, як правило, використовується база даних, що містить набір характеристик продукту. При цьому впровадження такої бази знань в сервіс накладає зобов'язання з підтримки її актуальності, а також регулярної перевірці та коригуванні інформації, що міститься в ній. Як правило, здійснення цих завдань вимагає залучення контент-менеджерів для виконання значної кількості «ручної» праці. Як відгуки туристів, так і новинні замітки є неструктурованими текстами, представленими природною мовою. Для ефективного аналізу вмісту подібних текстів використовуються так звані «факти» - пари слів виду «параметр» (головне, слово, що визначає зміст) + «характеристика» (залежне слово, визначення), - які можна отримати з тексту за допомогою різних інструментів синтаксичного аналізу. Мета роботи полягає у підвищенні ефективності пошуку ключових фраз у неструктурованих текстах, що представлені природною мовою, зокрема українською, за рахунок автоматизацій деяких процесів виділення ключових фраз та залучення словників фраз з певної тематики, що збільшує швидкість обробки текстів без залучення людини. Для досягнення поставленої мети в роботі вирішуються наступні задачі. 1. Дослідження існуючих елементів для роботи з текстами написаними природною мовою. 2. Розробка методу вилучення ключових фрагментів з текстів природною мовою. 3. Реалізація розробленого алгоритму для статей та відгуків про готелі. Об’єктом дослідження є способи виділення ключових фраз з неструктурованих текстів. Предметом дослідження є способи виділення ключових фактів на основі алгоритму TF-IDF та алгоритму пошуку ключових слів, який базується на частоті фактів, що виділяють інформацію з тексту а основі онтології. Методи дослідження. В роботі використовуються методи оптимізації, методи системного аналізу, а також методів моделювання. Наукова новизна одержаних результатів полягає в тому, що підвищена ефективність виявлення ключових фактів з неструктурованих текстів, розроблений на його основі алгоритм, який нівелює недоліки вже існуючих, а саме: 1. Виявляє кочові фрази за заданою тематикикою. 2. Оцінює достовірність вилучених фактів. Практична цінність одержаних результатів зводиться до виділення ключових слів з статей та відгуків про готелі українською мовою, що спрощує подальшу роботу з ними, тобто побудову коротшого та більш чіткого опису готелів і спрощує пошук потрібних для клієнтів характеристик готелів. Апробація роботи. Основні положення і результати роботи були представлені та обговорювались на: • XIII науковій конференції молодих вчених «Прикладна математика та комп’ютинг» ПМК-2020; • VІ міжнародна науково-технічна Internet-конференція. Публікації. За тематикою проведених досліджень опубліковано 2 наукові праці, а саме тези доповідей на 2-х конференціях. Структура та обсяг роботи. Магістерська дисертація складається з вступу, трьох розділів, висновків та додатків. У вступі надано загальну характеристику програмного коду, проблематику виділення ключових фраз з неструктурованих текстів, сформульовано мету дослідження, показано практичну цінність роботи. У першому розділі надано детальне обґрунтування актуальності напрямку досліджень, виконано оцінку поточного стану в даній сфері, представлено теоретичний огляд виділення ключових фраз з неструктурованих текстів. У другому розділі розроблено та описано спосіб виділення фраз з неструктурованих тестів українською мовою. У третьому розділі проведено апробацію. У висновках проаналізовано отримані результати роботи.uk
dc.format.page93 с.uk
dc.identifier.citationМандрік, М. В. Спосіб виявлення основних ключових фрагментів в неструктурованих текстах : магістерська дис. : 123 Комп’ютерна інженерія / Мандрік Марія Владиславівна. – Київ, 2020. – 93 с.uk
dc.identifier.urihttps://ela.kpi.ua/handle/123456789/38297
dc.language.isoukuk
dc.publisherКПІ ім. Ігоря Сікорськогоuk
dc.publisher.placeКиївuk
dc.subjectключові фразиuk
dc.subjectалгоритм TF-IDFuk
dc.subjectчастота фактівuk
dc.subjectнеструктуровані текстиuk
dc.subjectприродна моваuk
dc.subjectkey phrasesuk
dc.subjectTF-IDF algorithmuk
dc.subjectfrequency of factsuk
dc.subjectunstructured textsuk
dc.subjectnatural languageuk
dc.subject.udc004.9uk
dc.titleСпосіб виявлення основних ключових фрагментів в неструктурованих текстахuk
dc.typeMaster Thesisuk

Файли

Контейнер файлів
Зараз показуємо 1 - 1 з 1
Вантажиться...
Ескіз
Назва:
Mandrik_magistr.pdf
Розмір:
2.15 MB
Формат:
Adobe Portable Document Format
Опис:
Ліцензійна угода
Зараз показуємо 1 - 1 з 1
Ескіз недоступний
Назва:
license.txt
Розмір:
9.16 KB
Формат:
Item-specific license agreed upon to submission
Опис: