Автоматичне виділення концептів та тез в онтологічно-орієнтованому навчальному порталі

dc.contributor.advisorТитенко, Сергій Володимирович
dc.contributor.authorСуходольський, Артем Олексійович
dc.date.accessioned2020-02-24T14:58:23Z
dc.date.available2020-02-24T14:58:23Z
dc.date.issued2019-12
dc.description.abstractenThis dissertation consists of an introduction, 5 sections, conclusions, a list of used sources of 30 items. The dissertation size is 75 pages, the work has 12 drawings, 18 tables, 8 formulas and 1 appendix. Actuality of theme. In modern world, textual data has a significant share in information systems, including distance education, where the qualitative structuring of knowledge directly correlates with the quality of the entire service. The classic methods are to store data in databases as text and tags for it, to emphasize the hierarchy of articles and to structure them. One of the approaches to quality knowledge delivery is to create a conceptual thesis model (CTM), which contains information about concepts and theses to them. CTM provides a means of describing the conceptual content component and provides the basis for software tools for editing and using the database and knowledge. Since CTM is a complex structure for data representation, filling it is accompanied by manual work, which can negatively affect the efficiency of its creation. Therefore, the task is to create a method for the automatic selection of concepts and theses, which will work on the basis of articles from the ontology-oriented portal. This method should provide the user with quality guidelines for concepts and theses that are relevant to the content of the article. There is also a need to create a service that allows other web applications to use the service capabilities to solve their tasks in the context of creating a CTM. The purpose and objectives of the study. The purpose of this dissertation is to create a formal apparatus and software that automates the process of highlighting concepts and theses based on textual data in English. The purpose is also to analyze modern software products and algorithms that perform the task, to compare them with the realities of the educational portal, and, if necessary, to adapt to preserve the quality of their work. This goal is achieved by solving the following problems: • analysis of existing algorithmic solutions to solve the problem of automatic extraction of concepts and theses; • development of a formal apparatus for the method of automatic extraction of concepts and theses in English; • development and software implementation of the system for automatic concepts and theses extraction including creation of REST API an user web-interface. Object of study. Automatic search for concepts and theses. Subject of study. Methods for automatic search for concepts and theses. Research methods. Research methods include creating a metric to measure the quality of selected concepts. This metric includes manually processed data. We also simulated service workload, where the system processed a large number of requests. The innovative novelty of the obtained results is to solve the urgent problem of automatic separation of concepts and abstracts, namely: • a formal apparatus for concepts extraction based on the proposed regular expression language, filtering and ranking them. A method was also proposed to automatically find relevant theses for concepts; • adapted methods for text tokenization and part of speech tagging. The practical significance of the obtained results lies in the development of a software system for the automatic selection of concepts and theses and their recommendation to an ontology expert.uk
dc.description.abstractukДисертаційна робота складається зі вступу, 5 розділів, висновків, списку використаних джерел з 30 найменувань. Обсяг дисертації становить 75 сторінок, робота має 12 рисунків, 18 таблиць, 8 формул та 1 додаток. Актуальність теми. У сучасному світі, текстові дані займають значну частку в інформаційних системах, у тому числі у системах дистанційної освіти, де якісна структуризація знань напряму корелює з якістю всього сервісу. Класичними методами являються збереження даних у базах даних у вигляді тексту та тегів для нього, щоб підкреслити ієрархію статей та структурувати їх. Одним із підходів у якісному наданні знань являється створення понятійно-тезисної моделі (ПТМ), яка містить в собі інформацію о концептах та тезах до них. ПТМ надає засоби опису понятійної складової контенту і забезпечує основу для програмного інструментарію редагування і використання бази даних та знань. Оскільки ПТМ являє собою складну структуру представлення даних, то її наповнення супроводжується ручною роботою, що може негативно впливати на ефективність її створення. Тому постає задача у створенні методу для автоматичного виділення концептів та тез, який буде працювати на базі статей з онтологічно-орієнтованого порталу. Даний метод повинен надавати користувачу якісні рекомендації концептів та тез, які відповідають змісту статті. Також є необхідність у створенні сервісу, який дозволяє іншим веб-застосункам використовувати можливості сервісу для вирішення своїх задач у контексті створення ПТМ. Мета та завдання дослідження. Метою даної дисертаційної роботи є створення формального апарату та програмного продукту, який автоматизує процес виділення концептів та тез на основі текстових даних на англійській мові. Також метою являється аналіз сучасних програмних продуктів та алгоритмів, які виконують поставлену задачу, зіставити їх з реаліями освітнього порталу, та, при необхідності, адаптувати зі збереженням якості їх роботи. Поставлена мета досягається шляхом вирішення наступних завдань: • аналіз чинних алгоритмічних рішень для вирішення проблеми автоматичного виділення концептів та тез; • розробка формального апарату для методу автоматичного виділення концептів та тез за тексту на англійській мові; • розробка та програмна реалізація системи для автоматичного виділення концептів та тез, зокрема створення REST API інтерфейсу та веб-інтерфейсу користувача. Об’єкт дослідження. Сервіс автоматичного пошуку концептів та тез Предмет дослідження. Методи для автоматичного пошуку концептів та тез Методи дослідження. Методи досліджень включають в себе створення метрики для вимірювання якості виділених концептів. Дана метрика включає в себе вручну оброблені дані (список концептів для статті). Також був використаний метод імітації моделювання навантаженості сервісу, де система опрацьовувала велику кількість запитів. Інноваційна новизна одержаних результатів полягає у вирішенні актуальної проблеми автоматичного виділення понять та тез, а саме: • запропоновано формальний апарат для виділення концептів на базі запропонованої мови регулярних виразів, їх фільтрації та ранжування. Також був запропонований метод для автоматичного пошуку відповідних тез для концептів; • адаптовані методи для токенізації тексту та класифікації слів на частини мови. Практичне значення отриманих результатів полягає в розробці програмної системи для автоматичного виділення концептів та тез та їх рекомендація експерту з онтології.uk
dc.format.page76 с.uk
dc.identifier.citationСуходольський, А. О. Автоматичне виділення концептів та тез в онтологічно-орієнтованому навчальному порталі : магістерська дис. : 121 Інженерія програмного забезпечення / Суходольський Артем Олексійович. – Київ, 2019. – 76 с.uk
dc.identifier.urihttps://ela.kpi.ua/handle/123456789/31882
dc.language.isoukuk
dc.publisherКПІ ім. Ігоря Сікорськогоuk
dc.publisher.placeКиївuk
dc.subjectавтоматичне виділення концептівuk
dc.subjectонтологіяuk
dc.subjectпонятійно-тезисна модельuk
dc.subjectавтоматична обробка текстівuk
dc.subjectautomatic concepts extractionuk
dc.subjectontologyuk
dc.subjectconcept-thesis modeluk
dc.subjectautomatic text processinguk
dc.subject.udc004.89uk
dc.titleАвтоматичне виділення концептів та тез в онтологічно-орієнтованому навчальному порталіuk
dc.typeMaster Thesisuk

Файли

Контейнер файлів
Зараз показуємо 1 - 1 з 1
Вантажиться...
Ескіз
Назва:
Sukhodolskyi_magistr.pdf
Розмір:
1.52 MB
Формат:
Adobe Portable Document Format
Опис:
Ліцензійна угода
Зараз показуємо 1 - 1 з 1
Ескіз недоступний
Назва:
license.txt
Розмір:
9.06 KB
Формат:
Item-specific license agreed upon to submission
Опис: