Створення мереж слів на основі текстів з використанням алгоритмів графів видимості

dc.contributor.authorЛанде, Дмитро Володимирович
dc.contributor.authorДмитренко, Олег Олександрович
dc.date.accessioned2020-05-28T11:33:16Z
dc.date.available2020-05-28T11:33:16Z
dc.date.issued2018
dc.description.abstractПропонується метод створення мереж із текстів, так званих мереж слів (Language Network). Із масиву заздалегідь вибраних текстових документів, які описують певну предметну область, виділяються окремі слова та ключові поняття. Використовуючи статистичний показник TF-IDF окремим словам ставляться у відповідність числові вагові значення, і як результат, формується часовий ряд. Використовуючи алгоритми побудови графів видимості як інструмент для аналізу часових рядів, між отриманими ключовими поняттями будується граф предметної області. Для прикладу, в роботі розглядаються актуальні предметні області: “Космічний простір” та “Комп’ютерна графіка”. Для масиву заздалегідь вибраних текстових документів, тематично пов’язаних з поняттям космічного простору та комп’ютерної графіки, застосовуються алгоритми побудови графів видимості та будується мережа слів. В результаті проведення досліджень встановлено, що такі слова, як “uranium”, “nuclear”, “waste”, “Jupiter”, “Mercury”, “Moon”, “Earth”, “comet”, “space” та інші є ключовими для предметної області “Космічний простір”. Також у роботі порівнюються результати застосування алгоритму побудови графів видимості з алгоритмом побудови компактифікованого графу горизонтальної видимості. Досліджуючи предметну область “Комп’ютерна графіка” встановлено, що у випадку застосування алгоритму побудови компактифікованого графу горизонтальної видимості такі ключові слова, як “design”, “graphic”, “graphics”, “display”, “tiff” мають більше зв’язків у мережі, ніж у випадку застосування алгоритму побудови графів видимості. В якості допоміжних інструментів для дослідження використовуються пакет візуалізації та моделювання графів Gephi та власний набір спеціально розроблених модулів на Python. Запропонований метод може бути використаний для візуалізації певної предметної області, а також в системах інформаційної підтримки автоматизації процесів прийняття рішень, даючи змогу виявити найбільш важливі компоненти предметної області. Також результати роботи можуть бути використані під час створення персональних пошукових інтерфейсів користувачів інформаційно-пошукових систем, що, в свою чергу, дозволить спростити процес пошуку необхідної інформації.uk
dc.description.abstractenA method to constructing language networks is proposed. Key words and concepts from the set of documents which describe some subject domain are retrieved. Numeric values are assigned to each word using a TF-IDF metric, that is intended to reflect how important a word is to a document in a collection or corpus. As the result a time series are constructed. A tool in time series analysis – the visibility graph algorithm is used for constructing the graph of subject domain. In this article two actual subject domains (“Space” and “Computer graphic”) are considered for example. The proposed method is used for the set of documents, which are related with “Space” and “Computer graphic”. A network of connections between terms and concepts, which go into textual documents is builded. Building networks of words, the nodes of which are elements of the text, enables to reveal key components of the text. At the same time, the task of determining the important structural elements of the text which are also informationally important, is actual. As a result of the research, it was found that such words as “uranium”, “nuclear”, “waste”, “Jupiter”, “Mercury”, “Moon”, “Earth”, “comet”, “space” and others are key for the subject area “Space”. This article shows that applying only a TF metric is more expedient compared with the TF-IDF metric in case when the set of documents describe one subject domain. Also the results of applying the visibility graphs algorithm and the compactified horizontal visibility graph algorithm are compared. It was found that in some case using the compactified horizontal visibility graph algorithm gives a network of words with more quantity of connections between concepts compared with using the visibility graphs algorithm. An open-source visualization and exploration software for all kinds of graphs and networks Gephi and an original package of specially developed Python modules are used for simulation and visualization as an additional tool. The proposed method can be used for visualization some subject domain, and also for information decision support systems, enabling to reveal key components of a subject domain. Also the results of this article can be used for building UI of information retrieval systems, enabling to make a process of search a relevant information easier.en
dc.description.abstractruПредлагается метод создания сетей из текстов, так называемых сетей слов (Language Network). Из массива заранее выбранных текстовых документов, описывающих определенную предметную область, выделяются отдельные слова и ключевые понятия. Используя статистический показатель TF-IDF отдельным словам ставятся в соответствие числовые весовые значения, и как результат, формируется временной ряд. Используя алгоритмы построения графов видимости как инструмент для анализа временных рядов, между полученными ключевыми понятиями строится граф предметной области. Например, в работе рассматриваются актуальные предметные области: “Космическое пространство” и “Компьютерная графика”. Для массива заранее выбранных текстовых документов, тематически связанных с понятием космического пространства и компьютерной графики, применяются алгоритмы построения графов видимости та строится сеть слов. В результате проведения исследований установлено, что такие слова, как “uranium”, “nuclear”, “waste”, “Jupiter”, “Mercury”, “Moon”, “Earth”, “comet”, “waste”, “space” и другие являются ключевыми для предметной области "Космическое пространство". Также в работе сравниваются результаты применения алгоритма построения графов видимости с алгоритмом построения компактифицированного графу горизонтальной видимости. Исследуя предметную область “Компьютерная графика” установлено, что в случае применения алгоритма построения компактифицированного графу горизонтальной видимости такие ключевые слова, как “design”, “graphic”, “graphics”, “display”, “tiff” имеют больше связей в сети, чем в случае применения алгоритма построения графов видимости. В качестве вспомогательных инструментов для исследования используются пакет визуализации и моделирования графов Gephi и собственный набор специально разработанных модулей на Python. Предложенный метод может быть использован для визуализации определенной предметной области, а также в системах информационной поддержки автоматизации процессов принятия решений, позволяя выявить наиболее важные компоненты предметной области. Также результаты работы могут быть использованы при построении персональных поисковых интерфейсов информационно-поисковых систем, что,ru
dc.format.extentС. 5-18uk
dc.identifier.citationЛанде, Д. Створення мереж слів на основі текстів з використанням алгоритмів графів видимості / Дмитро Ланде, Олег Дмитренко // Information Technology and Security. – 2018. – Vol. 6, Iss. 2 (11). – Pp. 5–18. – Bibliogr.: 27 ref.uk
dc.identifier.doihttps://doi.org/10.20535/2411-1031.2018.6.2.153486
dc.identifier.urihttps://ela.kpi.ua/handle/123456789/33825
dc.language.isoukuk
dc.publisherInstitute of Special Communication and Information Protection of National Technical University of Ukraine “Igor Sikorsky Kyiv Polytechnic Institute”en
dc.publisher.placeKyiven
dc.relation.ispartofInformation Technology and Security : Ukrainian research papers collection, 2018, Vol. 6, Iss. 2 (11)en
dc.subjectмасив документівuk
dc.subjectпредметна областьuk
dc.subjectчасовий рядuk
dc.subjectмережа слівuk
dc.subjectстатистична вага словаuk
dc.subjectграф видимостіuk
dc.subjectкомпактифікований граф горизонтальної видимостіuk
dc.subjectset of documentsen
dc.subjectdomainen
dc.subjecttime seriesen
dc.subjectnetwork of wordsen
dc.subjectstatistical weight of worden
dc.subjectvisibility graphen
dc.subjectcompactified horizontal visibility graphen
dc.subjectмассив документовru
dc.subjectпредметная областьru
dc.subjectвременной рядru
dc.subjectсеть словru
dc.subjectстатистический вес словаru
dc.subjectграф видимостиru
dc.subjectкомпактифицированный граф горизонтальной видимостиru
dc.subject.udc004.67en
dc.titleСтворення мереж слів на основі текстів з використанням алгоритмів графів видимостіuk
dc.title.alternativeCreation of language networks based on texts with using visibility graphs algorithmsen
dc.title.alternativeСоздание сетей слов на основе текстов с использованием алгоритмов графов видимостиru
dc.typeArticleen

Файли

Контейнер файлів
Зараз показуємо 1 - 1 з 1
Вантажиться...
Ескіз
Назва:
ITS2018-6-2_01.pdf
Розмір:
995.44 KB
Формат:
Adobe Portable Document Format
Опис:
Ліцензійна угода
Зараз показуємо 1 - 1 з 1
Ескіз недоступний
Назва:
license.txt
Розмір:
9.06 KB
Формат:
Item-specific license agreed upon to submission
Опис: