Система індексування текстів бази знань

Старченко, Артем Олександрович

Система індексування текстів бази знань

dc.contributor.advisor	Новацький, Анатолій Олександрович
dc.contributor.author	Старченко, Артем Олександрович
dc.date.accessioned	2018-12-29T22:53:13Z
dc.date.available	2018-12-29T22:53:13Z
dc.date.issued	2018
dc.description.abstract	Магістерська атестаційна робота “Система індексування текстів бази знань”: 144 с., 78 рис., 15 табл., 1 додаток, 20 джерел. Об'єкт дослідження – системи управління знаннями. Мета роботи – аналіз існуючих алгоритмів індексування текстів в системах управління знаннями і розробка нового механізму індексування текстів. Метод дослідження – аналіз існуючих механізмів. В основних методах індексування, класифікаційне та координатне, є деякі недоліки. В першому, тексти в залежності від їх змісту, відносяться до відповідного класу, в якому накопичуються всі тексти, що мають схожий зміст. Кожному такому тексту відповідає індекс даного класу, що і виступає його пошуковим образом. Недоліком є те, що тексти можуть відрізнятися і при цьому мати один загальний індекс. Алгоритм координатного індексування документів оснований на врахуванні класифікаційних характеристик присутніх в тексті термінів (слів та словосполучень), характеризуючи ту чи іншу предметну область. Для цього необхідно створення словника термінів предметної області, при чому, в цьому словнику повинні бути установлені зв’язки між термінами та проведена їх класифікація. Такий словник називається тезаурусом. Його створення потребує досить великих зусиль, що і є недоліком цього алгоритму. Для створення індексів текстів розроблено механізм, котрий для кожного документу створює індивідуальний індекс. При проходженні процесу індексування, враховується предметна область тексту, але на відміну від тезаурусу, де необхідно встановлювати зв’язки між термінами, використовуються словники предметних областей. В основу алгоритму покладено модифіковану математичну модель латентно-семантичного індексування. Окрім синонімії, враховується морфологічний аналіз кожного слова тексту, що розширює можливості даної моделі. В процесі дослідження, аналізу та розробки алгоритму використовувався пакет Enterprise Architect. Для реалізації та проведення експериментів написано програмний продукт в пакеті MS Visual Studio 2017 Community Edition на мові C# під платформою .NET. Для збереження обробленої інформації використовується база даних Access. Прогнозні припущення про розвиток дослідження – при створенні індексу, врахування полісемії та омонімії слів.	uk
dc.description.abstracten	Master's degree attestation work of “System of indexing texts in knowledge management system”: 127 pages, 78 pictures, 10 tables, 1 addition, 20 sources. A research object is knowledge management system. A purpose of work is an analysis of existent algorithms of indexing texts in knowledge management system and development new mechanism indexing texts. A research method is an analysis of existent mechanisms. In basic indexing methods, classification and coordinate, there are some failings. In the first, texts depending on their maintenance, behave to the proper class, which contain all texts that have alike maintenance. All this texts have index of this class, that becomes searching image. Failing is that texts can differ and here have one general index. The algorithm of the coordinate indexing of documents is based on the account of classification descriptions of present in a text terms (words and combinations of words), characterizing subject of text. For this purpose it is necessary creation dictionary of terms for subject domain, and in this dictionary must be relations between terms and they must be classified. Such dictionary named as thesaurus. His creation needs enough large efforts, that is the lack of this algorithm. For creation indexes of texts was developed mechanism which creates an individual index for every document. At passing of indexing process, the subject domain is taken place, but unlike thesaurus, where it is necessary to set relations between terms, the dictionaries of subject domains are utilized. The modified mathematical model of the latently semantic indexing take place in algorithm. Except for synonyms, the morphological analysis of every word take place, which extends possibilities of this model. In the process of research, analysis and development of algorithm the package of Rational Rose was utilized. For realization and experiments a software product is written in the package MS Visual Studio 2017 Community Edition in language of C# under platform .NET. For the maintenance of the treated information a database Access is utilized. Prognosis suppositions about development of research - at creation of index, account of polysemys and homonymy of words.	uk
dc.description.abstractru	Объект исследования - системы управления знаниями. Цель работы - анализ существующих алгоритмов индексирования текстов в системах управления знаниями и разработка нового механизма индексирования текстов. Метод исследования - анализ существующих механизмив.Програмне тестирования позволило проверить практическую важность полученных результатов.	uk
dc.format.page	146 с.	uk
dc.identifier.citation	Старченко, А. О. Система індексування текстів бази знань : магістерська дис. : 126 Інформаційні системи та технології / Старченко Артем Олександрович. – Київ, 2018. – 146 с.	uk
dc.identifier.uri	https://ela.kpi.ua/handle/123456789/25556
dc.language.iso	uk	uk
dc.publisher.place	Київ	uk
dc.subject	база знань	uk
dc.subject	індексування текстів	uk
dc.subject	алгоритми індексування текстів	uk
dc.subject	індекс	uk
dc.subject	пошукова система	uk
dc.subject	система управління знаннями	uk
dc.subject	координатне індексування	uk
dc.subject	класифікаційне індексування	uk
dc.subject	словники тематик	uk
dc.subject	морфологічний аналіз	uk
dc.subject	ЕУД	uk
dc.subject	ключові слова	uk
dc.subject	математична модель	uk
dc.subject	index	uk
dc.subject	searching system	uk
dc.subject	knowledge management system	uk
dc.subject	coordinate indexing	uk
dc.subject	classification indexing	uk
dc.subject	dictionaries of subjects	uk
dc.subject	morphological analysis	uk
dc.subject	ECD	uk
dc.subject	keywords	uk
dc.subject	mathematical model	uk
dc.subject.udc	004.9	uk
dc.title	Система індексування текстів бази знань	uk
dc.type	Master Thesis	uk

Файли

Контейнер файлів

Зараз показуємо 1 - 1 з 1

Назва:: Starchenko_magistr.pdf
Розмір:: 2.24 MB
Формат:: Adobe Portable Document Format
Опис:: magistr_diss

Завантажити

Ліцензійна угода

Зараз показуємо 1 - 1 з 1

Назва:: license.txt
Розмір:: 7.74 KB
Формат:: Item-specific license agreed upon to submission
Опис:

Завантажити

Зібрання

Магістерські роботи (АУТС)
Магістерські роботи