Система індексування текстів бази знань

dc.contributor.advisorНовацький, Анатолій Олександрович
dc.contributor.authorСтарченко, Артем Олександрович
dc.date.accessioned2018-12-29T22:53:13Z
dc.date.available2018-12-29T22:53:13Z
dc.date.issued2018
dc.description.abstractenMaster's degree attestation work of “System of indexing texts in knowledge management system”: 127 pages, 78 pictures, 10 tables, 1 addition, 20 sources. A research object is knowledge management system. A purpose of work is an analysis of existent algorithms of indexing texts in knowledge management system and development new mechanism indexing texts. A research method is an analysis of existent mechanisms. In basic indexing methods, classification and coordinate, there are some failings. In the first, texts depending on their maintenance, behave to the proper class, which contain all texts that have alike maintenance. All this texts have index of this class, that becomes searching image. Failing is that texts can differ and here have one general index. The algorithm of the coordinate indexing of documents is based on the account of classification descriptions of present in a text terms (words and combinations of words), characterizing subject of text. For this purpose it is necessary creation dictionary of terms for subject domain, and in this dictionary must be relations between terms and they must be classified. Such dictionary named as thesaurus. His creation needs enough large efforts, that is the lack of this algorithm. For creation indexes of texts was developed mechanism which creates an individual index for every document. At passing of indexing process, the subject domain is taken place, but unlike thesaurus, where it is necessary to set relations between terms, the dictionaries of subject domains are utilized. The modified mathematical model of the latently semantic indexing take place in algorithm. Except for synonyms, the morphological analysis of every word take place, which extends possibilities of this model. In the process of research, analysis and development of algorithm the package of Rational Rose was utilized. For realization and experiments a software product is written in the package MS Visual Studio 2017 Community Edition in language of C# under platform .NET. For the maintenance of the treated information a database Access is utilized. Prognosis suppositions about development of research - at creation of index, account of polysemys and homonymy of words.uk
dc.description.abstractruОбъект исследования - системы управления знаниями. Цель работы - анализ существующих алгоритмов индексирования текстов в системах управления знаниями и разработка нового механизма индексирования текстов. Метод исследования - анализ существующих механизмив.Програмне тестирования позволило проверить практическую важность полученных результатов.uk
dc.description.abstractukМагістерська атестаційна робота “Система індексування текстів бази знань”: 144 с., 78 рис., 15 табл., 1 додаток, 20 джерел. Об'єкт дослідження – системи управління знаннями. Мета роботи – аналіз існуючих алгоритмів індексування текстів в системах управління знаннями і розробка нового механізму індексування текстів. Метод дослідження – аналіз існуючих механізмів. В основних методах індексування, класифікаційне та координатне, є деякі недоліки. В першому, тексти в залежності від їх змісту, відносяться до відповідного класу, в якому накопичуються всі тексти, що мають схожий зміст. Кожному такому тексту відповідає індекс даного класу, що і виступає його пошуковим образом. Недоліком є те, що тексти можуть відрізнятися і при цьому мати один загальний індекс. Алгоритм координатного індексування документів оснований на врахуванні класифікаційних характеристик присутніх в тексті термінів (слів та словосполучень), характеризуючи ту чи іншу предметну область. Для цього необхідно створення словника термінів предметної області, при чому, в цьому словнику повинні бути установлені зв’язки між термінами та проведена їх класифікація. Такий словник називається тезаурусом. Його створення потребує досить великих зусиль, що і є недоліком цього алгоритму. Для створення індексів текстів розроблено механізм, котрий для кожного документу створює індивідуальний індекс. При проходженні процесу індексування, враховується предметна область тексту, але на відміну від тезаурусу, де необхідно встановлювати зв’язки між термінами, використовуються словники предметних областей. В основу алгоритму покладено модифіковану математичну модель латентно-семантичного індексування. Окрім синонімії, враховується морфологічний аналіз кожного слова тексту, що розширює можливості даної моделі. В процесі дослідження, аналізу та розробки алгоритму використовувався пакет Enterprise Architect. Для реалізації та проведення експериментів написано програмний продукт в пакеті MS Visual Studio 2017 Community Edition на мові C# під платформою .NET. Для збереження обробленої інформації використовується база даних Access. Прогнозні припущення про розвиток дослідження – при створенні індексу, врахування полісемії та омонімії слів.uk
dc.format.page146 с.uk
dc.identifier.citationСтарченко, А. О. Система індексування текстів бази знань : магістерська дис. : 126 Інформаційні системи та технології / Старченко Артем Олександрович. – Київ, 2018. – 146 с.uk
dc.identifier.urihttps://ela.kpi.ua/handle/123456789/25556
dc.language.isoukuk
dc.publisher.placeКиївuk
dc.subjectбаза знаньuk
dc.subjectіндексування текстівuk
dc.subjectалгоритми індексування текстівuk
dc.subjectіндексuk
dc.subjectпошукова системаuk
dc.subjectсистема управління знаннямиuk
dc.subjectкоординатне індексуванняuk
dc.subjectкласифікаційне індексуванняuk
dc.subjectсловники тематикuk
dc.subjectморфологічний аналізuk
dc.subjectЕУДuk
dc.subjectключові словаuk
dc.subjectматематична модельuk
dc.subjectindexuk
dc.subjectsearching systemuk
dc.subjectknowledge management systemuk
dc.subjectcoordinate indexinguk
dc.subjectclassification indexinguk
dc.subjectdictionaries of subjectsuk
dc.subjectmorphological analysisuk
dc.subjectECDuk
dc.subjectkeywordsuk
dc.subjectmathematical modeluk
dc.subject.udc004.9uk
dc.titleСистема індексування текстів бази знаньuk
dc.typeMaster Thesisuk

Файли

Контейнер файлів
Зараз показуємо 1 - 1 з 1
Вантажиться...
Ескіз
Назва:
Starchenko_magistr.pdf
Розмір:
2.24 MB
Формат:
Adobe Portable Document Format
Опис:
magistr_diss
Ліцензійна угода
Зараз показуємо 1 - 1 з 1
Ескіз недоступний
Назва:
license.txt
Розмір:
7.74 KB
Формат:
Item-specific license agreed upon to submission
Опис: