Система індексування текстів бази знань
dc.contributor.advisor | Новацький, Анатолій Олександрович | |
dc.contributor.author | Старченко, Артем Олександрович | |
dc.date.accessioned | 2018-12-29T22:53:13Z | |
dc.date.available | 2018-12-29T22:53:13Z | |
dc.date.issued | 2018 | |
dc.description.abstracten | Master's degree attestation work of “System of indexing texts in knowledge management system”: 127 pages, 78 pictures, 10 tables, 1 addition, 20 sources. A research object is knowledge management system. A purpose of work is an analysis of existent algorithms of indexing texts in knowledge management system and development new mechanism indexing texts. A research method is an analysis of existent mechanisms. In basic indexing methods, classification and coordinate, there are some failings. In the first, texts depending on their maintenance, behave to the proper class, which contain all texts that have alike maintenance. All this texts have index of this class, that becomes searching image. Failing is that texts can differ and here have one general index. The algorithm of the coordinate indexing of documents is based on the account of classification descriptions of present in a text terms (words and combinations of words), characterizing subject of text. For this purpose it is necessary creation dictionary of terms for subject domain, and in this dictionary must be relations between terms and they must be classified. Such dictionary named as thesaurus. His creation needs enough large efforts, that is the lack of this algorithm. For creation indexes of texts was developed mechanism which creates an individual index for every document. At passing of indexing process, the subject domain is taken place, but unlike thesaurus, where it is necessary to set relations between terms, the dictionaries of subject domains are utilized. The modified mathematical model of the latently semantic indexing take place in algorithm. Except for synonyms, the morphological analysis of every word take place, which extends possibilities of this model. In the process of research, analysis and development of algorithm the package of Rational Rose was utilized. For realization and experiments a software product is written in the package MS Visual Studio 2017 Community Edition in language of C# under platform .NET. For the maintenance of the treated information a database Access is utilized. Prognosis suppositions about development of research - at creation of index, account of polysemys and homonymy of words. | uk |
dc.description.abstractru | Объект исследования - системы управления знаниями. Цель работы - анализ существующих алгоритмов индексирования текстов в системах управления знаниями и разработка нового механизма индексирования текстов. Метод исследования - анализ существующих механизмив.Програмне тестирования позволило проверить практическую важность полученных результатов. | uk |
dc.description.abstractuk | Магістерська атестаційна робота “Система індексування текстів бази знань”: 144 с., 78 рис., 15 табл., 1 додаток, 20 джерел. Об'єкт дослідження – системи управління знаннями. Мета роботи – аналіз існуючих алгоритмів індексування текстів в системах управління знаннями і розробка нового механізму індексування текстів. Метод дослідження – аналіз існуючих механізмів. В основних методах індексування, класифікаційне та координатне, є деякі недоліки. В першому, тексти в залежності від їх змісту, відносяться до відповідного класу, в якому накопичуються всі тексти, що мають схожий зміст. Кожному такому тексту відповідає індекс даного класу, що і виступає його пошуковим образом. Недоліком є те, що тексти можуть відрізнятися і при цьому мати один загальний індекс. Алгоритм координатного індексування документів оснований на врахуванні класифікаційних характеристик присутніх в тексті термінів (слів та словосполучень), характеризуючи ту чи іншу предметну область. Для цього необхідно створення словника термінів предметної області, при чому, в цьому словнику повинні бути установлені зв’язки між термінами та проведена їх класифікація. Такий словник називається тезаурусом. Його створення потребує досить великих зусиль, що і є недоліком цього алгоритму. Для створення індексів текстів розроблено механізм, котрий для кожного документу створює індивідуальний індекс. При проходженні процесу індексування, враховується предметна область тексту, але на відміну від тезаурусу, де необхідно встановлювати зв’язки між термінами, використовуються словники предметних областей. В основу алгоритму покладено модифіковану математичну модель латентно-семантичного індексування. Окрім синонімії, враховується морфологічний аналіз кожного слова тексту, що розширює можливості даної моделі. В процесі дослідження, аналізу та розробки алгоритму використовувався пакет Enterprise Architect. Для реалізації та проведення експериментів написано програмний продукт в пакеті MS Visual Studio 2017 Community Edition на мові C# під платформою .NET. Для збереження обробленої інформації використовується база даних Access. Прогнозні припущення про розвиток дослідження – при створенні індексу, врахування полісемії та омонімії слів. | uk |
dc.format.page | 146 с. | uk |
dc.identifier.citation | Старченко, А. О. Система індексування текстів бази знань : магістерська дис. : 126 Інформаційні системи та технології / Старченко Артем Олександрович. – Київ, 2018. – 146 с. | uk |
dc.identifier.uri | https://ela.kpi.ua/handle/123456789/25556 | |
dc.language.iso | uk | uk |
dc.publisher.place | Київ | uk |
dc.subject | база знань | uk |
dc.subject | індексування текстів | uk |
dc.subject | алгоритми індексування текстів | uk |
dc.subject | індекс | uk |
dc.subject | пошукова система | uk |
dc.subject | система управління знаннями | uk |
dc.subject | координатне індексування | uk |
dc.subject | класифікаційне індексування | uk |
dc.subject | словники тематик | uk |
dc.subject | морфологічний аналіз | uk |
dc.subject | ЕУД | uk |
dc.subject | ключові слова | uk |
dc.subject | математична модель | uk |
dc.subject | index | uk |
dc.subject | searching system | uk |
dc.subject | knowledge management system | uk |
dc.subject | coordinate indexing | uk |
dc.subject | classification indexing | uk |
dc.subject | dictionaries of subjects | uk |
dc.subject | morphological analysis | uk |
dc.subject | ECD | uk |
dc.subject | keywords | uk |
dc.subject | mathematical model | uk |
dc.subject.udc | 004.9 | uk |
dc.title | Система індексування текстів бази знань | uk |
dc.type | Master Thesis | uk |
Файли
Контейнер файлів
1 - 1 з 1
Вантажиться...
- Назва:
- Starchenko_magistr.pdf
- Розмір:
- 2.24 MB
- Формат:
- Adobe Portable Document Format
- Опис:
- magistr_diss
Ліцензійна угода
1 - 1 з 1
Ескіз недоступний
- Назва:
- license.txt
- Розмір:
- 7.74 KB
- Формат:
- Item-specific license agreed upon to submission
- Опис: