Система індексування текстів бази знань

Вантажиться...
Ескіз

Дата

2018

Назва журналу

Номер ISSN

Назва тому

Видавець

Анотація

Магістерська атестаційна робота “Система індексування текстів бази знань”: 144 с., 78 рис., 15 табл., 1 додаток, 20 джерел. Об'єкт дослідження – системи управління знаннями. Мета роботи – аналіз існуючих алгоритмів індексування текстів в системах управління знаннями і розробка нового механізму індексування текстів. Метод дослідження – аналіз існуючих механізмів. В основних методах індексування, класифікаційне та координатне, є деякі недоліки. В першому, тексти в залежності від їх змісту, відносяться до відповідного класу, в якому накопичуються всі тексти, що мають схожий зміст. Кожному такому тексту відповідає індекс даного класу, що і виступає його пошуковим образом. Недоліком є те, що тексти можуть відрізнятися і при цьому мати один загальний індекс. Алгоритм координатного індексування документів оснований на врахуванні класифікаційних характеристик присутніх в тексті термінів (слів та словосполучень), характеризуючи ту чи іншу предметну область. Для цього необхідно створення словника термінів предметної області, при чому, в цьому словнику повинні бути установлені зв’язки між термінами та проведена їх класифікація. Такий словник називається тезаурусом. Його створення потребує досить великих зусиль, що і є недоліком цього алгоритму. Для створення індексів текстів розроблено механізм, котрий для кожного документу створює індивідуальний індекс. При проходженні процесу індексування, враховується предметна область тексту, але на відміну від тезаурусу, де необхідно встановлювати зв’язки між термінами, використовуються словники предметних областей. В основу алгоритму покладено модифіковану математичну модель латентно-семантичного індексування. Окрім синонімії, враховується морфологічний аналіз кожного слова тексту, що розширює можливості даної моделі. В процесі дослідження, аналізу та розробки алгоритму використовувався пакет Enterprise Architect. Для реалізації та проведення експериментів написано програмний продукт в пакеті MS Visual Studio 2017 Community Edition на мові C# під платформою .NET. Для збереження обробленої інформації використовується база даних Access. Прогнозні припущення про розвиток дослідження – при створенні індексу, врахування полісемії та омонімії слів.

Опис

Ключові слова

база знань, індексування текстів, алгоритми індексування текстів, індекс, пошукова система, система управління знаннями, координатне індексування, класифікаційне індексування, словники тематик, морфологічний аналіз, ЕУД, ключові слова, математична модель, index, searching system, knowledge management system, coordinate indexing, classification indexing, dictionaries of subjects, morphological analysis, ECD, keywords, mathematical model

Бібліографічний опис

Старченко, А. О. Система індексування текстів бази знань : магістерська дис. : 126 Інформаційні системи та технології / Старченко Артем Олександрович. – Київ, 2018. – 146 с.

DOI