Інформаційна технологія автоматичної класифікації неструктурованих текстових масивів інформації

dc.contributor.advisorОлійник, Юрій Олександрович
dc.contributor.authorКатющенко, Дар’я Олександрівна
dc.date.accessioned2018-07-06T08:36:49Z
dc.date.available2018-07-06T08:36:49Z
dc.date.issued2018
dc.description.abstractenMaster dissertation: 99 pp., 19 fig., 22 tab., 1 app., 63 sources. Topicality. The need for automatic processing of text documents is now extremely high and is steadily increasing. This is due to the daily increase of textual information on the expanses of the World Wide Web. According to March 2016, there are about 4.66 billion pages on the Internet, and this number only includes pages that are indexed in the most widely used search engines. Therefore, without computer processing, it is not possible to analyze such information volumes in a reasonable time. One of the tasks of intellectual analysis of texts is their classification on the given categories, which needs to be solved in different spheres of human activity. So, for the purpose of securing information and public security, the analysis of social network data, and everyday blogs is important for the purpose of identifying data related to terrorism, drug trafficking, etc. Also, in commercial and public activities, there often is a need to process reviews and comments, in order to identify their emotional color (negative or positive), their distribution on further processing between different Subdivisions, etc. In the first and second examples, the task of classifying textual information among categories in terms of time constraints and resources of computing devices arises. Therefore, the task of automatic and qualitative classification of data at an acceptable time, without prior structuring of information, since structuring requires additional resources, time and can not always go through without loss of important information, is a task that is worth attention and research. Relationship of work with scientific programs, plans, themes. The research was carried out at the Department of Computer-Aided Management And Data Processing Systems of the National Technical University of Ukraine «Igor Sikorsky Kyiv Polytechnic Institute» within the theme «Methods and Technologies for High- Performance Computing and Processing of Large-Size Data Arrays.» State registration number 0117U000924. 7 The aim of the research is to improve the quality of monitoring of media activity by developing an algorithm for automatic analysis of text information, which increases the accuracy and completeness of the classification. To achieve this goal, the following tasks must be performed: - analyze algorithms and methods of machine learning for solving the problem of automatic classification of texts; - choose a model for presenting textual information in the classifier; - develop an algorithm for pre-processing texts in accordance with the selected model of presentation of textual information; - develop a modified method for classifying textual information; - implement the program realization of the developed algorithm of automatic classification of textual information; - prepare data for the assessment of the quality of the classification; - to conduct research on the effectiveness of the developed information technology. The object of research is the process of classifying unstructured text arrays of information. The subject of research there are technologies and methods of intellectual analysis of textual information. Research methods are methods of machine learning, which based on text mining methods. Scientific novelty of the obtained results. The modified indexing method on the basis of the statistical algorithm Viterbi with the connection of the grammatical rules of removal of morphological homonymy has been developed. Publications. The results of the research are published in the journal "Scientific Review" [1] published in the theses of the scientific and practical conference mathematical and simulation modeling systems. MODIS "2017" [2], published in the theses of the scientific conference of students, graduate students and postgraduates "Informatics and Computing" - IOT-2018 [3].uk
dc.description.abstractukМагістерська дисертація: 99 с., 19 рис., 22 табл., 1 додаток, 63 джерела. Актуальність. Потреба в автоматичній обробці текстових документів зараз є надзвичайно високою, і постійно зростає. Це обумовлено щоденним збільшенням текстової інформації на просторах всесвітньої мережі інтернет. За даними на березень 2016 року в Інтернеті знаходиться близько 4,66 млрд сторінок, при чому ця цифра включає лише сторінки, які індексовані в найбільш розповсюджених пошукових системах. Тож, без комп’ютерної обробки виконати аналіз такого об’єму інформації за прийнятний час не можливо. Одною із задач інтелектуального аналізу текстів є їх класифікація на задані категорії, яка потребує вирішення в різних сферах людської діяльності. Так, для забезпечення інформаційної та суспільної безпеки, важливе значення має аналіз даних соціальних мереж, блогів тощо, з метою виявлення даних пов’язаних з тероризмом, наркоторгівлею і т.д. Також в комерційній та суспільній діяльності часто постає потреба обробки відгуків та коментарів, з метою виявлення їх емоційного забарвлення (негативного або позитивного), їх розподіл на подальше опрацювання між різними підрозділами і т.д. В першому та в другому прикладах постає задача класифікації текстової інформації між категоріями в умовах обмеженості за часом та ресурсами обчислювальних пристроїв. Тому задача автоматичної та якісної класифікації даних за прийнятний час, без попереднього структурування інформації, оскільки структурування потребує додаткових ресурсів, часу та не завжди може пройти без втрати важливої інформації, є задачею, яка варта уваги та досліджень. Зв'язок роботи з науковими програмами, планами, темами. Робота виконувалась на кафедрі автоматизованих систем обробки інформації та управління Національного технічного університету України «Київський політехнічний інститут ім. Ігоря Сікорського» в рамках теми «Методи та 4 технології високопродуктивних обчислень та обробки надвеликих масивів даних». Державний реєстраційний номер 0117U000924. Метою дослідження є покращення якості моніторингу медіа активності шляхом розробки алгоритму автоматичної класифікації текстової інформації, що дозволяє підвищити точність та повноту аналізу даних. Для досягнення поставленої мети необхідно виконати наступні завдання: - проаналізувати алгоритми та методи машинного навчання для вирішення задачі автоматичної класифікації текстів; - обрати модель представлення текстової інформації в класифікаторі; - розробити алгоритм попередньої обробки текстів відповідно до обраної моделі представлення текстової інформації; - розробити модифікований метод класифікації текстової інформації; - виконати програмну реалізацію розробленого алгоритму автоматичної класифікації текстової інформації; - підготувати данні для оцінки якості класифікації; - провести дослідження ефективності розробленої інформаційної технології. Об’єктом дослідження є процес класифікації неструктурованих текстових масивів інформації. Предметом дослідження є технології та методи інтелектуального аналізу текстової інформації. Методами дослідження є методи машинного навчання, які базуються на методах text mining. Наукова новизна отриманих результатів. Розроблено модифікований метод індексації на основі статистичного алгоритму Вітербі з підключенням бази граматичних правил зняття морфологічної омонімії. Публікації. Результати досліджень опубліковані в журналі «Науковий огляд» [1],опубліковані в тезах науково практичної конференції математичне та імітаційне моделювання систем. МОДС "2017" [2], опубліковано в тезах наукової конференції студентів, магістрантів та аспірантів «Інформатика та обчислювальна техніка» – ІОТ-2018 [3].uk
dc.format.page97 с.uk
dc.identifier.citationКатющенко, Д. О. Інформаційна технологія автоматичної класифікації неструктурованих текстових масивів інформації : магістерська дис. : 122 Комп'ютерні науки та інформаційні технології / Катющенко Дар’я Олександрівна. – Київ, 2018. – 97 с.uk
dc.identifier.urihttps://ela.kpi.ua/handle/123456789/23795
dc.language.isoukuk
dc.publisher.placeКиївuk
dc.subjectмашинне навчанняuk
dc.subjecttext mininguk
dc.subjectінтелектуальний аналіз данихuk
dc.subjectтекстовий класифікаторuk
dc.subjectаналіз контентуuk
dc.subjectалгоритмиuk
dc.subjectкласифікаціїuk
dc.subjectіндексація текстівuk
dc.subjectmachine learninguk
dc.subjectdata mininguk
dc.subjecttext mininguk
dc.subjectclassification of textual informationuk
dc.subjectcontent analysisuk
dc.subjectclassification algorithmsuk
dc.subject.udc519.68;681.513.7uk
dc.titleІнформаційна технологія автоматичної класифікації неструктурованих текстових масивів інформаціїuk
dc.typeMaster Thesisuk

Файли

Контейнер файлів
Зараз показуємо 1 - 1 з 1
Вантажиться...
Ескіз
Назва:
Katiushchenko_magistr.pdf
Розмір:
6.43 MB
Формат:
Adobe Portable Document Format
Ліцензійна угода
Зараз показуємо 1 - 1 з 1
Ескіз недоступний
Назва:
license.txt
Розмір:
7.74 KB
Формат:
Item-specific license agreed upon to submission
Опис: