Модифікований метод визначення авторства тексту на основі ланцюгів Маркова
| dc.contributor.advisor | Заболотня, Тетяна Миколаївна | |
| dc.contributor.author | Замекула, Олексій Ігорович | |
| dc.date.accessioned | 2019-05-24T11:15:05Z | |
| dc.date.available | 2019-05-24T11:15:05Z | |
| dc.date.issued | 2019-05 | |
| dc.description.abstract | Актуальність теми. Задача визначення авторства тексту тривалий час залишається актуальною у багатьох галузях діяльності суспільства. Прикладами застосування рішень даної задачі є визначення авторства у видавництві, освітній галузі тощо. На сьогоднішній день кількість текстової інформації, поданої в електронному вигляді, інтенсивно зростає, тож необхідним стає розроблення ефективних методів автоматизованого визначення авторства текстів. В даній магістерській дисертації питання визначення авторства тексту розглядається з метою пошуку більш ефективних за критерієм точності методів визначення авторського інваріанту. Об’єктом дослідження в даній роботі є процеси автоматизованого аналізу текстових даних за різними ознаками, що характеризують авторський стиль, зокрема, буквосполучення, слова та використання службових частин мови. Предметом дослідження є методи, способи та алгоритми автоматизованого визначення авторства тексту. Мета дослідження полягає у підвищені точності визначення авторства тексту шляхом розроблення та реалізації модифікованого методу аналізу текстів на основі методу ланцюгів Маркова та відповідних програмних засобів. Методи дослідження. В роботі використовуються методи комп’ютерної лінгвістики, статистичні методи та емпіричні методи. Наукова новизна роботи полягає в наступному: 1. Запропоновано модифікований метод автоматизованого визначення авторства текстів на основі методу ланцюгів Маркова, який відрізняється від існуючих класичних методів підвищеною точністю визначення автора за рахунок використання методу пошуку авторського інваріанту на основі частотних характеристик тексту.Практична цінність отриманих в роботі результатів полягає в тому, що запропонований модифікований метод автоматизованого визначення авторства тексту реалізований для визначення автора невідомого тексту. Крім того в рамках даного дослідження розроблено програмне забезпечення для використання при подальшій роботі над цією тематикою. Апробація роботи. Основні положення та результати роботи були представлены на науковій конференції магістрантів та аспірантів “Прикладна математика та комп’ютинг” ПМК-2018-2 та опубліковані у збірнику тез доповідей. Структура та обсяг роботи. Магістерська дисертація складається з вступу, чотирьох розділів, висновків та додатків. У вступі надано загальну характеристику роботи, виконано оцінку сучасного стану проблеми, обґрунтовано актуальність напрямку досліджень, сформульовано мету і задачі дослідження. У першому розділі розглянуто задачу визначення авторства, виконано огляд існуючих методів та порівняння програмних комплексів, які реалізують ці методи. У другому розділі розглянуто основні методи попередньої обробки текстової інформації, порівняно формальні методи визначення авторства а також характеристики для визначення авторського інваріанту, запропоновано модифікований метод на основі методу ланцюгів Маркова. У третьому розділі описано засоби, які було використано для проектування та розробки програмного забезпечення, яке реалізує модифікований метод а також описано алгоритми даного програмного забезпечення. У четвертому розділі наведений аналіз результатів роботи запропонованого методу, порівняння з існуючими методами. У висновках проаналізовано отримані результати роботи. У додатках наведено результати роботи модифікованого методу та лістинг коду розробленого програмного забезпечення. | uk |
| dc.description.abstracten | Actuality of theme. The task of determining the authorship of the text for a long time remains relevant in many sectors of society. Examples of solutions to this problem are the definition of authorship in the publishing industry, the educational industry, etc. To date, the amount of textual information submitted in electronic form is intensively increasing, therefore, the development of effective methods for the automated determination of authorship of texts is becoming necessary. In this master's thesis, the question of determining the authorship of the text is considered in order to find more effective criteria for the accuracy of methods for determining the author's invariance. The object of research in this paper is the processes of automated analysis of text data on various features that characterize the author's style, in particular, the letter combination, the words and the use of the service parts of the language. The subject of the study is the methods, methods and algorithms of automated determination of authorship of the text. The purpose of the study is to increase the accuracy of determining the authorship of the text by developing and implementing a modified method for analyzing texts based on the method of Markov chains and related software. Research methods. Methods of computer linguistics, statistical methods and empirical methods are used in this work. The scientific novelty of the work is as follows: 1. A modified method of automated determination of the authorship of texts based on the Markov chain method is proposed, which differs from the existing classical methods by the increased accuracy of the author's definition by using the method of searching the author's invariant on the basis of the frequency characteristics of the text. The practical value of the results obtained in the work is that the proposed modified method of automated definition of the authorship of the text is implemented to identify the author of an unknown text.In addition, in the framework of this study, software was developed for use in further work on this topic. Test work. The main provisions and results of work were presented at the scientific conference of masters and postgraduates "Applied Mathematics and Computer" PMK- 2018-2 and published in the abstracts. Structure and scope of work. The master's thesis consists of an introduction, four chapters, conclusions and appendices. The introduction gives a general description of the work, evaluates the current state of the problem, substantiates the relevance of the research direction, formulates the purpose and objectives of the study. In the first section the problem of determination of authorship is considered, a review of existing methods and comparison of software complexes that implement these methods are performed. The second chapter deals with the basic methods of preliminary processing of textual information, the relatively formal methods of determining the authorship, as well as the characteristics for determining the author's invariant, proposed a modified method based on the method of Markov chains. The third section describes the tools that were used to design and develop software that implements the modified method and describes the algorithms of this software. In the fourth section is an analysis of the results of the proposed method, comparison with existing methods. The conclusions are analyzed the results of work. The annexes present the results of the modified method and the listing of the code of the software developed. | uk |
| dc.format.page | 128 с. | uk |
| dc.identifier.citation | Замекула, О. І. Модифікований метод визначення авторства тексту на основі ланцюгів Маркова : магістерська дис. : 121 Програмна інженерія / Замекула Олексій Ігорович. – Київ, 2019. – 128 с. | uk |
| dc.identifier.uri | https://ela.kpi.ua/handle/123456789/27652 | |
| dc.language.iso | uk | uk |
| dc.publisher.place | Київ | uk |
| dc.subject.udc | 004.912 | uk |
| dc.title | Модифікований метод визначення авторства тексту на основі ланцюгів Маркова | uk |
| dc.type | Master Thesis | uk |
Файли
Контейнер файлів
1 - 1 з 1
Вантажиться...
- Назва:
- Zamekula_magistr.pdf
- Розмір:
- 3.14 MB
- Формат:
- Adobe Portable Document Format
- Опис:
Ліцензійна угода
1 - 1 з 1
Ескіз недоступний
- Назва:
- license.txt
- Розмір:
- 9.06 KB
- Формат:
- Item-specific license agreed upon to submission
- Опис: