Модифікований метод визначення авторства тексту на основі ланцюгів Маркова

Вантажиться...
Ескіз

Дата

2019-05

Назва журналу

Номер ISSN

Назва тому

Видавець

Анотація

Актуальність теми. Задача визначення авторства тексту тривалий час залишається актуальною у багатьох галузях діяльності суспільства. Прикладами застосування рішень даної задачі є визначення авторства у видавництві, освітній галузі тощо. На сьогоднішній день кількість текстової інформації, поданої в електронному вигляді, інтенсивно зростає, тож необхідним стає розроблення ефективних методів автоматизованого визначення авторства текстів. В даній магістерській дисертації питання визначення авторства тексту розглядається з метою пошуку більш ефективних за критерієм точності методів визначення авторського інваріанту. Об’єктом дослідження в даній роботі є процеси автоматизованого аналізу текстових даних за різними ознаками, що характеризують авторський стиль, зокрема, буквосполучення, слова та використання службових частин мови. Предметом дослідження є методи, способи та алгоритми автоматизованого визначення авторства тексту. Мета дослідження полягає у підвищені точності визначення авторства тексту шляхом розроблення та реалізації модифікованого методу аналізу текстів на основі методу ланцюгів Маркова та відповідних програмних засобів. Методи дослідження. В роботі використовуються методи комп’ютерної лінгвістики, статистичні методи та емпіричні методи. Наукова новизна роботи полягає в наступному: 1. Запропоновано модифікований метод автоматизованого визначення авторства текстів на основі методу ланцюгів Маркова, який відрізняється від існуючих класичних методів підвищеною точністю визначення автора за рахунок використання методу пошуку авторського інваріанту на основі частотних характеристик тексту.Практична цінність отриманих в роботі результатів полягає в тому, що запропонований модифікований метод автоматизованого визначення авторства тексту реалізований для визначення автора невідомого тексту. Крім того в рамках даного дослідження розроблено програмне забезпечення для використання при подальшій роботі над цією тематикою. Апробація роботи. Основні положення та результати роботи були представлены на науковій конференції магістрантів та аспірантів “Прикладна математика та комп’ютинг” ПМК-2018-2 та опубліковані у збірнику тез доповідей. Структура та обсяг роботи. Магістерська дисертація складається з вступу, чотирьох розділів, висновків та додатків. У вступі надано загальну характеристику роботи, виконано оцінку сучасного стану проблеми, обґрунтовано актуальність напрямку досліджень, сформульовано мету і задачі дослідження. У першому розділі розглянуто задачу визначення авторства, виконано огляд існуючих методів та порівняння програмних комплексів, які реалізують ці методи. У другому розділі розглянуто основні методи попередньої обробки текстової інформації, порівняно формальні методи визначення авторства а також характеристики для визначення авторського інваріанту, запропоновано модифікований метод на основі методу ланцюгів Маркова. У третьому розділі описано засоби, які було використано для проектування та розробки програмного забезпечення, яке реалізує модифікований метод а також описано алгоритми даного програмного забезпечення. У четвертому розділі наведений аналіз результатів роботи запропонованого методу, порівняння з існуючими методами. У висновках проаналізовано отримані результати роботи. У додатках наведено результати роботи модифікованого методу та лістинг коду розробленого програмного забезпечення.

Опис

Ключові слова

Бібліографічний опис

Замекула, О. І. Модифікований метод визначення авторства тексту на основі ланцюгів Маркова : магістерська дис. : 121 Програмна інженерія / Замекула Олексій Ігорович. – Київ, 2019. – 128 с.

ORCID

DOI