Алгоритмічне та програмне забезпечення при визначенні авторства тексту

dc.contributor.advisorФіногенов, Олексій Дмитрович
dc.contributor.authorЩербаков, Дмитро Сергійович
dc.date.accessioned2020-02-11T15:07:18Z
dc.date.available2020-02-11T15:07:18Z
dc.date.issued2019-12
dc.description.abstractenMaster's Thesis: 86 pages, 15 figures, 26 tables, 2 appendixes, 15 sources. Actuality. Authentication and verification is a unique and, at the same time, a very widespread task, given the possibility of being used in various fields of human activity: to combat plagiarism, to establish the authorship of anonymous texts, to assess and establish a person in criminology and many other tasks, and directions. Problems of the study of author's style and application of statistical analysis in the study of authorship were considered in the researches of OO Archipova and V.M. Zhuravleva, LA Borisova, Yu.N.Orlov and K.P. Osmina. The problem is also very complex because of the fundamental problem of forming a set of features that can be used to evaluate the likelihood of a text belonging to a particular author. The proble is compounded by the fact that until recently, for the developed systems for determining the authorship of texts, a prerequisite for their stable and quality work was the availability of large volumes of copyrighted text in the training sample. Another drawback of the developed models is their qualitative limitation on the number of authors. The aim of the study. The purpose of the study is to develop an algorithm and implement software for analysis of the author of the text with the help of statistical analysis methods, as well as to establish the influence of the names of characters and words in capital letters as a whole on the frequency characteristics of the text. Objectives of the study. To achieve this goal, you must complete the following tasks: - - to investigate the works of authors in this field; - - analyze the author's existing search systems; - - to develop an algorithm for analysis of authorship; - - to develop a software application based on the developed algorithm; - - analyze the accuracy of the algorithm; - - to make conclusions about the expediency of eliminating the algorithm. The object of study - the artistic texts. The subject of the study is the analysis of artistic texts in order to determine authorship. Research methods. We used statistical analysis methods to build the algorithm, object-oriented programming methods to develop a software application. Scientific novelty. The most significant scientific results of the master's thesis are: - - the developed algorithm gives high accuracy in determining the authorship of artistic texts; - - the influence of the names of characters and capital letters as a whole on the frequency characteristics of the text was investigated. Practical meaning. The resulting software allows you to analyze artistic texts and to determine the author of the text with high accuracy. Relationship with scientific programs, plans and topics. The work was performed at the Department of Automated Information Processing and Management Systems of the National Technical University of Ukraine «Kyiv Polytechnic Institute. Igor Sikorsky ”within the topic“ Mathematical Models and Technologies in DSS ”. State Registration Number 0117U000914. Approbation. The main provisions of the work were reported and discussed at the 18th International Scientific Conference “Mathematical and Software Software of Intelligent Systems IPAS-2019” and 3 All-Ukrainian Scientific and Practical Conference of Young Scientists and Students “Information Systems and Management Technologies” (ISTU-2019). Publications. The scientific provisions of the dissertation are published in the theses of the XVIII International Scientific-Practical Conference "Mathematical and Software Software of Intelligent Systems IPAS-2019" and in the Theses of 3 All-Ukrainian Scientific-Practical Conference of Young Scientists and Students "Information Systems and Technologies of Management" (ISTU-2019).uk
dc.description.abstractukМагістерська дисертація: 86 с., 15 рис., 26 табл., 2 додатки, 15 джерел. Актуальність. Ідентифікація та перевірка авторства є унікальною і, водночас, дуже широко розповсюдженою задачею, з огляду на можливість застосування у різних сферах діяльності людини: для боротьби з плагіатом, для встановлення авторства анонімних текстів, для експертизи та встановлення особистості в криміналістиці та у багатьох інших задачах та напрямах. Проблеми дослідження стилю автора та застосування статистичного аналізу в дослідженні авторства розглядалася в дослідженнях О.О. Архипової та В.М. Журавльова, Л.А.Борисова, Ю.Н.Орлова та К.П. Осмініна. Задача є також дуже складною через фундаментальну проблему формування набору ознак, за якими можна оцінити ймовірність належності тексту певному автору. Задачу ускладнює також той факт, що до останнього часу для розроблених систем визначення авторства текстів необхідною умовою їх стійкої та якісної роботи була наявність великих об’ємів авторських текстів у навчальній вибірці. Ще однією вадою розроблених моделей є їх якісне обмеження на кількість авторів. Мета дослідження. Метою дослідження є розробка алгоритму та реалізація програмного забезпечення аналізу автора художнього тексту за допомогою методів статистичного аналізу, також встановлення впливу імен героїв та слів з великої літери в цілому на частотні характеристики тексту. Завдання дослідження. Для досягнення мети необхідно виконати наступні завдання: - дослідити праці авторів в цій галузі; - проаналізувати існуючі системи пошуку автора; - розробити алгоритм аналізу авторства; - розробити програмний додаток заснований на розробленому алгоритмі; - проаналізувати точність роботи алгоритму; - зробити висновки щодо доцільності використання алгоритму. Об’єкт дослідження – художні тексти. Предмет дослідження – аналіз художніх текстів з метою визначення авторства. Методи дослідження. Використовувалися методи статистичного аналізу для побудови алгоритму, методи об’єктно-орієнтованого програмування для розробки програмного додатку. Наукова новизна. Найбільш суттєвими науковими результатами магістерської дисертації є: - розроблений алгоритм дає високу точність при визначенні авторства художніх текстів; - було досліджено вплив імен героїв та слів з великої літери в цілому на частотні характеристики тексту. Практичне значення. Отримане програмне забезпечення дозволяє проводити аналіз художніх текстів та з високою точністю визначати автора тексту. Зв'язок роботи з науковими програмами, планами і темами. Робота виконувалась на кафедрі автоматизованих систем обробки інформації та управління Національного технічного університету України «Київський політехнічний інститут ім. Ігоря Сікорського» в рамках теми «Математичні моделі та технології в СППР». Державний реєстраційний номер 0117U000914. Апробація. Основні положення роботи доповідались і обговорювались на ХVIII міжнародної науково-практичної конференції «Математичне та програмне забезпечення інтелектуальних систем МПЗІС-2019» та 3 всеукраїнської науково-практичної конференції молодих вчених та студентів «Інформаційні системи та технології управління» (ІСТУ-2019). Публікації. Наукові положення дисертації опубліковані в тезах ХVIII міжнародної науково-практичної конференції «Математичне та програмне забезпечення інтелектуальних систем МПЗІС-2019» та в тезах 3 всеукраїнської науково-практичної конференції молодих вчених та студентів «Інформаційні системи та технології управління» (ІСТУ-2019).uk
dc.format.page86 с.uk
dc.identifier.citationЩербаков, Д. С. Алгоритмічне та програмне забезпечення при визначенні авторства тексту : магістерська дис. : 121 Інженерія програмного забезпечення / Щербаков Дмитро Сергійович. - Київ, 2019. - 86 с.uk
dc.identifier.urihttps://ela.kpi.ua/handle/123456789/31539
dc.language.isoukuk
dc.publisherКПІ ім. Ігоря Сікорськогоuk
dc.publisher.placeКиївuk
dc.subjectcтатистичний аналіз текстівuk
dc.subjectвизначення авторстваuk
dc.subjectstatistical analysis of textsuk
dc.subjectdefinition of authorshipuk
dc.subject.udc004uk
dc.titleАлгоритмічне та програмне забезпечення при визначенні авторства текстуuk
dc.typeMaster Thesisuk

Файли

Контейнер файлів
Зараз показуємо 1 - 1 з 1
Вантажиться...
Ескіз
Назва:
Shcherbakov_magistr.pdf
Розмір:
1.78 MB
Формат:
Adobe Portable Document Format
Опис:
Ліцензійна угода
Зараз показуємо 1 - 1 з 1
Ескіз недоступний
Назва:
license.txt
Розмір:
9.06 KB
Формат:
Item-specific license agreed upon to submission
Опис: