Спосіб обробки інформації, представленої природомовними об’єктами

dc.contributor.advisorОрлова, Марія Миколаївна
dc.contributor.authorЗдирко, Владислав Володимирович
dc.date.accessioned2020-12-25T21:52:08Z
dc.date.available2020-12-25T21:52:08Z
dc.date.issued2020-12
dc.description.abstractАктуальність теми Задача обробки інформації, яка представлена природномовною формою, актуальна з часів виникнення писемності. Такі проблеми, як коректний переклад, пошук інформації, класифікація текстів постійно супроводжували людство з цих часів. Після появи доступних персональних комп’ютерів (ПК) обсяг інформації в світі перевищив всі прогнози. Тому не дивно, що постала гостра необхідність в вирішенні перелічених вище задач програмними методами. На сьогодні контроль за поширенням і доступністю інформації, контроль за її цілісністю, унікальністю та самобутністю також дуже необхідний. Існують цілі галузі, де перевірка та захист інформації вкрай необхідні. До таких областей відносяться наука (патентування, наукові статті та інше) та культура (авторське право та інше). Для вирішення проблем унікальності, наявності запозичень та іншого подібного було розроблено цілу низку статистичних та програмних методів. На їх основі базуються такі сервіси як Unicheck та інші. Але вони не в повному обсязі вирішують поставлену задачу, оскільки на сьогодні ці сервіси не є чутливими до заміни слів на синоніми, антоніми, зміну мови (переклад) та заміну частини символів. Мета роботи: Мета роботи полягає в покращення методів обробки текстових даних. Для покращеного розпізнавання плагіату, незареєстрованих запозичень. А також для покращення системи пошуку текстової інформації. Для досягнення поставленої мети в даній роботі вирішуються наступні задачі. 1. Аналіз способів класифікації інформації, яка представлена в природномовній формі. 2. Аналіз способів формування векторних представлень інформації в природомовній формі. 3. Аналіз методів продовження (угадування) інформації в природомовній формі з використанням машинного навчання. 4. Дослідження та порівняння класичних статистичних методів та машинного навчання в NLP задачах. 5. Підвищення ефективності існуючих методів класифікації за рахунок розробки модифікованого способу класифікації інформації в природомовній формі та їх порівняння методами машинного навчання. Об’єктом дослідження є способи обробки текстів, методами машинного навчання. Предметом дослідження є способи порівняння текстових даних та способи узагальнення текстових даних. Виділення ключових слів для створення текстових-векторів. Методи дослідження. В роботі використовуються методи штучного інтелекту абстракції, класифікації, порівняння природомовної форми інформації Також у роботі використовуються методи взаємодії штучного інтелекту і класичних статистичних методів. Наукова новизна одержаних результатів полягає в наступному: 1. Проаналізовано основні способи класифікації та порівняння інформації, яка представлена в природномовній формі. 2. Запропоновано спосіб підвищення ефективності методу порівняння та представлення інформації в природномовниій формі. 3. Досліджено та запропоновано впровадження даних методик в сфери захисту інтелектуальної власності. Практична цінність одержаних результатів В даній роботі запропоновано альтернативні методи з перевірки та обробки тексту, які забезпечують захист, обробку інформації, представленої в текстовій формі. Апробація роботи. Основні положення і результати роботи були представлені та обговорювались на: • XIII науковій конференції молодих вчених «Прикладна математика та комп’ютинг» ПМК-2020; • VІІ Міжнародної науково-технічної конференції «Сучасні методи, інформаційне, програмне та технічне забезпечення систем керування організаційно-технічними та технологічними комплексами». Публікації. За тематикою проведених досліджень опубліковано 2 наукові праці, а саме тези доповідей на 2-х конференціях. Структура та обсяг роботи. Магістерська дисертація складається зі вступу, чотирьох розділів, висновків по кожному розділу та загальних висновків по роботі в цілому, списку використаних літературних джерел (16 найменувань). Повний обсяг дисертації – 88 сторінок, у тому числі 78 сторінок основного тексту, 25 рисунків, 7 таблиць. У вступі надано загальну характеристику проблем задач обробки натуральних мов, сформовано мету досліджень, а також сформульовано практичну цінність роботи. У першому розділі була сформована задача даної роботи, а також розглянуті базові принципи обробки природної мови (Natural language processing) та сучасні методи використання машинного навчання та нейронних мереж для обробки природної мови. У другому розділі розглянуто актуальні методики з вирішення проблеми обробки натуральних мов (Natural language processing) та сучасні методи використання машинного навчання та нейронних мереж для обробки природної мови. Розглянуто та проаналізовано проблеми векторного представлення природомовних об’єктів інформації, продовження (угадування) природомовної форми інформації з використанням машинного навчання. Показано, що використання векторних представлень слів у обробці природних мов дає велику перевагу перед більш простими методами, як мішок слів, і дозволяє знаходити додаткові, неочевидні взаємозв’язки між текстами. Проведено порівняння та аналіз існуючих рішень, а також обґрунтовано вибір інструментарію для вирішення поставлених задач. У третьому розділі розроблено та описано програмний комплекс для вирішення визначених задач обробки натуральних мов, представлена порівняльна характеристика запропонованого способу з вже існуючими. У висновках було проаналізовано отриманий результат.uk
dc.description.abstractenActuality of theme The task of information processing, which is presented in natural language form, is relevant since the days of writing. Problems such as correct translation, search for information, classification of texts have constantly accompanied mankind since then. With the advent of affordable personal computers (PCs), the world's information has exceeded all expectations. Therefore, it is not surprising that there is an urgent need to solve the above problems by software methods. Today, control over the dissemination and availability of information, control over its integrity, uniqueness and identity is also very necessary. There are whole areas where information verification and protection is essential. Such areas include science (patents, scientific articles, etc.) and culture (copyright, etc.). A number of statistical and software methods have been developed to address uniqueness, borrowing, and the like. Services such as Unicheck and others are based on them. But they do not fully solve the problem, because today these services are not sensitive to the replacement of words with synonyms, antonyms, change of language (translation) and replacement of some characters. Purpose: The purpose of the work is to improve the methods of processing text data. For improved recognition of plagiarism, unregistered borrowings. And also to improve the text search system. To achieve this goal in this work the following tasks are solved. 1. Analysis of ways to classify information that is presented in natural language form. 2. Analysis of ways of forming vector representations of information in natural language form. 3. Analysis of methods of continuation (guessing) of information in natural language form using machine learning. 4. Research and comparison of classical statistical methods and machine learning in NLP problems. 5. Improving the efficiency of existing classification methods by developing a modified method of classifying information in natural language form and comparing them with machine learning methods. The object of research is the methods of word processing, methods of machine learning. The subject of the research is the ways of comparing textual data and ways of generalizing textual data. Highlight keywords to create text vectors. Research methods. The methods of artificial intelligence of abstraction, classification, comparison of natural form of information are used in the work. The methods of interaction of artificial intelligence and classical statistical methods are also used in the work. The scientific novelty of the obtained results is as follows: 1. The main methods of classification and comparison of information presented in natural language form are analyzed. 2. The way of increase of efficiency of a method of comparison and representation of the information in a natural language form is offered. 3. The introduction of these methods in the field of intellectual property protection is researched and offered. The practical value of the results obtained This paper proposes alternative methods for checking and processing text, which provide protection, processing of information presented in text form. Approbation of work. The main provisions and results of the work were presented and discussed at: • the XIII Scientific Conference of Young Scientists "Applied Mathematics and Computing" PMK-2020; • the VII International Scientific and Technical Conference "Modern methods, information, software and hardware management organizational and technical and technological complexes ". Publications. Two scientific papers were published on the subject of the conducted researches, namely abstracts of reports at 2 conferences. Structure and scope of work The master's dissertation consists of an introduction, four chapters, conclusions on each section and general conclusions on the work as a whole, a list of used literature sources (16 titles). The full volume of the dissertation is 87 pages, including 78 pages of the main text, 2518 figures, 7 tables. In the introduction the general characteristic of problems of problems of processing of natural languages is given, the purpose of researches is formed, and also the practical value of work is formulated. In the first section the task of the given work was formed, and also the basic principles of processing of natural language (Natural language processing) and modern methods of use of machine learning and neural networks for processing of natural language are considered. The second section discusses current methods for solving the problem of natural language processing (Natural language processing) and modern methods of using machine learning and neural networks for natural language processing. The problems of vector representation of natural language objects of information, continuation (guessing) of natural language form of information with the use of machine learning are considered and analyzed. It has been shown that the use of vector representations of words in natural language processing has a great advantage over simpler methods, such as a bag of words, and allows you to find additional, non-obvious relationships between texts. The comparison and analysis of existing solutions are carried out, and also the choice of tools for the decision of the set tasks is substantiated. In the third section the software complex for the decision of the certain problems of processing of natural languages is developed and described, the comparative characteristic of the offered way with already existing is presented. The conclusions analyzed the obtained result.uk
dc.format.page88 с.uk
dc.identifier.citationЗдирко, В. В. Спосіб обробки інформації, представленої природомовними об’єктами : магістерська дис. : 123 Комп'ютерна інженерія / Здирко Владислав Володимирович. – Київ, 2020. – 88 с.uk
dc.identifier.urihttps://ela.kpi.ua/handle/123456789/38296
dc.language.isoukuk
dc.publisherКПІ ім. Ігоря Сікорськогоuk
dc.publisher.placeКиївuk
dc.subjectобробка натуральних мовuk
dc.subjectінтерпретація мовних структурuk
dc.subjectкласифікація текстуuk
dc.subjectметоди генерації текстуuk
dc.subjectNLPuk
dc.subjectмашинне навчанняuk
dc.subjectnatural language processinguk
dc.subjectinterpretation of language structuresuk
dc.subjecttext classificationuk
dc.subjecttext generation methodsuk
dc.subjectmachine learninguk
dc.subject.udc004.9uk
dc.titleСпосіб обробки інформації, представленої природомовними об’єктамиuk
dc.typeMaster Thesisuk

Файли

Контейнер файлів
Зараз показуємо 1 - 1 з 1
Вантажиться...
Ескіз
Назва:
Zdyrko_magistr.pdf
Розмір:
2.28 MB
Формат:
Adobe Portable Document Format
Опис:
Ліцензійна угода
Зараз показуємо 1 - 1 з 1
Ескіз недоступний
Назва:
license.txt
Розмір:
9.16 KB
Формат:
Item-specific license agreed upon to submission
Опис: