Спосіб обробки інформації, представленої природомовними об’єктами
Вантажиться...
Дата
2020-12
Науковий керівник
Назва журналу
Номер ISSN
Назва тому
Видавець
КПІ ім. Ігоря Сікорського
Анотація
Актуальність теми
Задача обробки інформації, яка представлена природномовною формою, актуальна з часів виникнення писемності. Такі проблеми, як коректний переклад, пошук інформації, класифікація текстів постійно супроводжували людство з цих часів. Після появи доступних персональних комп’ютерів (ПК) обсяг інформації в світі перевищив всі прогнози. Тому не дивно, що постала гостра необхідність в вирішенні перелічених вище задач програмними методами.
На сьогодні контроль за поширенням і доступністю інформації, контроль за її цілісністю, унікальністю та самобутністю також дуже необхідний. Існують цілі галузі, де перевірка та захист інформації вкрай необхідні. До таких областей відносяться наука (патентування, наукові статті та інше) та культура (авторське право та інше).
Для вирішення проблем унікальності, наявності запозичень та іншого подібного було розроблено цілу низку статистичних та програмних методів. На їх основі базуються такі сервіси як Unicheck та інші. Але вони не в повному обсязі вирішують поставлену задачу, оскільки на сьогодні ці сервіси не є чутливими до заміни слів на синоніми, антоніми, зміну мови (переклад) та заміну частини символів.
Мета роботи: Мета роботи полягає в покращення методів обробки текстових даних. Для покращеного розпізнавання плагіату, незареєстрованих запозичень. А також для покращення системи пошуку текстової інформації.
Для досягнення поставленої мети в даній роботі вирішуються наступні задачі.
1. Аналіз способів класифікації інформації, яка представлена в природномовній формі.
2. Аналіз способів формування векторних представлень інформації в природомовній формі.
3. Аналіз методів продовження (угадування) інформації в природомовній формі з використанням машинного навчання.
4. Дослідження та порівняння класичних статистичних методів та машинного навчання в NLP задачах.
5. Підвищення ефективності існуючих методів класифікації за рахунок розробки модифікованого способу класифікації інформації в природомовній формі та їх порівняння методами машинного навчання.
Об’єктом дослідження є способи обробки текстів, методами машинного навчання.
Предметом дослідження є способи порівняння текстових даних та способи узагальнення текстових даних. Виділення ключових слів для створення текстових-векторів.
Методи дослідження. В роботі використовуються методи штучного інтелекту абстракції, класифікації, порівняння природомовної форми інформації Також у роботі використовуються методи взаємодії штучного інтелекту і класичних статистичних методів.
Наукова новизна одержаних результатів полягає в наступному:
1. Проаналізовано основні способи класифікації та порівняння інформації, яка представлена в природномовній формі.
2. Запропоновано спосіб підвищення ефективності методу порівняння та представлення інформації в природномовниій формі.
3. Досліджено та запропоновано впровадження даних методик в сфери захисту інтелектуальної власності.
Практична цінність одержаних результатів
В даній роботі запропоновано альтернативні методи з перевірки та обробки тексту, які забезпечують захист, обробку інформації, представленої в текстовій формі.
Апробація роботи. Основні положення і результати роботи були представлені та обговорювались на:
• XIII науковій конференції молодих вчених «Прикладна математика та комп’ютинг» ПМК-2020;
• VІІ Міжнародної науково-технічної конференції «Сучасні методи, інформаційне, програмне та технічне забезпечення систем керування організаційно-технічними та технологічними комплексами».
Публікації. За тематикою проведених досліджень опубліковано 2 наукові праці, а саме тези доповідей на 2-х конференціях.
Структура та обсяг роботи.
Магістерська дисертація складається зі вступу, чотирьох розділів, висновків по кожному розділу та загальних висновків по роботі в цілому, списку використаних літературних джерел (16 найменувань). Повний обсяг дисертації – 88 сторінок, у тому числі 78 сторінок основного тексту, 25 рисунків, 7 таблиць.
У вступі надано загальну характеристику проблем задач обробки натуральних мов, сформовано мету досліджень, а також сформульовано практичну цінність роботи.
У першому розділі була сформована задача даної роботи, а також розглянуті базові принципи обробки природної мови (Natural language processing) та сучасні методи використання машинного навчання та нейронних мереж для обробки природної мови.
У другому розділі розглянуто актуальні методики з вирішення проблеми обробки натуральних мов (Natural language processing) та сучасні методи використання машинного навчання та нейронних мереж для обробки природної мови. Розглянуто та проаналізовано проблеми векторного представлення природомовних об’єктів інформації, продовження (угадування) природомовної форми інформації з використанням машинного навчання. Показано, що використання векторних представлень слів у обробці природних мов дає велику перевагу перед більш простими методами, як мішок слів, і дозволяє знаходити додаткові, неочевидні взаємозв’язки між текстами. Проведено порівняння та аналіз існуючих рішень, а також обґрунтовано вибір інструментарію для вирішення поставлених задач.
У третьому розділі розроблено та описано програмний комплекс для вирішення визначених задач обробки натуральних мов, представлена порівняльна характеристика запропонованого способу з вже існуючими.
У висновках було проаналізовано отриманий результат.
Опис
Ключові слова
обробка натуральних мов, інтерпретація мовних структур, класифікація тексту, методи генерації тексту, NLP, машинне навчання, natural language processing, interpretation of language structures, text classification, text generation methods, machine learning
Бібліографічний опис
Здирко, В. В. Спосіб обробки інформації, представленої природомовними об’єктами : магістерська дис. : 123 Комп'ютерна інженерія / Здирко Владислав Володимирович. – Київ, 2020. – 88 с.