Математичне та програмне забезпечення визначення власних назв в тексті

dc.contributor.advisorФіногенов, Олексій Дмитрович
dc.contributor.authorПавлюк, Вадим Русланович
dc.date.accessioned2022-04-10T09:17:39Z
dc.date.available2022-04-10T09:17:39Z
dc.date.issued2021-05
dc.description.abstractenRelevance: the task of defining proper names in the text is an intermediate stage for many other tasks. The result of her work is to determine the relationship between proper names and the categories to which they belong. Further, these relationships are widely used to automate the construction of hierarchies and categories of unstructured documents, such as news articles. They are also used to implement tag search, which avoids full-text search to save computing resources and time. Another topical application is the implementation of sentimental analysis, when among the input data of any structure, such as data from social networks, proper names are determined, and the emotional color of the text that touches them. Another topical issue is the extremely little attention paid to the tasks of natural language processing in the context of the Ukrainian language, and the task of defining proper names is no exception. The purpose: to create a model for determining proper names in the text based on machine learning. To achieve this goal, the following tasks were formulated: - systematization of existing approaches to determining proper names; - preparation of data for training; - development of a model based on machine learning; - training and testing of the model; - analysis of the efficiency of the obtained algorithm; - search for further research. Object of research: definition of proper names in the text in Ukrainian. Subject of research: algorithms for determining proper names in the text. Research methods: neural networks, networks of long short-term memory, the method of random conditional fields were used to solve the problem. Scientific novelty: the most important scientific results of the master's dissertation are research of possibilities of definition of own names in texts in the Ukrainian language at rather small sizes of training data; study of the dependences of the influence of the number of input data on the results of determining proper names in texts in Ukrainian and English; research of influence of normalization of text data on results of training of models of definition of proper names. The practical value of the obtained results is determined by the fact that the proposed architecture of the model allows to achieve the value of average harmonic accuracy and completeness of 92% for texts in English and 72% for texts in Ukrainian, which allows to use it to determine proper names in arbitrary texts. Relationship with working with scientific programs, plans, topics: the work was performed at the Department of Automated Information Processing and Control Systems of the National Technical University of Ukraine "Igor Sikorsky Kyiv Polytechnic Institute ". Approbation: the main provisions of the work were reported and discussed at the VI All-Ukrainian scientific-practical conference of young scientists and students "Information systems and management technologies" (ISTU-2021).uk
dc.description.abstractukАктуальність теми: задача визначення власних назв у тексті є проміжним етапом для багатьох інших задач. Результат її роботи – визначення відношень між власними назвами та категоріями, до яких вони відносяться. Далі ці відношення широко використовуються для автоматизації побудови ієрархій та категорій неструктурованих документів, наприклад новинних статтей. Також вони мають застосування для реалізації пошуку за тегами, що дозволяє уникнути повнотекстового пошуку для економії обчислювальних ресурсів та часу. Інше актуальне застосування – реалізація сентиментального аналізу, коли серед вхідних даних довільної структури, наприклад даних з соціальних мереж, визначаються власні назви, та емоційне забарвлення тексту, що стусується їх. Іншою актуальною проблемою є надзвичайно мала увага, що приділяється до задач обробки природньої мови у контексті української мови, і задача визначення власних назв не є виключенням. Мета дослідження: створення моделі визначення власних назв у тексті на основі машинного навчання. Для реалізації поставленої мети були сформульовані наступні завдання: – систематизація існуючих підходів визначення власних назв; – підготовка даних для навчання; – розробка моделі на основі машинного навчання; – тренування та тестування моделі; – аналіз ефективності отриманого алгоритму; – пошук подальшого напрямку досліджень. Об’єкт дослідження: визначення власних назв у тексті українською мовою. Предмет дослідження: алгоритми визначення власних назв у тексті. Методи дослідження: для вирішення поставленого завдання використовувались нейронні мережі, мережі довгої короткочасної пам’яті, метод випадкових умовних полів. Наукова новизна: найважливішими науковими результатами магістерської дисертації є дослідження можливостей визначення власних назв у текстах українською мовою при відносно малих розмірах тренувальних даних; дослідження залежностей впливу кільності вхідних даних на результати визначення власних назв у текстах українською та англійською мовах; дослідження впливу нормалізації текстових даних на результати навчання моделей визначення власних назв. Практичне значення отриманих результатів визначається тим, що запропонована архітектура моделі дозволяє досягти значення середнього гармонійного влучності та повноти в 92% для текстів англійською мовою, та в 72% для текстів українською мовою, що дозволяє використовувати її для визначення власних назв у текстах довільної тематики. Зв’язок роботи з науковими програмами, планами, темами: робота виконувалась на кафедрі автоматизованих систем обробки інформації та управління Національного технічного університету України «Київський політехнічний інститут ім. Ігоря Сікорського». Апробація: основні положення роботи доповідались і обговорювались на VІ Всеукраїнській науково-практична конференції молодих вчених та студентів «Інформаційні системи та технології управління»(ІСТУ-2021).uk
dc.format.page82 с.uk
dc.identifier.citationПавлюк, В. Р. Математичне та програмне забезпечення визначення власних назв в тексті : магістерська дис. : 121 Інженерія програмного забезпечення / Павлюк Вадим Русланович. - Київ, 2021. - 82 с.uk
dc.identifier.urihttps://ela.kpi.ua/handle/123456789/46833
dc.language.isoukuk
dc.publisherКПІ ім. Ігоря Сікорськогоuk
dc.publisher.placeКиївuk
dc.subjectвиділення власних назвuk
dc.subjectнейронні мережіuk
dc.subjectмашинне навчанняuk
dc.subjectмережа довгої короткочасної пам’ятіuk
dc.subjectумовні випадкові поляuk
dc.subjectrecognition of proper namesuk
dc.subjectneural networksuk
dc.subjectmachine learninguk
dc.subjectlong-term short-term memory networkuk
dc.subjectconditional random fieldsuk
dc.subject.udc004.8+025.4uk
dc.titleМатематичне та програмне забезпечення визначення власних назв в текстіuk
dc.typeMaster Thesisuk

Файли

Контейнер файлів
Зараз показуємо 1 - 1 з 1
Вантажиться...
Ескіз
Назва:
Pavliuk_magistr.pdf
Розмір:
3.3 MB
Формат:
Adobe Portable Document Format
Опис:
Ліцензійна угода
Зараз показуємо 1 - 1 з 1
Ескіз недоступний
Назва:
license.txt
Розмір:
9.1 KB
Формат:
Item-specific license agreed upon to submission
Опис: