Система розпізнавання іменованих сутностей у тексті з використанням глибинних нейронних мереж
Ескіз недоступний
Дата
2024
Автори
Науковий керівник
Назва журналу
Номер ISSN
Назва тому
Видавець
КПІ ім. Ігоря Сікорського
Анотація
Актуальність теми. Розвиток сучасного суспільства тісно пов'язаний з автоматизацією процесу обробки інформації, що особливо проявляється в сучасній епосі цифрової трансформації та стрімкого просування інформаційних технологій, коли аналіз великих обсягів текстових даних стає ключовим завданням для багатьох сфер діяльності.
Особливо важливим є розпізнавання іменованих сутностей (NER) в тексті, а саме ідентифікація осіб, місць, організацій та інших важливих категорії, яке знаходить застосування у багатьох галузях, включаючи комп'ютерні науки, лінгвістику, біоінформатику та інші. У бізнесі NER-системи використовуються для аналізу ринків, прогнозування попиту, розподілу ресурсів та ризиків. В сфері медицини вони допомагають в ідентифікації пацієнтів, діагнозів та лікуванні. У правоохоронній діяльності системи NER використовуються для виявлення та прогнозування злочинів, а в галузі науки - для аналізу наукових публікацій та виявлення прихованих або неочевидних знань у працях.
При цьому, з розвитком глибокого навчання та нейронних мереж відкриваються нові можливості для покращення точності та продуктивності систем розпізнавання іменованих сутностей. Інтеграція глибинних нейронних мереж у поєднанні з методами обробки природної мови дозволяє суттєво підвищити ресурсоефективність задач обробки даних у наперед визначені класи завдяки більш ефективному виявленню складних залежностей та шаблонів у текстовій інформації. Отже, розробка систем розпізнавання іменованих сутностей у тексті з використанням глибинних нейронних мереж залишається актуальною задачею, оскільки ця технологія може значно оптимізувати та прискорити роботу зі значними масивами текстових даних.
Мета роботи полягає в аналізі та розробці ефективних моделей для розпізнавання іменованих сутностей на базі класифікаторів обробки природної мови та глибинних нейронних мереж для покращення точності та швидкодії системи з обмеженими вхідними даними. Дослідження спрямоване на порівняння різних підходів розпізнавання для визначення оптимальних архітектур та методів оптимізації для досягнення максимальної продуктивності.
Об’єктом дослідження є предметно-орієнтована система розпізнавання іменованих сутностей (NER) в тексті, що базується на використанні методів обробки природної мови (NLP) та глибинних нейронних мереж (DNN) зі здатністю до масштабування.
Предметом дослідження є моделі машинного для розпізнавання іменованих об’єктів в тексті, архітектури глибинних нейронних мереж, а також оцінювання продуктивності розроблених систем шляхом емпіричних досліджень і експериментів.
Методи дослідження cкладаються із загальнонаукових та спеціальних методів пізнання, зокрема:
1. Аналітичний метод: для комплексного вивчення та узагальнення останніх наукових розробок вітчизняних та зарубіжних вчених у сфері розпізнавання іменованих об’єктів (NER) та розробки масштабованих і предметно-орієнтованих систем NER.
2. Метод аналізу та синтезу: для уточнення та конкретизації понятійно-категоріального апарату у сфері NLP, систематизації знань про алгоритми та програмне забезпечення для NER, а також для формулювання теоретичних положень та висновків дослідження.
3. Метод аналогії та порівняння: для виявлення та співставлення особливостей існуючих методів та підходів до NER, а також для обґрунтування вибору та розробки покращених алгоритмів і програмного забезпечення.
4. Систематизація: для розкриття основних тенденцій, закономірностей та принципів розвитку систем NER, а також для формування класифікацій та типологій алгоритмів і програмного забезпечення.
5. Абстрактно-логічний метод: для формулювання гіпотез, теоретичних положень та висновків дослідження, а також для обґрунтування запропонованих новітніх підходів до розробки масштабованих і предметно-орієнтованих NER-систем.
6. Метод дедукції та моделювання: для вироблення пропозицій щодо удосконалення механізмів NER, розробки нових алгоритмів та програмного забезпечення, а також для оцінювання їх ефективності.
7. Експериментальні методи: для проведення досліджень з метою оцінки ефективності розроблених алгоритмів та програмного забезпечення NER на тестових наборах даних.
8. Методи статистичного аналізу: для обробки результатів експериментів, виявлення статистичних закономірностей та формулювання висновків про ефективність запропонованих методів і підходів.
Наукова новизна одержаних результатів полягає в наступному:
1. Представлення удосконалених архітектур та гібридних моделей, що поєднують різні типи нейронних мереж, додаткові шари та механізми обробки даних з метою досягнення вищої продуктивності в задачах NER порівняно з існуючими моделями глибинного навчання.
2. Імплементація та оцінка ефективності розширених технік попередньої обробки вхідних даних з метою оптимізації продуктивність глибинних ненейронних мереж.
3. Дослідження та застосування методів контекстуального вкладання слів (contextual embeddings) для тонкого налаштування (fine-tuning) предметно-орієнтованих моделей з метою підвищення ефективності розпізнавання іменованих сутностей у різних контекстах.
4. Адаптація моделей нейронних мереж до конкретних доменів з урахуванням унікальних особливостей і термінології цих областей з предметно-орієнтованих баз знань.
5. Проведення комплексного порівняльного аналізу існуючих систем для демонстрації ефективності запропонованих методів.
Практична значення одержаних результатів цієї роботи зводиться до розробки та створення програмної компоненти на основі архітектури глибинних нейронних мереж в рамках задачі розпізнавання іменованих сутностей. Розроблена NER-система характеризується високою точністю та ефективністю обробки великих обсягів текстових даних, що робить її придатною для використання в різних предметних областях, мінімізуючи потребу в ручному втручанні та зменшуючи ризик людських помилок. Система здатна до адаптації та інтеграції з різними типами баз даних, включаючи популярні СУБД, через API або спеціальні конектори. Завдяки можливості обробки даних у режимі реального часу та автоматизації процесів вилучення та заповнення бази даних, система забезпечує економію ресурсів та підвищує ефективність пошуку та аналізу інформації.
Апробація роботи. Основні положення і результати роботи були представлені та обговорювались на XVI науковій конференції магістрантів та аспірантів «Прикладна математика та комп’ютинг» ПМК-2023 (Київ, 28-23 листопада 2023 р.), а також у 8-ій міжнародній науково-практичній конференції BoScience, Бостон, США. 2023.
Структура та обсяг роботи. Магістерська дисертація складається зі вступу, чотирьох розділів, висновків по кожному розділу та повноцінних висновків загальної роботи, списку використаних літературних джерел (42 найменувань). Повний обсяг дисертації – 122 сторінок, у тому числі 102 сторінок основного тексту, 25 рисунків, 6 таблиць
У вступі подано загальну характеристику роботи, зроблено оцінку сучасного стану проблеми, обґрунтовано актуальність напрямку досліджень, сформульовано мету і задачі досліджень, показано наукову новизну отриманих результатів і практичну цінність роботи, наведено відомості про апробацію результатів і їхнє впровадження.
У першому розділі розглянуто історичний розвиток та сучасні тенденції у галузі розпізнавання іменованих сутностей. Детально розглянуто методи на основі правил, статистичні методи (включаючи приховану марковську модель, умовні випадкові поля та метод опорних векторів), методи на основі машинного навчання, а також застосування глибинних нейронних мереж для розпізнавання іменованих сутностей. Розділ завершується оглядом сучасних проблем та перспектив розвитку області природної обробки мови у рамках задачі розпізнавання іменованих об’єктів та порівняльним аналізом методів розпізнавання іменованих сутностей.
У другому розділ. детально розглянуто методи навчання та адаптації в системах розпізнавання іменованих сутностей. Висвітлено попередній аналіз та підготовку даних, перетворення даних у векторні представлення слів, а також огляд архітектур нейронних мереж для NER (включаючи згорткові нейронні мережі, рекурентні нейронні мережі та трансформаторні моделі). Розглянуто хід навчання та оцінку метрик ефективності моделей.
У третьому розділі розглянуто програмне середовище для розробки та вибір програмного забезпечення. Описано вибір та попередню обробку набору даних, включаючи формування та характеристику корпусу текстів, методи попередньої обробки даних та збір даних. Детально розглянуто проектування та архітектуру системи розпізнавання іменованих сутностей, інтеграцію контекстуальних представлень для подальшого використання у моделі машинного навчання, а також реалізацію архітектур моделей глибинних нейронних мереж. Розглянуто налаштування параметрів та оптимізацію роботи системи. Описано наукову новизну дослідження..
У четвертому розділі описано набори даних для проведення дослідження. Виконано тестування точності та швидкодії системи на реальних даних, а також порівняння запропонованої системи з існуючими методами. Експериментально підтверджено покращення моделей та їх доцільність.
У висновках представлені результати проведеної роботи, висновки щодо ефективності розробленої системи розпізнавання іменованих сутностей на основі глибинних нейронних мереж, а також рекомендації для подальших досліджень у цій галузі.
Опис
Ключові слова
Розпізнавання іменованих сутностей, глибинні нейронні мережі, обробка природної мови, машинне навчання, аналіз тексту, вилучення сутностей, контекстно-залежні векторні представлення, вилучення інформації, Named entity recognition (NLP), deep neural networks (DNN), natural language processing (NLP), machine learning, text analysis, entity extraction, context-sensitive vector representations, information extract
Бібліографічний опис
Мелюх, В. В. Система розпізнавання іменованих сутностей у тексті з використанням глибинних нейронних мереж : магістерська дис. : 123 Комп'ютерна інженерія / Мелюх Василь Вікторович. – Київ, 2024. – 121 с.