Система узагальнення тексту на базі методу TopicRank та трансформерної нейронної мережі Text-To-Text
Вантажиться...
Дата
2024
Автори
Науковий керівник
Назва журналу
Номер ISSN
Назва тому
Видавець
КПІ ім. Ігоря Сікорського
Анотація
Актуальність теми. Актуальність теми полягає в необхідності пришвидшення процесу підсумовування тексту без втрат по точності. У сучасній ініормаційній епосі, коли потоки текстової інформації зростають експоненційно, важливо мати засоби для швидкого оброблення текстових документів. Розробка системи, яка поєднує метод TopicRank та Text-to-Text трансформерну нейронну мережу для швидкого та точного підсумовування тексту, є актуальною і важливою з наукового та практичного погляду. Такий підхід може покращити продуктивність та зручність роботи з текстовою інформацією у різних галузях.
Об’єкт дослідження: методи генерування узагальнень з об'ємних текстових даних.
Предмет дослідження: оптимізація процесу швидкого створення текстових узагальнень зі збереженням точності семантичного змісту.
Мета роботи: дослідження існуючих методів аналізу текстів; аналіз особливостей алгоритмічних методів та методів глибокого навчання для підсумовування; створення системи підсумовування великих текстів.
Наукова новизна:
• Запропоновано новий метод для створення підсумків з об’ємних текстів.
• Розроблено систему, яка за запропонованим методом швидше генерує текстові підсумки, при цьому зберігаючи високу точність.
Практична цінність отриманих результатів презентує те, що запропонований метод дає змогу підвищити швидоскіть процесу підсумовування тексту, при цьому зберагаючи певну семантичну точність. Ця система може бути застосована в різних областях, включаючи медицину, наукові дослідження, новинарство та багато інших. Результати дослідження готові до використання, і рекомендації щодо їх практичного застосування можуть бути корисними для організацій та індивідуальних користувачів, які шукають швидкий та ефективний спосіб автоматичного підсумовування тексту.
Апробації роботи:
1. XVІ наукова конференція магістрантів та аспірантів «Прикладна математика та комп’ютинг» ПМК-2023 (Київ, 28-30 квітня 2023 р.)
2. XII International Scientific and Practical Conference “SCIENTIFIC RESEARCH IN THE MODERN WORLD” (Toronto, 21-23 September 2023)
3. I International Scientific and Practical Conference “MODERN RESEARCH IN SCIENCE AND EDUCATION” (14-16 September 2023)
Публікації:
1. Суханюк І. С., Iвасенко Д. В., Потапова К. Р. Використання нейронних мереж для аналізу текстів // Міжнародний науковий журнал "Інтернаука". — 2023. — №13. https://doi.org/10.25313/2520-2057-2023-13-9036
2. Sukhaniuk I. S., Potapova K. R. USAGE OF CONVOLUTIONAL NEURAL NETWORKS IN NATURAL LANGUAGE PROCESSING. p. 233. URL: https://sci-conf.com.ua/wp-content/uploads/2023/09/SCIENTIFIC-RESEARCH-IN-THE-MODERN-WORLD-21-23.09.23.pdf
3. Sukhaniuk I. S., Potapova K. R. USAGE OF RECURRENT NEURAL NETWORKS IN NATURAL LANGUAGE PROCESSING. p. 67. URL: https://sci-conf.com.ua/wp-content/uploads/2023/09/MODERN-RESEARCH-IN-CIENCE-AND-EDUCATION-14-16.09.23.pdf
4. Sukhaniuk I.S., Potapova K. R., Nalyvaichuk M. V., Vovk L. B. TEXT SUMMARIZATION BASED ON TOPICRANK METHOD AND TEXT-TO-TEXT TRANSFORMER NEURAL NETWORK // Науковий журнал «Вчені записки Таврійського національного університету імені В. І. Вернадського. Серія: Технічні науки», Томі 34 (73) № 6, 2023
5. Суханюк І. С., Потапова К. Р. СИСТЕМА УЗАГАЛЬНЕННЯ ТЕКСТУ НА БАЗІ МЕТОДУ TOPICRANK ТА ТРАНСФОРМЕРНОЇ НЕЙРОННОЇ МЕРЕЖІ TEXT-TO-TEXT // XVI наукова конференція магістрантів та аспірантів «Прикладна математика та комп’ютинг» ПМК-2023 (Київ, 28-30 листопада 2023 р.)
6. Свідоцтво №c202306573 авторського права на твір наукового характеру, «ВИКОРИСТАННЯ НЕЙРОННИХ МЕРЕЖ ДЛЯ АНАЛІЗУ ТЕКСТІВ» (Київ, 06 вересня 2023 р.)
7. Свідоцтво №c202307642 авторського права на твір наукового характеру, «Програмний модуль «Text Topic Transformer»» (Київ, 30 жовтня 2023 р.)
Структура та обсяг роботи. Магістерська дисертація складається з чотирьох розділів та висновків.
У першому розділі надано загальну характеристику, проведено оцінку актуальності проблеми та сучасного стану досліджень. Визначено мету та поставлені завдання досліджень. Проаналізовано існуючі методи підсумовування.
У другому розділі представлено детальний огляд технологій та методів, застосованих для реалізації модифікацій у проекті. Увага приділена перевагам кожного із використаних інструментів та методів, а також тому, як вони сприяють поліпшенню загальної функціональності та ефективності роботи системи.
У третьому розділі наведено запропонований метод підсумовування великих текстів. Описана програмна реалізація методу.
У четвертому розділі приводено результати експериментальних досліджень.
У висновках представлено результати проведеної роботи.
Робота представлена на 86 аркушах, містить посилання на список використаних літературних джерел.
Опис
Ключові слова
обробка природної мови (NLP), аналіз текстів за допомогою нейронних мереж, трансформерні нейронні мережі, алгоритм TopicRank, згортковій нейронні мережі, рекурентні нейронні мережі, natural language processing (NLP), text analysis using neural networks, transformer neural networks, TopicRank algorithm
Бібліографічний опис
Суханюк, І. С. Система узагальнення тексту на базі методу TopicRank та трансформерної нейронної мережі Text-To-Text : магістерська дис. : 123 Комп'ютерна інженерія / Суханюк Іван Сергійович. – Київ, 202. – 86 с.