Методи резюмування документів на основі моделей-трансформерів

Вантажиться...
Ескіз

Дата

2026

Назва журналу

Номер ISSN

Назва тому

Видавець

КПІ ім. Ігоря Сікорського

Анотація

Дипломна робота виконана на 109 сторінках, містить 19 рисунків, 5 таблиць, 2 додатки, 43 джерела в переліку посилань. У сучасних умовах стрімкого зростання обсягів текстової інформації дедалі більшого значення набувають методи автоматичного узагальнення змісту документів. Це стосується наукових статей, урядових матеріалів та інших довгих текстів, довжина яких перевищує розмір контекстного вікна багатьох моделей-трансформерів. За таких умов пряме резюмування часто призводить до втрати важливої інформації, зниження зв’язності та погіршення якості підсумкового тексту. Тому розробка методів, орієнтованих саме на обробку документів великого обсягу, є актуальною задачею сучасної обробки природної мови. Метою дослідження є підвищення якості резюмування довгих документів шляхом розробки гібридного методу на основі моделей-трансформерів з використанням структурно-семантичної сегментації документа, кластеризації текстових блоків, виділення ключових тверджень, локального абстрактивного і подальшого глобального резюмування. Об’єктом дослідження є процес автоматичного резюмування текстових документів. Предметом дослідження є методи та інформаційні технології автоматичного резюмування документів на основі моделей-трансформерів. У роботі використано методи обробки природної мови, семантичного векторного подання тексту, кластеризації, генеративного резюмування на основі моделей-трансформерів, а також експериментальне порівняння за метриками ROUGE, BERTScore та часом виконання. Практична реалізація виконана у вигляді програмної системи з модулем резюмування на Python, серверною частиною на ASP.NET Core та клієнтською частиною на Angular. Наукова новизна полягає у створенні багатоступеневого методу автоматичного резюмування документів великого обсягу, який поєднує структурно-семантичну сегментацію документа, відбір інформативних текстових блоків, кластеризацію змістово близьких фрагментів, виділення ключових тверджень, локальне резюмування та подальше глобальне узагальнення. Практичне значення роботи полягає у розробленні програмної системи резюмування документів, яка забезпечує повний цикл взаємодії користувача із системою: аутентифікацію, завантаження документа, запуск побудови резюме та перегляд отриманого результату через веб-інтерфейс. На вибірці BookSum запропонований підхід показав приріст BERTScore приблизно на 13% та зменшення часу обробки приблизно на 48% порівняно з використанням моделі.

Опис

Ключові слова

резюмування тексту, обробка природної мови, моделітрансформери, Sentence-BERT, Qwen, автоматичне резюмування, програмна система, text summarization, natural language processing, transformer models, automatic summarization, software system

Бібліографічний опис

Новицький, К. В. Методи резюмування документів на основі моделей-трансформерів : магістерська дис. : 122 Комп’ютерні науки / Новицький Костянтин Віталійович. – Київ, 2026. – 109 с.

ORCID

DOI