Scientific article summarization model with unbounded input length

Steblianko, Oleksandr; Shymkovych, Volodymyr; Kravets, Peter; Novatskyi, Anatolii; Shymkovych, Lyubov

Scientific article summarization model with unbounded input length

dc.contributor.author	Steblianko, Oleksandr
dc.contributor.author	Shymkovych, Volodymyr
dc.contributor.author	Kravets, Peter
dc.contributor.author	Novatskyi, Anatolii
dc.contributor.author	Shymkovych, Lyubov
dc.date.accessioned	2025-04-16T12:40:43Z
dc.date.available	2025-04-16T12:40:43Z
dc.date.issued	2024
dc.description.abstract	In recent years, the exponential growth of scientific literature has made it increasingly difficult for researchers and practitioners to keep up with new discoveries and developments in their fields. Thanks to this, text summarization has become one of the primary tasks of natural language processing. Abstractive summarization of long documents, such as scientific articles, requires large neural networks with high memory and computation requirements. Therefore, it is all the more important to find ways to increase the efficiency of long document summarization models. The objects of this research are long document summarization transformer models and the Unlimiformer cross-attention modification. The article reviews the basic principles of transformer attention, which constitutes the primary computational expense in transformer models. More efficient self-attention approaches used for long document summarization models are described, such as the global+sliding window attention used by Longformer. The cross-attention mechanism of Unlimiformer, which allows a model to have unbounded input length, is described in detail. The objective of the study is the development and evaluation of a long document summarization model using the Unlimiformer modification. To achieve this goal, a Longformer Decoder-Encoder model pretrained on the arXiv dataset is modified with Unlimiformer cross-attention. This modification can be applied without additional model fine-tuning, avoiding the cost of further training a large sequence length model. The developed model was evaluated on the arXiv dataset using the ROUGE-1, ROUGE-2 and ROUGE-L metrics. The developed model showed improved results compared to the baseline model, demonstrating the viability of using this approach to improve long document summarization models.
dc.description.abstractother	Останніми роками експоненційне зростання наукової літератури зробило для дослідників і практиків все більш складним завдання встигати за новими відкриттями та розробками у своїх галузях. Завдяки цьому, конспектування тексту стало одним із основних завдань обробки природної мови. Абстрактивне конспектування довгих документів, наприклад наукових статей, вимагає великих нейронних мереж із високими вимогами до пам’яті та обчислень. Відповідно, все більш важливо знайти шляхи підвищення ефективності моделей конспектування довгих документів. Об’єктами дослідження є трансформерні моделі для конспектування довгих документів та модифікація перехресної уваги Unlimiformer. У статті розглянуто основні принципи уваги трансформеру, що складає більшість обчислювальних витрат в трансформерних моделях. Описано більш ефективні підходи до самоуваги, які використовуються в моделях конспектування довгих документів, наприклад увага глобального + ковзаючого вікна, що використовується в Longformer. Детально описано механізм перехресної уваги Unlimiformer, який дозволяє моделі мати необмежену вхідну довжину. Метою дослідження є розробка та оцінка моделі конспектування довгих документів за допомогою модифікації Unlimiformer. Для досягнення цієї мети модель Longformer DecoderEncoder, попередньо навчену на наборі даних arXiv, модифікується за допомогою перехресної уваги Unlimiformer. Цю модифікацію можна застосувати без додаткового тонкого настроювання моделі, уникаючи витрат на подальше навчання моделі з великою довжиною послідовності. Розроблена модель була оцінена на наборі даних arXiv використовуючи показники ROUGE-1, ROUGE-2 і ROUGE-L. Розроблена модель показала покращені результати порівняно з базовою моделлю, демонструючи життєздатність використання цього підходу для вдосконалення моделей конспектування довгих документів.
dc.format.pagerange	Pp. 150-158
dc.identifier.citation	Scientific article summarization model with unbounded input length / Oleksandr Steblianko, Volodymyr Shymkovych, Peter Kravets, Anatolii Novatskyi, Lyubov Shymkovych // Information, Computing and Intelligent systems. – 2024. – No. 5. – Pp. 150-158. – Bibliogr.: 21 ref.
dc.identifier.doi	https://doi.org/10.20535.2786-8729.5.2024/314724
dc.identifier.orcid	0009-0006-5055-0934
dc.identifier.orcid	0000-0003-4014-2786
dc.identifier.orcid	0000-0003-4632-9832
dc.identifier.orcid	0009-0009-7457-7391
dc.identifier.orcid	0000-0002-1291-0373
dc.identifier.uri	https://ela.kpi.ua/handle/123456789/73403
dc.language.iso	en
dc.publisher	National Technical University of Ukraine "Igor Sikorsky Kyiv Polytechnic Institute"
dc.publisher.place	Kyiv
dc.relation.ispartof	Information, Computing and Intelligent systems, No.5
dc.subject	neural networks
dc.subject	transformers
dc.subject	text summarization
dc.subject	long document summarization
dc.subject	natural language processing
dc.subject	attention
dc.subject	нейронні мережі
dc.subject	трансформери
dc.subject	конспектування тексту
dc.subject	конспектування довгих документів
dc.subject	обробка природньої мови
dc.subject	увага
dc.subject.udc	004.89
dc.title	Scientific article summarization model with unbounded input length
dc.title.alternative	Модель для конспектування наукових статей з необмеженою довжиною вхідних даних
dc.type	Article

Файли

Контейнер файлів

Зараз показуємо 1 - 1 з 1

Назва:: 150-158.pdf
Розмір:: 991.64 KB
Формат:: Adobe Portable Document Format

Завантажити

Ліцензійна угода

Зараз показуємо 1 - 1 з 1

Назва:: license.txt
Розмір:: 8.98 KB
Формат:: Item-specific license agreed upon to submission
Опис:

Завантажити

Зібрання

Information, Computing and Intelligent systems, No. 5