Оцінка міри подібності перефразованих текстів

dc.contributor.advisorСтативка, Юрій Іванович
dc.contributor.authorСтельмах, Дмитро Юрійович
dc.date.accessioned2025-07-10T11:22:09Z
dc.date.available2025-07-10T11:22:09Z
dc.date.issued2025
dc.description.abstractДипломна робота за темою «Оцінка міри подібності перефразованих текстів» виконана студентом кафедри інженерії програмного забезпечення в енергетиці НН ІАТЕ Стельмахом Дмитром Юрійовичем зі спеціальності 121 «Інженерія програмного забезпечення» за освітньо-професійною програмою «Інженерія програмного забезпечення інтелектуальних кібер-фізичних систем в енергетиці» і складається зі: вступу; 4 розділів («Теоретичні основи та постановка задачі», «Розробка системи оцінки подібності перефразованих текстів», «Дослідження ефективності системи», «Програмна реалізація та практичне застосування»), висновків до кожного з цих розділів; загальних висновків; списку використаних джерел, який налічує 15 джерел; 22 ілюстрацій; 3 таблиць та додатків. Загальний обсяг роботи 86 сторінок. Актуальність теми полягає у відсутності ефективних систем оцінки семантичної подібності для української мови та браку великих анотованих датасетів перифразів. Мета роботи полягає у розробці та дослідженні ефективних методів оцінки подібності перефразованих текстів українською мовою. Завдання дослідження включають створення датасету українських перифразів, розробку ансамблевого підходу на основі традиційних метрик подібності, навчання нейронної мережі та створення вебсервісу для практичного застосування. Практичне значення одержаних результатів полягає у створенні високоточної системи з коефіцієнтом детермінації R² майже 99% для застосування в освітніх системах, медіа-моніторингу та корпоративних рішеннях.
dc.description.abstractotherThe thesis on "Assessment of Paraphrased Text Similarity" was completed by student of the Department of Software Engineering in Energy at Educational and Scientific Institute of Atomic and Thermal Energy Stelmakh Dmytro Yuriiovych in specialty 121 "Software Engineering" under the educational-professional program "Software Engineering of Intelligent Cyber-Physical Systems in Energy" and consists of: introduction; 4 chapters ("Theoretical Foundations and Problem Statement", "Development of Paraphrased Text Similarity Assessment System", "System Efficiency Research", "Software Implementation and Practical Application"), conclusions to each of these chapters; general conclusions; list of references containing 15 sources; 22 illustrations; 3 tables and appendices. The total volume of the work is 86 pages. Relevance of the topic lies in the lack of effective semantic similarity assessment systems for the Ukrainian language and the absence of large annotated paraphrase datasets. Research objectives consists in developing and investigating effective methods for assessing the similarity of paraphrased texts in Ukrainian language. Research tasks include creating a dataset of Ukrainian paraphrases, developing an ensemble approach based on traditional similarity metrics, training a neural network, and creating a web service for practical application. Practical significance of the obtained results lies in creating a high-precision system with coefficient of determination R² of almost 99% for application in educational systems, media monitoring, and corporate solutions.
dc.format.extent86 с.
dc.identifier.citationСтельмах, Д. Ю. Оцінка міри подібності перефразованих текстів : дипломна робота ... бакалавра : 121 Інженерія програмного забезпечення / Стельмах Дмитро Юрійович. – Київ, 2025. – 86 с.
dc.identifier.urihttps://ela.kpi.ua/handle/123456789/74848
dc.language.isouk
dc.publisherКПІ ім. Ігоря Сікорського
dc.publisher.placeКиїв
dc.subjectобробка природної мови
dc.subjectоцінка подібності перефразованих текстів
dc.subjectвекторні представлення текстів
dc.subjectнейронні мережі
dc.subjectтрансформери
dc.subjectсіамська архітектура
dc.subjectукраїнська мова
dc.subjectштучний інтелект
dc.subjectкосинусна подібність
dc.subjectевклідова відстань
dc.subjectманхеттенська відстань
dc.subjectансамбль метрик
dc.subjectмашинне навчання
dc.subjectnatural language processing
dc.subjectparaphrased text similarity assessment
dc.subjecttext vector representations
dc.subjectneural networks
dc.subjecttransformers
dc.subjectsiamese architecture
dc.subjectUkrainian language
dc.subjectartificial intelligence
dc.subjectcosine similarity
dc.subjectEuclidean distance
dc.subjectManhattan distance
dc.subjectensemble metrics
dc.subjectmachine learning
dc.titleОцінка міри подібності перефразованих текстів
dc.typeBachelor Thesis

Файли

Контейнер файлів
Зараз показуємо 1 - 1 з 1
Вантажиться...
Ескіз
Назва:
Stelmakh_bakalavr.pdf
Розмір:
4.29 MB
Формат:
Adobe Portable Document Format
Ліцензійна угода
Зараз показуємо 1 - 1 з 1
Ескіз недоступний
Назва:
license.txt
Розмір:
8.98 KB
Формат:
Item-specific license agreed upon to submission
Опис: