Програмне забезпечення виявлення плагіату з застосуванням Big Data рішень

dc.contributor.advisorОлійник, Юрій Олександрович
dc.contributor.authorГалайко, Данило Олександрович
dc.date.accessioned2025-02-24T09:05:45Z
dc.date.available2025-02-24T09:05:45Z
dc.date.issued2024
dc.description.abstractРозмір пояснювальної записки – 143 аркуші, містить 33 ілюстрації, 32 таблиці, 8 додатків, 65 посилань на джерела. Актуальність теми. У роботі досліджено проблему обробки великої кількості текстових даних у контексті виявлення плагіату із застосуванням Big Data рішень. Проаналізовано основні особливості сучасних платформ для виявлення запозичень, визначено їхні переваги та недоліки. Виявлено необхідність удосконалення методів обробки природної мови, що застосовуються до текстових даних, з метою підвищення ефективності та точності виявлення плагіату. Мета дослідження. Основною метою є підвищення швидкості роботи та надійності програмного забезпечення для виявлення плагіату на надвеликих масивах даних. Об’єкт дослідження: програмне забезпечення для виявлення плагіату. Предмет дослідження: методи, програмна архітектура, засоби створення програмного забезпечення для виявлення плагіату на великому об’ємі даних. Для реалізації поставленої мети сформульовані наступні завдання: − аналіз наявних рішень; − підбір та підготовка словника українських та англійських синонімів; − створення покращеного методу виявлення плагіату з використанням словників синонімів; − розробка програмної архітектури та реалізація програмного забезпечення з використанням big data рішень; − актуалізація морфологічної бібліотеки для української мови; − оцінка ефективності запропонованого рішення. Наукова новизна результатів магістерської дисертації полягає в тому, що запропоновано удосконалений метод перевірки на плагіат за допомогою словника синонімів та додавання підтримки масштабованості та обробки надвеликих масивів даних. Результат досягнутий шляхом розробки модернізованої архітектури програмного забезпечення. Практичне значення отриманих результатів полягає в тому, що розроблено модифікований метод та програмне забезпечення, що може використовуватися в наукових закладах та конференціях для забезпечення академічної доброчесності та зниження використання запозичених текстів. Зв’язок з науковими програмами, планами, темами. Робота виконувалась на кафедрі інформатики та програмної інженерії Національного технічного університету України "Київський політехнічний інститут імені Ігоря Сікорського" в рамках теми «Методи та технології високопродуктивних обчислень та обробки надвеликих масивів даних». Державний реєстраційний номер 0117U000924. Апробація. Наукові положення дисертації пройшли апробацію на Всеукраїнському конкурсі студентських наукових робіт знань і спеціальностей 2023 рік, Київ. Публікації. Наукові положення дисертації опубліковані в: 1) Halaiko D.O., Oliynyk Y.O. SEARCHING TEXT SIMILARITY PARALLEL METHOD. SoftTech-2022. 2022. №004.414. 2) Yurii Oliinyk, Danylo Halaiko, Iryna Mukha, Oleksandr Ocheretianyi. Plagiarism detecting hash-based parallel method. Proceedings of the 7th international conference, COLINS-2023. 2023. Vol. IV. P. 131–143. 3) Галайко Д.О., Олійник Ю.О. Застосування сховищ даних для виявлення плагіату в текстових документах. Адаптивні системи автоматичного Управління. 2024. Том 2 №45.
dc.description.abstractotherExplanatory note size – 143 pages, contains 33 illustrations, 32 tables, 8 applications, 65 references. Topicality. Examines the problem of the problem of processing a large amount of text data in the context of plagiarism detection using Big Data solutions. The main features of modern platforms for identifying loans are analyzed, their advantages and disadvantages are determined. The need to improve natural language processing methods applied to text data to increase the efficiency and accuracy of plagiarism detection has been revealed. The aim of the study. The main target is increasing the speed and reliability of plagiarism detection software on extremely large data sets. The object of research: plagiarism detection software. The subject of research: methods, software architecture, tools for creating software for detecting plagiarism on large amounts of data. To achieve this goal, the following tasks were formulated: − analysis of existing solutions; − selection and preparation of a dictionary of Ukrainian and English synonyms; − creation of an updated method of detecting plagiarism using dictionaries of synonyms; − software architecture creation and implementation of software using big data solutions; − update of the morphological library for the Ukrainian language; − assessment of the effectiveness of the proposed solution. The scientific novelty of the results of the master's dissertation is in proposed an improved plagiarism check method using a thesaurus and added support for scalability and handling of extremely large datasets. The result was achieved by developing a modernized software architecture. The practical value of the obtained results is in developed a modified method and software that can be used in academic institutions and conferences to ensure academic integrity and reduce the use of borrowed texts. Relationship with working with scientific programs, plans, topics. Work was performed at the Department of Informatics and Software Engineering of the National Technical University of Ukraine «Igor Sikorsky Kyiv Polytechnic Institute». Approbation. The scientific provisions of the dissertation were tested at the all-Ukrainian competition of student works 2023, Kyiv. Publications. The scientific provisions of the dissertation were published in: 1) Halaiko D.O., Oliynyk Y.O. SEARCHING TEXT SIMILARITY PARALLEL METHOD. SoftTech-2022, 2022 #004.414. 2) Yurii Oliinyk, Danylo Halaiko, Iryna Mukha, Oleksandr Ocheretianyi Plagiarism detecting hash-based parallel method. Proceedings of the 7th international conference, COLINS-2023. 2023. Vol. IV. P. 131–143. 3) Halaiko D.O., Oliynyk Yu.O. Application of data warehouses to detect plagiarism in text documents. Adaptive systems of automatic management, 2024, Volume 2 #45.
dc.format.extent143 с.
dc.identifier.citationГалайко, Д. О. Програмне забезпечення виявлення плагіату з застосуванням Big Data рішень : магістерська дис. : 121 Інженерія програмного забезпечення / Галайко Данило Олександрович. - Київ, 2024. - 143 с.
dc.identifier.urihttps://ela.kpi.ua/handle/123456789/72687
dc.language.isouk
dc.publisherКПІ ім. Ігоря Сікорського
dc.publisher.placeКиїв
dc.subjectзапозичення
dc.subjectплагіат
dc.subjectтекст
dc.subjectвеликі дані
dc.subjectBig Data
dc.subjectDynamoDB
dc.subjectAWS
dc.subjectFirebase
dc.subjectborrowing
dc.subjectplagiarism
dc.subjecttext
dc.subject.udc004.89
dc.titleПрограмне забезпечення виявлення плагіату з застосуванням Big Data рішень
dc.title.alternativePlagiarism Detection Software Using Big Data Solutions
dc.typeMaster Thesis

Файли

Контейнер файлів
Зараз показуємо 1 - 1 з 1
Ескіз недоступний
Назва:
Halaiko_magistr.pdf
Розмір:
5.27 MB
Формат:
Adobe Portable Document Format
Ліцензійна угода
Зараз показуємо 1 - 1 з 1
Ескіз недоступний
Назва:
license.txt
Розмір:
8.98 KB
Формат:
Item-specific license agreed upon to submission
Опис: