Аналіз методів машинного навчання в задачі пошуку дублікатів в програмному коді

Ескіз недоступний

Дата

2022

Науковий керівник

Назва журналу

Номер ISSN

Назва тому

Видавець

КПІ ім. Ігоря Сікорського

Анотація

Дана робота присвячена дослідженню методів машинного навчання та реалізації моделі машинного навчання дерева рішень в задачі пошуку клонів у програмному коді. У роботі проводиться аналіз вже існуючих підходів машинного навчання для виявлення клонів коду, на основі якого обирається найбільш оптимальний метод — використання моделі машинного навчання дерева рішень з подальшою реалізацією. Об'єктом дослідження являється код на мові програмування Python, проаналізований методами машинного навчання з метою виявлення клонів. Предметом дослідження являються методи машинного навчання, які використовуються для пошуку клонів у програмному коді. Методами дослідження виступають методи машинного навчання та методи класифікації. Актуальність роботи полягає в навчанні моделі дерева рішень для точного та швидкого виявлення клонів коду, що потенційно може мати широке використання для виявлення плагіату як у навчальних закладах, так і в IT-компаніях. Результатом роботи є створена модель, що з точністю більше 99% класифікує клоновані та не клоновані коди за мінімальний проміжок часу. Шляхи подальшого розвитку — розпізнавання клонів, що переписані з однієї мови програмування на іншу, виявлення вразливостей в коді, покращення роботи моделі за допомогою створення більш універсальних датасетів. Загальний обсяг роботи: 126 ст., 43 рис., 19 табл., 1 дод., 39 джерел.

Опис

Ключові слова

методи машинного навчання, дерево рішень, клон, дублювання, токен, SVM, TECCD, machine learning methods, decision tree, clone, duplication, token

Бібліографічний опис

Калюжна, Т. О. Аналіз методів машинного навчання в задачі пошуку дублікатів в програмному коді : дипломна робота ... бакалавра : 122 Комп'ютерні науки / Калюжна Тетяна Олександрівна. – Київ, 2022. – 129 с.

ORCID

DOI