Аналіз методів машинного навчання в задачі пошуку дублікатів в програмному коді

dc.contributor.advisorКуб'юк, Євгеній Юрійович
dc.contributor.authorКалюжна, Тетяна Олександрівна
dc.date.accessioned2023-02-20T12:23:17Z
dc.date.available2023-02-20T12:23:17Z
dc.date.issued2022
dc.description.abstractenThis paper is devoted to the study of machine learning methods and implementation of decision tree machine learning model in the problem of finding clones in the program code. The paper analyzes already existing machine learning approaches for code clone detection, on the basis of which the most optimal method of using decision tree machine learning model with further implementation is chosen. The object of the study is Python code analyzed by machine learning methods to detect clones. The subject of the research is the machine learning methods used to search for clones in the program code. The methods of research are machine learning methods and classification methods. The relevance of the work is to train a decision tree model for accurate and rapid detection of code clones, which could potentially be widely used to detect plagiarism in education institutions as well as in IT companies. The result is a model that classifies cloned and uncloned code with over 99% accuracy in a minimal amount of time. Ways of further development is recognition of clones rewritten from one programming language to another, identification of vulnerabilities in the code, improvement of the model through the creation of more universal datasets. Thesis: 126 pages, 43 figures, 19 tables, 1 appendices, 39 sources.uk
dc.description.abstractukДана робота присвячена дослідженню методів машинного навчання та реалізації моделі машинного навчання дерева рішень в задачі пошуку клонів у програмному коді. У роботі проводиться аналіз вже існуючих підходів машинного навчання для виявлення клонів коду, на основі якого обирається найбільш оптимальний метод — використання моделі машинного навчання дерева рішень з подальшою реалізацією. Об'єктом дослідження являється код на мові програмування Python, проаналізований методами машинного навчання з метою виявлення клонів. Предметом дослідження являються методи машинного навчання, які використовуються для пошуку клонів у програмному коді. Методами дослідження виступають методи машинного навчання та методи класифікації. Актуальність роботи полягає в навчанні моделі дерева рішень для точного та швидкого виявлення клонів коду, що потенційно може мати широке використання для виявлення плагіату як у навчальних закладах, так і в IT-компаніях. Результатом роботи є створена модель, що з точністю більше 99% класифікує клоновані та не клоновані коди за мінімальний проміжок часу. Шляхи подальшого розвитку — розпізнавання клонів, що переписані з однієї мови програмування на іншу, виявлення вразливостей в коді, покращення роботи моделі за допомогою створення більш універсальних датасетів. Загальний обсяг роботи: 126 ст., 43 рис., 19 табл., 1 дод., 39 джерел.uk
dc.format.page129 с.uk
dc.identifier.citationКалюжна, Т. О. Аналіз методів машинного навчання в задачі пошуку дублікатів в програмному коді : дипломна робота ... бакалавра : 122 Комп'ютерні науки / Калюжна Тетяна Олександрівна. – Київ, 2022. – 129 с.uk
dc.identifier.urihttps://ela.kpi.ua/handle/123456789/52795
dc.language.isoukuk
dc.publisherКПІ ім. Ігоря Сікорськогоuk
dc.publisher.placeКиївuk
dc.subjectметоди машинного навчанняuk
dc.subjectдерево рішеньuk
dc.subjectклонuk
dc.subjectдублюванняuk
dc.subjectтокенuk
dc.subjectSVMuk
dc.subjectTECCDuk
dc.subjectmachine learning methodsuk
dc.subjectdecision treeuk
dc.subjectcloneuk
dc.subjectduplicationuk
dc.subjecttokenuk
dc.titleАналіз методів машинного навчання в задачі пошуку дублікатів в програмному кодіuk
dc.title.alternativeAnalysis of machine learning methods in the problem of finding duplicates in the program codeuk
dc.typeBachelor Thesisuk

Файли

Контейнер файлів
Зараз показуємо 1 - 1 з 1
Ескіз недоступний
Назва:
Kaliuzhna_bakalavr.docx
Розмір:
2.75 MB
Формат:
Microsoft Word XML
Опис:
Ліцензійна угода
Зараз показуємо 1 - 1 з 1
Ескіз недоступний
Назва:
license.txt
Розмір:
9.1 KB
Формат:
Item-specific license agreed upon to submission
Опис: