Аналіз методів машинного навчання в задачі пошуку дублікатів в програмному коді
dc.contributor.advisor | Куб'юк, Євгеній Юрійович | |
dc.contributor.author | Калюжна, Тетяна Олександрівна | |
dc.date.accessioned | 2023-02-20T12:23:17Z | |
dc.date.available | 2023-02-20T12:23:17Z | |
dc.date.issued | 2022 | |
dc.description.abstracten | This paper is devoted to the study of machine learning methods and implementation of decision tree machine learning model in the problem of finding clones in the program code. The paper analyzes already existing machine learning approaches for code clone detection, on the basis of which the most optimal method of using decision tree machine learning model with further implementation is chosen. The object of the study is Python code analyzed by machine learning methods to detect clones. The subject of the research is the machine learning methods used to search for clones in the program code. The methods of research are machine learning methods and classification methods. The relevance of the work is to train a decision tree model for accurate and rapid detection of code clones, which could potentially be widely used to detect plagiarism in education institutions as well as in IT companies. The result is a model that classifies cloned and uncloned code with over 99% accuracy in a minimal amount of time. Ways of further development is recognition of clones rewritten from one programming language to another, identification of vulnerabilities in the code, improvement of the model through the creation of more universal datasets. Thesis: 126 pages, 43 figures, 19 tables, 1 appendices, 39 sources. | uk |
dc.description.abstractuk | Дана робота присвячена дослідженню методів машинного навчання та реалізації моделі машинного навчання дерева рішень в задачі пошуку клонів у програмному коді. У роботі проводиться аналіз вже існуючих підходів машинного навчання для виявлення клонів коду, на основі якого обирається найбільш оптимальний метод — використання моделі машинного навчання дерева рішень з подальшою реалізацією. Об'єктом дослідження являється код на мові програмування Python, проаналізований методами машинного навчання з метою виявлення клонів. Предметом дослідження являються методи машинного навчання, які використовуються для пошуку клонів у програмному коді. Методами дослідження виступають методи машинного навчання та методи класифікації. Актуальність роботи полягає в навчанні моделі дерева рішень для точного та швидкого виявлення клонів коду, що потенційно може мати широке використання для виявлення плагіату як у навчальних закладах, так і в IT-компаніях. Результатом роботи є створена модель, що з точністю більше 99% класифікує клоновані та не клоновані коди за мінімальний проміжок часу. Шляхи подальшого розвитку — розпізнавання клонів, що переписані з однієї мови програмування на іншу, виявлення вразливостей в коді, покращення роботи моделі за допомогою створення більш універсальних датасетів. Загальний обсяг роботи: 126 ст., 43 рис., 19 табл., 1 дод., 39 джерел. | uk |
dc.format.page | 129 с. | uk |
dc.identifier.citation | Калюжна, Т. О. Аналіз методів машинного навчання в задачі пошуку дублікатів в програмному коді : дипломна робота ... бакалавра : 122 Комп'ютерні науки / Калюжна Тетяна Олександрівна. – Київ, 2022. – 129 с. | uk |
dc.identifier.uri | https://ela.kpi.ua/handle/123456789/52795 | |
dc.language.iso | uk | uk |
dc.publisher | КПІ ім. Ігоря Сікорського | uk |
dc.publisher.place | Київ | uk |
dc.subject | методи машинного навчання | uk |
dc.subject | дерево рішень | uk |
dc.subject | клон | uk |
dc.subject | дублювання | uk |
dc.subject | токен | uk |
dc.subject | SVM | uk |
dc.subject | TECCD | uk |
dc.subject | machine learning methods | uk |
dc.subject | decision tree | uk |
dc.subject | clone | uk |
dc.subject | duplication | uk |
dc.subject | token | uk |
dc.title | Аналіз методів машинного навчання в задачі пошуку дублікатів в програмному коді | uk |
dc.title.alternative | Analysis of machine learning methods in the problem of finding duplicates in the program code | uk |
dc.type | Bachelor Thesis | uk |
Файли
Контейнер файлів
1 - 1 з 1
Ескіз недоступний
- Назва:
- Kaliuzhna_bakalavr.docx
- Розмір:
- 2.75 MB
- Формат:
- Microsoft Word XML
- Опис:
Ліцензійна угода
1 - 1 з 1
Ескіз недоступний
- Назва:
- license.txt
- Розмір:
- 9.1 KB
- Формат:
- Item-specific license agreed upon to submission
- Опис: