Алгоритмічне та програмне забезпечення захисту приватних наборів даних у задачах класифікації

dc.contributor.advisorОнай, Микола Володимирович
dc.contributor.authorСеверін, Андрій Іванович
dc.date.accessioned2024-06-17T12:30:55Z
dc.date.available2024-06-17T12:30:55Z
dc.date.issued2024
dc.description.abstractСеверін А. І. Алгоритмічне та програмне забезпечення захисту приватних наборів даних у задачах класифікації. – Кваліфікаційна наукова праця на правах рукопису. Дисертація на здобуття наукового ступеня доктора філософії в галузі знань 12 Інформаційні технології за спеціальністю 121 Інженерія програмного забезпечення. – Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського», Київ, 2024. Впровадження систем аналізу даних і штучного інтелекту набуває все більшого поширення у різних аспектах людського життя. Окрім вже звичних випадків застосування таких систем у електронній комерції (наприклад, підбір рекомендацій користувачеві) та соціальній сфері (виявлення спаму, модерування коментарів), такі інструменти стрімко поширюються й для персонального використання (наприклад, чатботи ChatGPT, Google Bard, Microsoft Copilot, хоча вони з’явились лише впродовж останніх двох років). В основі систем, що використовують методи машинного навчання, лежать дані. Вони є необхідним елементом як для навчання систем аналізу даних і штучного інтелекту, так і для їх тестування. Чим більше різнопланових даних, аналізується, тим точнішою є побудована програмна система. Найчастіше джерелом даних для програмних рішень з використанням машинного навчання є реальний світ. Іноді дані генерують програмним шляхом, намагаючись відтворити певні характеристики даних. Проте, незважаючи на те, що кількість створюваних та оброблюваних даних стрімко зростає, дані досить часто містять щонайменше частину приватної інформації, що обмежує їх використання для систем аналізу даних і штучного інтелекту. Приватні дані – інформація, яка є конфіденційною, чутливою або секретною. Прикладами секретних даних є військові, фінансові та державні дані. Конфіденційні дані – дані, що дозволяють ідентифікувати людину або компанію, їх прикладами є серія та номер паспорту, реєстраційний податковий номер та номер автомобіля. Прикладами чутливих даних є дані, що містять медичні діагнози пацієнтів. Збереження приватності даних є вкрай важливим, адже втрата приватності може призвести до дуже негативних наслідків (передусім різноманітних злочинів та недобросовісної конкуренції). Таким чином, вище описані задачі визначають актуальну науковотехнічну задачу вдосконалення алгоритмічного та програмного забезпечення захисту приватних наборів даних у системах з використанням штучного інтелекту, яка вирішується у даній дисертаційній роботі для задачі класифікації. Метою дисертаційної роботи є удосконалення процесу оброблення приватних наборів даних для програмних систем інтелектуального аналізу даних. У першому розділі дисертаційної роботи розглянуто основні етичні аспекти використання систем штучного інтелекту та проблеми до яких може призвести їх ігнорування. Проаналізовано загрози приватності у таких системах, зокрема атаки інверсії, отруєння та логічного висновку. Проведено комплексний порівняльний аналіз методів збереження приватності в машинному навчанні (методи генерації синтетичних даних, анонімізації даних, диференційної приватністі, гомоморфного шифрування та федеративного навчання), що дозволило виявити основні проблеми існуючих методів, які потребують досліджень. Розроблено вимоги до програмного забезпечення захисту приватних наборів даних у задачах класифікації. У другому розділі розроблено алгоритмічні методи міжбазисних перетворень елементів скінченних полів. Проаналізовано особливості використання полів Галуа в гомоморфних методах збереження приватності, а також визначено залежність часу виконання операцій над елементами скінченних полів від базису (поліноміального чи нормального), в якому представлені елементи. Запропоновано метод пошуку поліномів, який відрізняється від існуючого використанням простих чисел у десятковому представленні замість поліномів й дозволяє зменшити обчислювальну складність процесу пошуку нормальних многочленів. Розроблено модифікований спосіб для переходу між базисами, який полягає у використанні рекурентної формули, що дозволяє зменшити як кількість пам’яті, що використовується, так і обчислювальну складність. У третьому розділі розроблено алгоритмічно-програмний метод захисту приватних наборів даних. Проаналізовано математичне підґрунтя для побудови алгоритмічно-програмних методів з використанням нейронних мереж. Запропоновано метод функціонального шифрування даних, особливістю якого є можливість використання приватних наборів даних в загальнодоступних системах аналізу даних та штучного інтелекту шляхом зменшення їх розмірності й функціонального шифрування отриманих даних з використанням приватного ключа. Запропоновано модифікацію моделі шифрування даних, яка полягає у використанні двовимірних згорткових нейронних мереж і дозволяє застосовувати модель шифрування даних, що представлені набором пікселів, з яких складається зображення. Проаналізовано метрики для оцінки методів захисту наборів даних. Четвертий розділ присвячено розробленню програмного забезпечення реалізації запропонованих методів для захисту приватних наборів даних та проведенню експериментальних досліджень. Запропоновано архітектуру програмної системи для вирішення задачі класифікації на основі приватних даних. Розроблено програмну систему, яка дозволяє виконувати обчислення над елементами поля GF(pm), проводити експериментальні дослідження, використовуючи поліноміальне й нормальне представлення елементів поля GF(pm), задавати різні значення вхідних параметрів p та m, а також генерувати різні набори тестових даних залежно від нормальних поліномів поля Галуа. Проведено експериментальні дослідження запропонованих методів міжбазисних перетворень скінченних полів. Розроблено програмну систему вирішення задачі класифікації на приватних наборах даних, що реалізує метод функціонального шифрування для захисту приватних наборів даних й дозволяє вирішувати задачу класифікації, використовуючи як оригінальні дані, так і зашифровані. Проведено експериментальні дослідження запропонованого методу функціонального шифрування. Проаналізовано шляхи інтеграції розроблених програмних систем. У дисертаційній роботі отримано низку нових наукових результатів, зокрема уперше запропоновано архітектуру програмної системи для вирішення задачі класифікації на основі приватних даних, характерною особливістю якої є захист приватних наборів даних, шляхом функціонального шифрування, що відбувається на стороні клієнта, і дозволяє збільшити кількість наборів даних для навчання загальнодоступних систем аналізу даних і штучного інтелекту. Уперше запропоновано модифікацію програмної моделі шифрування даних, яка відрізняється від існуючої використанням двовимірних згорткових нейронних мереж, замість одновимірних, і дозволяє застосовувати модель шифрування з використанням нейронних мереж до даних, що представлені набором пікселів, з яких складається зображення. Уперше розроблено алгоритмічно-програмний метод функціонального шифрування наборів даних, особливістю якого є можливість використання приватних наборів даних в загальнодоступних системах аналізу даних та штучного інтелекту шляхом зменшення їх розмірності й функціонального шифрування отриманих даних з використанням приватного ключа. Уперше розроблено алгоритмічно-програмний метод пошуку нормальних поліномів серед незвідних, який відрізняється від існуючого використанням простих чисел у десятковому представленні замість поліномів, що дозволяє зменшити обчислювальні витрати алгоритму пошуку незвідних многочленів з O(n3) до O(n log(log n)) і, як наслідок, спростити міжбазисні перетворення у бінарних скінченних полях з метою пришвидшення виконання операцій над елементами поля у методах гомоморфного шифрування даних. Уперше розроблено модифікований спосіб побудови матриці переходу між поліноміальним та нормальним базисами скінченного поля, який полягає у використанні рекурентної формули замість обчислення остачі від ділення елемента на незвідний поліном, що дозволяє зменшити кількість використовуваної пам’яті з до n · p, а також обчислювальну складність з до . Основні наукові результати дисертаційної роботи опубліковано у 7 наукових працях, зокрема у 4 наукових статтях, включаючи 1 статтю опубліковану у закордонному аховому виданнях третього квартиля (Q3), яке проіндексоване в базі даних Scopus, 1 статтю опубліковану у виданні, яке проіндексоване в базі даних Web of science, і 2 статті опубліковані у фаховому виданні, включеному до переліку наукових фахових видань України з присвоєнням категорії «Б» та у 3 матеріалах науково-технічних конференцій.
dc.description.abstractotherSeverin A. Algorithms and software for protecting private datasets in classification tasks. – Qualifying scientific work, manuscript. PhD thesis in the field of knowledge 12 Information technologies in specialty 121 Software Engineering. – National Technical University of Ukraine "Igor Sikorsky Kyiv Polytechnic Institute", Kyiv, 2024. The implementation of data analysis and artificial intelligence systems is becoming increasingly widespread in various aspects of human life. In addition to the usual cases of application of such systems in e-commerce (for example, selecting recommendations for the user) and the social sphere (spam detection, comment moderation), such tools are also rapidly spreading for personal use (for example, chatbots ChatGPT, Google Bard, Microsoft Copilot, although they appeared only during the last two years). Systems using machine learning methods are based on data. They are a necessary element both for training data analysis and artificial intelligence systems, and for their testing. The more diverse data is analyzed, the more accurate the built software system is. Most often, the data source for software solutions using machine learning is the real world. Sometimes the data is generated by software, trying to reproduce certain characteristics of the data. However, even though the amount of data being created and processed is growing rapidly, the data quite often contains at least some private information, which limits its use for data analysis and artificial intelligence systems. Private data – information that is confidential, sensitive or secret. Examples of secret data are military, financial, and government data. Confidential data – data that allows the identification of a person or company, examples of which are passport series and number, tax registration number and car number. Examples of sensitive data are data containing medical diagnoses of patients. The privacypreserving of data is extremely important because the loss of privacy can lead to very negative consequences (primarily various crimes and unfair competition). Thus, the presence of these problems determines the actual scientific and technical problem of improving algorithmic and software protection of private datasets in systems using artificial intelligence, which is solved in this dissertation for the classification problem. The purpose of the dissertation is to improve the process of processing private datasets for software systems of intelligent data analysis. In the first section of the thesis, the main ethical aspects of using artificial intelligence systems and the problems that ignoring them can lead to were examined. Threats to privacy in such systems are analyzed, including inversion, poisoning, and logical inference attacks. A comprehensive comparative analysis of privacy preservation methods in machine learning (methods of synthetic data generation, data anonymization, differential privacy, homomorphic encryption, and federated learning) was conducted, which revealed the main problems of existing methods that require research. Software requirements for private datasets protection in classification tasks were developed. In the second section, the algorithmic methods for change-of-basis conversion of finite field elements were developed. The peculiarities of using Galois fields in homomorphic privacy-preserving methods were analyzed, and the dependence of the execution time of operations on the elements of finite fields on the basis (polynomial or normal) in which the elements are represented was determined. A method for finding polynomials was proposed, which differs from the existing one by using simple numbers in decimal representation instead of polynomials and allows to reduce the computational complexity of finding normal polynomials process. A modified way for conversion between bases was developed, which is based on the use of a recurrent formula, which allows to reduce both the amount of memory used and the computational complexity. In the third section, an algorithmic and software method for protecting private datasets were developed. The mathematical basis for building such methods using neural networks was analyzed. A method of functional data encryption was proposed, the feature of which is the possibility of using private datasets in publicly available data analysis and artificial intelligence systems by reducing their size and functionally encrypting the received data using a private key. A modification of the data encryption model was proposed, which is based on the use of two-dimensional convolutional neural networks and allows the encryption model to be applied to data represented by a set of pixels that make up an image. Metrics for evaluating dataset protection methods were analyzed. The fourth section is devoted to software development for the implementation of the proposed methods for the protection of private datasets and conducting experimental studies. The architecture of the software system for solving the classification problem based on private data was proposed. A software system was developed that allows to perform calculations on the field elements of GF(pm), to conduct experimental studies using the polynomial and normal representation of the field elements of GF(pm), to set different values of the input parameters p and m, and also to generate different sets of test data depending on the normal polynomials of the Galois field. Experimental studies of the proposed methods of change-of-basis conversion of finite fields were carried out. A software system for solving the classification problem on private datasets was developed that implements the method of functional encryption to protect private data sets and allows solving the problem of classification using both original and encrypted data. Experimental studies of the proposed method of functional encryption were carried out. Ways of integration of the developed software systems were analyzed. A number of new scientific results were obtained in the dissertation, in particular, for the first time the architecture of the software system for solving the classification problem based on private data is proposed, the characteristic feature of which is the protection of private datasets by means of functional encryption that occurs on the client side, and allows to increase the number of datasets for training publicly available data analysis and artificial intelligence systems. For the first time, a modification of the software data encryption model is proposed, which differs from the existing one by using two-dimensional convolutional neural networks instead of one-dimensional ones and allows applying the encryption model using neural networks to data represented by a set of pixels that make up an image. For the first time, an algorithmic software method of functional encryption of datasets was developed, the feature of which is the possibility of using private datasets in publicly available data analysis and artificial intelligence systems by reducing their size and functionally encrypting the received data using a private key. For the first time, an algorithmic software method for finding normal polynomials among irreducible polynomials was developed, which differs from the existing one by using simple numbers in decimal representation instead of polynomials, which allows reducing the computational cost of the algorithm for finding for irreducible polynomials from O(n3) to O(n log(log n)) and, as a result, to simplify change-of-basis conversions in binary finite fields in order to speed up operations on field elements in homomorphic data encryption methods. For the first time, a modified way of constructing the conversion matrix between polynomial and normal bases of a finite field was developed, which is based on using a recurrent formula instead of calculating the remainder from dividing an element by an irreducible polynomial, which allows reducing the amount of memory used from to n · p, as well as the computational complexity from to . The main scientific results of the dissertation were published in 7 scientific papers, in particular in 3 scientific articles, including 1 article published in a foreign scientific journal of the third quartile (Q3), which is indexed in the Scopus database, 1 article published in a scientific journal that is indexed in the Web of science database and 2 articles published in scientific journals included in the list ( ) i p O m ( ) p O m of scientific journals of Ukraine in category "Б", as well as in 3 materials of scientific and technical conferences.
dc.format.extent254 с.
dc.identifier.citationСеверін, А. І. Алгоритмічне та програмне забезпечення захисту приватних наборів даних у задачах класифікації : дис. … д-ра філософії : 121 Інженерія програмного забезпечення / Северін Андрій Іванович. – Київ, 2024. – 254 с.
dc.identifier.urihttps://ela.kpi.ua/handle/123456789/67203
dc.language.isouk
dc.publisherКПІ ім. Ігоря Сікорського
dc.publisher.placeКиїв
dc.subjectприкладне програмне забезпечення
dc.subjectархітектура програмного забезпечення
dc.subjectінтелектуальна система
dc.subjectмашинне навчання
dc.subjectзбереження конфіденційності
dc.subjectзбір і аналіз даних
dc.subjectгомоморфне шифрування
dc.subjectскінченне поле
dc.subjectзавадостійкі коди
dc.subjectфункціональне шифрування
dc.subjectнейронна мережа
dc.subjectзгорткова нейронна мережа
dc.subjectгенеративна конкуруюча мережа
dc.subjectущільнення даних
dc.subjectзадача класифікації
dc.subjectapplication software
dc.subjectsoftware architecture
dc.subjectintelligent system
dc.subjectmachine learning
dc.subjectprivacy-preserving
dc.subjectdata collection and analysis
dc.subjecthomomorphic encryption
dc.subjectfinite field
dc.subjecterror control codes
dc.subjectfunctional encryption
dc.subjectneural network
dc.subjectconvolutional neural network
dc.subjectgenerative adversarial network
dc.subjectdata compression
dc.subjectclassification problem
dc.subject.udc004.056
dc.titleАлгоритмічне та програмне забезпечення захисту приватних наборів даних у задачах класифікації
dc.typeThesis Doctoral

Файли

Контейнер файлів
Зараз показуємо 1 - 1 з 1
Вантажиться...
Ескіз
Назва:
Severin_dys.pdf
Розмір:
11.09 MB
Формат:
Adobe Portable Document Format
Ліцензійна угода
Зараз показуємо 1 - 1 з 1
Ескіз недоступний
Назва:
license.txt
Розмір:
8.98 KB
Формат:
Item-specific license agreed upon to submission
Опис: