Алгоритмічне та програмне забезпечення захисту приватних наборів даних у задачах класифікації
Вантажиться...
Дата
2024
Автори
Науковий керівник
Назва журналу
Номер ISSN
Назва тому
Видавець
КПІ ім. Ігоря Сікорського
Анотація
Северін А. І. Алгоритмічне та програмне забезпечення захисту приватних наборів даних у задачах класифікації. – Кваліфікаційна наукова праця на правах рукопису.
Дисертація на здобуття наукового ступеня доктора філософії в галузі знань 12 Інформаційні технології за спеціальністю 121 Інженерія програмного забезпечення. – Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського», Київ, 2024.
Впровадження систем аналізу даних і штучного інтелекту набуває все більшого поширення у різних аспектах людського життя. Окрім вже звичних випадків застосування таких систем у електронній комерції (наприклад, підбір рекомендацій користувачеві) та соціальній сфері (виявлення спаму, модерування коментарів), такі інструменти стрімко поширюються й для персонального використання (наприклад, чатботи ChatGPT, Google Bard, Microsoft Copilot, хоча вони з’явились лише впродовж останніх двох років). В основі систем, що використовують методи машинного навчання, лежать дані. Вони є необхідним елементом як для навчання систем аналізу даних і штучного інтелекту, так і для їх тестування. Чим більше різнопланових даних, аналізується, тим точнішою є побудована програмна система. Найчастіше джерелом даних для програмних рішень з використанням машинного навчання є реальний світ. Іноді дані генерують програмним шляхом, намагаючись відтворити певні характеристики даних. Проте, незважаючи на те, що кількість створюваних та оброблюваних даних стрімко зростає, дані досить часто містять щонайменше частину приватної інформації, що обмежує їх використання для систем аналізу даних і штучного інтелекту. Приватні дані – інформація, яка є конфіденційною, чутливою або секретною. Прикладами секретних даних є військові, фінансові та державні дані. Конфіденційні дані – дані, що дозволяють ідентифікувати людину або компанію, їх прикладами є серія та номер паспорту, реєстраційний податковий номер та номер автомобіля. Прикладами чутливих даних є дані, що містять медичні діагнози пацієнтів. Збереження приватності даних є вкрай важливим, адже втрата приватності може призвести до дуже негативних наслідків (передусім різноманітних злочинів та недобросовісної конкуренції). Таким чином, вище описані задачі визначають актуальну науковотехнічну задачу вдосконалення алгоритмічного та програмного забезпечення захисту приватних наборів даних у системах з використанням штучного інтелекту, яка вирішується у даній дисертаційній роботі для задачі класифікації. Метою дисертаційної роботи є удосконалення процесу оброблення приватних наборів даних для програмних систем інтелектуального аналізу даних. У першому розділі дисертаційної роботи розглянуто основні етичні аспекти використання систем штучного інтелекту та проблеми до яких може призвести їх ігнорування. Проаналізовано загрози приватності у таких системах, зокрема атаки інверсії, отруєння та логічного висновку. Проведено комплексний порівняльний аналіз методів збереження приватності в машинному навчанні (методи генерації синтетичних даних, анонімізації даних, диференційної приватністі, гомоморфного шифрування та федеративного навчання), що дозволило виявити основні проблеми існуючих методів, які потребують досліджень. Розроблено вимоги до програмного забезпечення захисту приватних наборів даних у задачах класифікації. У другому розділі розроблено алгоритмічні методи міжбазисних перетворень елементів скінченних полів. Проаналізовано особливості використання полів Галуа в гомоморфних методах збереження приватності, а також визначено залежність часу виконання операцій над елементами скінченних полів від базису (поліноміального чи нормального), в якому представлені елементи. Запропоновано метод пошуку поліномів, який відрізняється від існуючого використанням простих чисел у десятковому представленні замість поліномів й дозволяє зменшити обчислювальну складність процесу пошуку нормальних многочленів. Розроблено модифікований спосіб для переходу між базисами, який полягає у використанні рекурентної формули, що дозволяє зменшити як кількість пам’яті, що використовується, так і обчислювальну складність. У третьому розділі розроблено алгоритмічно-програмний метод захисту приватних наборів даних. Проаналізовано математичне підґрунтя для побудови алгоритмічно-програмних методів з використанням нейронних мереж. Запропоновано метод функціонального шифрування даних, особливістю якого є можливість використання приватних наборів даних в загальнодоступних системах аналізу даних та штучного інтелекту шляхом зменшення їх розмірності й функціонального шифрування отриманих даних з використанням приватного ключа. Запропоновано модифікацію моделі шифрування даних, яка полягає у використанні двовимірних згорткових нейронних мереж і дозволяє застосовувати модель шифрування даних, що представлені набором пікселів, з яких складається зображення. Проаналізовано метрики для оцінки методів захисту наборів даних. Четвертий розділ присвячено розробленню програмного забезпечення реалізації запропонованих методів для захисту приватних наборів даних та проведенню експериментальних досліджень. Запропоновано архітектуру програмної системи для вирішення задачі класифікації на основі приватних даних. Розроблено програмну систему, яка дозволяє виконувати обчислення над елементами поля GF(pm), проводити експериментальні дослідження, використовуючи поліноміальне й нормальне представлення елементів поля GF(pm), задавати різні значення вхідних параметрів p та m, а також генерувати різні набори тестових даних залежно від нормальних поліномів поля Галуа. Проведено експериментальні дослідження запропонованих методів міжбазисних перетворень скінченних полів. Розроблено програмну систему вирішення задачі класифікації на приватних наборах даних, що реалізує метод функціонального шифрування для захисту приватних наборів даних й дозволяє вирішувати задачу класифікації, використовуючи як оригінальні дані, так і зашифровані. Проведено експериментальні дослідження запропонованого методу функціонального шифрування. Проаналізовано шляхи інтеграції розроблених програмних систем. У дисертаційній роботі отримано низку нових наукових результатів, зокрема уперше запропоновано архітектуру програмної системи для вирішення задачі класифікації на основі приватних даних, характерною особливістю якої є захист приватних наборів даних, шляхом функціонального шифрування, що відбувається на стороні клієнта, і дозволяє збільшити кількість наборів даних для навчання загальнодоступних систем аналізу даних і штучного інтелекту. Уперше запропоновано модифікацію програмної моделі шифрування даних, яка відрізняється від існуючої використанням двовимірних згорткових нейронних мереж, замість одновимірних, і дозволяє застосовувати модель шифрування з використанням нейронних мереж до даних, що представлені набором пікселів, з яких складається зображення. Уперше розроблено алгоритмічно-програмний метод функціонального шифрування наборів даних, особливістю якого є можливість використання приватних наборів даних в загальнодоступних системах аналізу даних та штучного інтелекту шляхом зменшення їх розмірності й функціонального шифрування отриманих даних з використанням приватного ключа. Уперше розроблено алгоритмічно-програмний метод пошуку нормальних поліномів серед незвідних, який відрізняється від існуючого використанням простих чисел у десятковому представленні замість поліномів, що дозволяє зменшити обчислювальні витрати алгоритму пошуку незвідних многочленів з O(n3) до O(n log(log n)) і, як наслідок, спростити міжбазисні перетворення у бінарних скінченних полях з метою пришвидшення виконання операцій над елементами поля у методах гомоморфного шифрування даних. Уперше розроблено модифікований спосіб побудови матриці переходу між поліноміальним та нормальним базисами скінченного поля, який полягає у використанні рекурентної формули замість обчислення остачі від ділення елемента на незвідний поліном, що дозволяє зменшити кількість використовуваної пам’яті з до n · p, а також обчислювальну складність з до . Основні наукові результати дисертаційної роботи опубліковано у 7 наукових працях, зокрема у 4 наукових статтях, включаючи 1 статтю опубліковану у закордонному аховому виданнях третього квартиля (Q3), яке проіндексоване в базі даних Scopus, 1 статтю опубліковану у виданні, яке проіндексоване в базі даних Web of science, і 2 статті опубліковані у фаховому виданні, включеному до переліку наукових фахових видань України з присвоєнням категорії «Б» та у 3 матеріалах науково-технічних конференцій.
Опис
Ключові слова
прикладне програмне забезпечення, архітектура програмного забезпечення, інтелектуальна система, машинне навчання, збереження конфіденційності, збір і аналіз даних, гомоморфне шифрування, скінченне поле, завадостійкі коди, функціональне шифрування, нейронна мережа, згорткова нейронна мережа, генеративна конкуруюча мережа, ущільнення даних, задача класифікації, application software, software architecture, intelligent system, machine learning, privacy-preserving, data collection and analysis, homomorphic encryption, finite field, error control codes, functional encryption, neural network, convolutional neural network, generative adversarial network, data compression, classification problem
Бібліографічний опис
Северін, А. І. Алгоритмічне та програмне забезпечення захисту приватних наборів даних у задачах класифікації : дис. … д-ра філософії : 121 Інженерія програмного забезпечення / Северін Андрій Іванович. – Київ, 2024. – 254 с.