Метод розпізнавання фейкових новин у мережі інтернет на основі обробки природної мови
Вантажиться...
Дата
2024
Автори
Науковий керівник
Назва журналу
Номер ISSN
Назва тому
Видавець
КПІ ім. Ігоря Сікорського
Анотація
Міщенко Л. Д. Метод розпізнавання фейкових новин у мережі інтернет на основі обробки природної мови. – Кваліфікаційна наукова праця на правах рукопису.
Дисертація на здобуття наукового ступеня доктора філософії за спеціальністю 123 – Комп’ютерна інженерія з галузі знань 12 – Інформаційні технологіії. – Національний Технічний Університет України «Київський Політехнічний Інститут імені Ігоря Сікорського», Київ, 2024.
У дисертаційній роботі вирішено актуальну науково-прикладну проблему оперативного розпізнавання та маркування фейкових повідомленьновин за обмеженою апріорною інформацією для рішення задачі оперативного розпізнавання фейків та нейтралізації їх негативного впливу шляхом маркування в умовах значної кількості, щільності потоку та обмеженості за змістом окремого повідомлення. Проведено аналіз заходів інформаційного та інформаційно-психологічного впливу (ІПсВ). Визначено, що об’єктами ІПсВ можуть бути громадяни, окремі категорії населення, керівники різних ланок; цілями ІПсВ можуть бути зміна думок, настроїв та спонукання до дій. Залежно від цих складових ІПсВ може мати різні масштаби, форми, методи і засоби. Проаналізовано множини способів реалізації ІПсВ та визначено, що найпоширенішими та найефективнішими є розповсюдження оманливої інформації через фейкові новини. Досліджено, що засобами реалізації фейків є короткі інформаційні повідомлення, публікації, що розповсюджуються у домінанті електронними медіа через сайти новин, соціальних мереж, інформаційних каналів у месенджерах. Формами фейків можуть бути текстові, голосові повідомлення природньою мовою, зображення, відео, але домінанта належить повідомленням природньою мовою із передачі фейкового контенту у форматі новин. Проаналізовано, що більшість традиційних підходів до виявлення фейків базується на комплексному застосування головних груп індикаторів, що дає лише апостеріорний результат на рівні спростування та не відповідає принципам оперативності – реальності масштабу часу: розповсюдження фейків та досягнення їх результату до їх нейтралізації. Визначено, що головним показником якості протидії фейкам є не стільки точність їх ідентифікації, скільки оперативність розпізнавання та маркування. Проведено аналіз високих вимог до оперативності розпізнавання фейків в умовах їх значної кількості, щільності потоку та обмеженості за змістом окремого повідомлення та обрано спосіб виявлення фейків як аналіз контенту повідомлення. Визначено конкретику процесів для оперативного та комплексного вирішення задач розпізнавання та маркування фейкових новин. Проаналізовано використання частотного аналізу токенів тексту коротких інформаційних повідомлень та формування словнику фейків на динамічнооновлювальній множині повідомлень. Зроблено аналіз статистичного критерія Байєса, адаптованого до лінгвістичної стилістики повідомлень прийняття рішення про фейк та його маркування та доцільність застосування методів машинного навчання без вчителя. Проведено аналіз результатів використання методу оперативного розпізнавання фейкових новин за обмеженою апріорною інформацією, який базується на комплексному синергетичному поєднанні процесів обробки природної мови: частотного аналізу токенів тексту коротких інформаційних повідомлень; удосконаленому спосіб контент-аналізу фейкових новин; бінарної класифікації повідомлень за удосконаленим Naive Bayes класифікатором та функції ранжування BM25. Метод вирізняється реалізацією процесу навчання на динамічно поновлюваній множині коротких інформаційних повідомлень з достовірних джерел. Це забезпечує вирішення задачі оперативного розпізнавання фейків із точністю у діапазоні від 85% до 93% для їх бінарного маркування в умовах значної кількості, щільності потоку та обмеженості за змістом окремого повідомлення. У порівнянні з відомою стратегією NLP, яка базується на використанні статистичної міри TF-IDF без інтеграції Naive Bayes класифікатора, відсоток точності класифікації тексту становить від 80% до 90%. Таким чином, запропонований метод дозволив підвищити ефективність розпізнавання фейкових новин в мережі Інтернет в середньому на 2,5%. Удосконалено спосіб бінарної класифікації та маркування фейкових новин, якій базується на використанні Naive Bayes класифікатора та функції ранжування BM25 та відрізняється адаптивним вибором параметрів функції ранжування за експериментальними даними, отриманими як результат частотного аналізу новин з достовірних джерел. Це дозволяє підвищити точність класифікації текстових даних на 14% на динамічно оновлюваній множині коротких інформаційних повідомлень без втрати швидкодії у порівнянні з відомими реалізаціями етапу класифікації фейкових новин в мережі Інтернет. Удосконалено спосіб контент-аналізу фейкових новин, що базується на використання схеми навчання без вчителя. Спосіб вирізняється використанням динамічно змінюваного за переліком джерел і змістом контенту DataSet масиву з достовірних джерел, за яким формується словник для розпізнавання фейків. Це забезпечує оперативне формування ознак фейків з урахуванням значної динаміки змін їх стилю та сфери за коротким змістом повідомлення. Отримано подальший розвиток інформаційної технології оперативного розпізнавання фейкових новин за обмеженою апріорною інформацією, яка базується на впровадженні розробленого у ході досліджень методу. Інформаційна технологія вирізняється можливістю розпізнавання і бінарного маркування фейків на пристроях із низькою продуктивністю, енергоспоживанням та із тимчасовою відсутністю доступу до глобальних інформаційних мереж. Результати проведених експериментів запропонованої інформаційної технології реалізації оперативного розпізнавання фейкових новин за обмеженою апріорною інформацією показали потенціал із високою стійкістю формувати бінарну оцінку із маркування фейків для споживачів з критичними умовами доступності. Також можливість оперативного розпізнавання і бінарного маркування фейків на пристроях із низькою продуктивністю, енергоспоживанням та із тимчасовою відсутністю доступу до глобальних інформаційних мереж. Розроблене комплексне серверне програмне забезпечення дозволить реалізувати моделі NLP та підготувати її для застосування запропонованого методу розпізнавання фейкових новин у мережі Інтернет. Результат роботи комплексу – оперативне маркування фейкових повідомлень користувачам мобільних пристроїв. Програмне забезпечення може бути інтегровано в інформаційно-аналітичні ресурси в мережі Інтернет, а також використано для реалізації хмарних сервісів розпізнавання фейкових новин у мережі Інтернет. Таким чином, актуальність тематики дисертаційного дослідження полягає у вирішенні задачі оперативного розпізнавання фейкових повідомлень – нових в умовах їх значної кількості, щільності потоку та обмеженості за змістом окремого повідомлення.
Опис
Ключові слова
обробка природної мови, NLP, фейкові новини, мережа Інтернет, інтелектуальний аналіз даних, функція ранжування BM25, Naїve Bayes класифікатор, машинне навчання, статистичне навчання, очищення даних, модель, контент аналіз, інформаційна технологія, Natural Language Processing, fake news, Internet, intelligent data analysis, BM25 ranking function, Naїve Bayes classifier, machine learning, statistical learning, data cleaning, model, content analysis, information technology
Бібліографічний опис
Міщенко, Л. Д. Метод розпізнавання фейкових новин у мережі інтернет на основі обробки природної мови : дис. … д-ра філософії : 123 Комп’ютерна інженерія / Міщенко Людмила Дмитрівна. – Київ, 2024. – 232 c.