Метод розпізнавання фейкових новин у мережі інтернет на основі обробки природної мови

dc.contributor.advisorКлименко, Ірина Анатоліївна
dc.contributor.authorМіщенко, Людмила Дмитрівна
dc.date.accessioned2024-08-23T11:51:21Z
dc.date.available2024-08-23T11:51:21Z
dc.date.issued2024
dc.description.abstractМіщенко Л. Д. Метод розпізнавання фейкових новин у мережі інтернет на основі обробки природної мови. – Кваліфікаційна наукова праця на правах рукопису. Дисертація на здобуття наукового ступеня доктора філософії за спеціальністю 123 – Комп’ютерна інженерія з галузі знань 12 – Інформаційні технологіії. – Національний Технічний Університет України «Київський Політехнічний Інститут імені Ігоря Сікорського», Київ, 2024. У дисертаційній роботі вирішено актуальну науково-прикладну проблему оперативного розпізнавання та маркування фейкових повідомленьновин за обмеженою апріорною інформацією для рішення задачі оперативного розпізнавання фейків та нейтралізації їх негативного впливу шляхом маркування в умовах значної кількості, щільності потоку та обмеженості за змістом окремого повідомлення. Проведено аналіз заходів інформаційного та інформаційно-психологічного впливу (ІПсВ). Визначено, що об’єктами ІПсВ можуть бути громадяни, окремі категорії населення, керівники різних ланок; цілями ІПсВ можуть бути зміна думок, настроїв та спонукання до дій. Залежно від цих складових ІПсВ може мати різні масштаби, форми, методи і засоби. Проаналізовано множини способів реалізації ІПсВ та визначено, що найпоширенішими та найефективнішими є розповсюдження оманливої інформації через фейкові новини. Досліджено, що засобами реалізації фейків є короткі інформаційні повідомлення, публікації, що розповсюджуються у домінанті електронними медіа через сайти новин, соціальних мереж, інформаційних каналів у месенджерах. Формами фейків можуть бути текстові, голосові повідомлення природньою мовою, зображення, відео, але домінанта належить повідомленням природньою мовою із передачі фейкового контенту у форматі новин. Проаналізовано, що більшість традиційних підходів до виявлення фейків базується на комплексному застосування головних груп індикаторів, що дає лише апостеріорний результат на рівні спростування та не відповідає принципам оперативності – реальності масштабу часу: розповсюдження фейків та досягнення їх результату до їх нейтралізації. Визначено, що головним показником якості протидії фейкам є не стільки точність їх ідентифікації, скільки оперативність розпізнавання та маркування. Проведено аналіз високих вимог до оперативності розпізнавання фейків в умовах їх значної кількості, щільності потоку та обмеженості за змістом окремого повідомлення та обрано спосіб виявлення фейків як аналіз контенту повідомлення. Визначено конкретику процесів для оперативного та комплексного вирішення задач розпізнавання та маркування фейкових новин. Проаналізовано використання частотного аналізу токенів тексту коротких інформаційних повідомлень та формування словнику фейків на динамічнооновлювальній множині повідомлень. Зроблено аналіз статистичного критерія Байєса, адаптованого до лінгвістичної стилістики повідомлень прийняття рішення про фейк та його маркування та доцільність застосування методів машинного навчання без вчителя. Проведено аналіз результатів використання методу оперативного розпізнавання фейкових новин за обмеженою апріорною інформацією, який базується на комплексному синергетичному поєднанні процесів обробки природної мови: частотного аналізу токенів тексту коротких інформаційних повідомлень; удосконаленому спосіб контент-аналізу фейкових новин; бінарної класифікації повідомлень за удосконаленим Naive Bayes класифікатором та функції ранжування BM25. Метод вирізняється реалізацією процесу навчання на динамічно поновлюваній множині коротких інформаційних повідомлень з достовірних джерел. Це забезпечує вирішення задачі оперативного розпізнавання фейків із точністю у діапазоні від 85% до 93% для їх бінарного маркування в умовах значної кількості, щільності потоку та обмеженості за змістом окремого повідомлення. У порівнянні з відомою стратегією NLP, яка базується на використанні статистичної міри TF-IDF без інтеграції Naive Bayes класифікатора, відсоток точності класифікації тексту становить від 80% до 90%. Таким чином, запропонований метод дозволив підвищити ефективність розпізнавання фейкових новин в мережі Інтернет в середньому на 2,5%. Удосконалено спосіб бінарної класифікації та маркування фейкових новин, якій базується на використанні Naive Bayes класифікатора та функції ранжування BM25 та відрізняється адаптивним вибором параметрів функції ранжування за експериментальними даними, отриманими як результат частотного аналізу новин з достовірних джерел. Це дозволяє підвищити точність класифікації текстових даних на 14% на динамічно оновлюваній множині коротких інформаційних повідомлень без втрати швидкодії у порівнянні з відомими реалізаціями етапу класифікації фейкових новин в мережі Інтернет. Удосконалено спосіб контент-аналізу фейкових новин, що базується на використання схеми навчання без вчителя. Спосіб вирізняється використанням динамічно змінюваного за переліком джерел і змістом контенту DataSet масиву з достовірних джерел, за яким формується словник для розпізнавання фейків. Це забезпечує оперативне формування ознак фейків з урахуванням значної динаміки змін їх стилю та сфери за коротким змістом повідомлення. Отримано подальший розвиток інформаційної технології оперативного розпізнавання фейкових новин за обмеженою апріорною інформацією, яка базується на впровадженні розробленого у ході досліджень методу. Інформаційна технологія вирізняється можливістю розпізнавання і бінарного маркування фейків на пристроях із низькою продуктивністю, енергоспоживанням та із тимчасовою відсутністю доступу до глобальних інформаційних мереж. Результати проведених експериментів запропонованої інформаційної технології реалізації оперативного розпізнавання фейкових новин за обмеженою апріорною інформацією показали потенціал із високою стійкістю формувати бінарну оцінку із маркування фейків для споживачів з критичними умовами доступності. Також можливість оперативного розпізнавання і бінарного маркування фейків на пристроях із низькою продуктивністю, енергоспоживанням та із тимчасовою відсутністю доступу до глобальних інформаційних мереж. Розроблене комплексне серверне програмне забезпечення дозволить реалізувати моделі NLP та підготувати її для застосування запропонованого методу розпізнавання фейкових новин у мережі Інтернет. Результат роботи комплексу – оперативне маркування фейкових повідомлень користувачам мобільних пристроїв. Програмне забезпечення може бути інтегровано в інформаційно-аналітичні ресурси в мережі Інтернет, а також використано для реалізації хмарних сервісів розпізнавання фейкових новин у мережі Інтернет. Таким чином, актуальність тематики дисертаційного дослідження полягає у вирішенні задачі оперативного розпізнавання фейкових повідомлень – нових в умовах їх значної кількості, щільності потоку та обмеженості за змістом окремого повідомлення.
dc.description.abstractotherMishchenko L.D. The method of recognizing fake news on the Internet based on Natural Language Processing. – Qualifying scientific work on manuscript rights. Dissertation for obtaining the scientific degree of Doctor of Philosophy in specialty 123 - Computer engineering from the field of knowledge 12 - Information technologies. - National Technical University of Ukraine «Igor Sikorsky Kyiv Polytechnic Institute», Kyiv, 2024. In the dissertation work, an urgent scientific and applied problem of prompt recognition and labeling of fake news messages has been addressed with limited prior information to solve the task of prompt fake recognition and neutralization of their negative impact through labeling in conditions of significant volume, density of flow, and content limitations of individual messages. An analysis of measures of informational and information-psychological influence (IPI) has been conducted. It has been determined that the objects of IPI can be citizens, specific population categories, leaders of various levels; the goals of IPI can be changing opinions, moods, and prompting actions. Depending on these components, IPI can have different scales, forms, methods, and means. Sets of ways of implementing IPI have been analyzed, and it has been determined that the most common and effective ones are spreading deceptive information through fake news. It has been researched that the means of implementing fakes are short informational messages, publications disseminated dominantly by electronic media through news websites, social networks, messenger information channels. Forms of fakes can include textual, voice messages in natural language, images, videos, but the dominance belongs to messages in natural language conveying fake content in news format. It has been analyzed that most traditional approaches to fake detection are based on the comprehensive application of main groups of indicators, which only provide a posteriori result at the level of refutation and do not correspond to the principles of promptness - reality of time scale: spreading fakes and achieving their result before their neutralization. It has been determined that the main indicator of the quality of counteracting fakes is not so much the accuracy of their identification as the promptness of recognition and labeling. An analysis of high requirements for the promptness of fake recognition in conditions of their significant volume, flow density, and content limitations of individual messages has been conducted, and the method of fake detection as content message analysis has been chosen. Specifics of processes for prompt and comprehensive solving of tasks of recognition and labeling of fake news have been determined. The use of frequency analysis of text tokens of short informational messages and the formation of a fake dictionary on a dynamically updated set of messages have been analyzed. An analysis of the statistical criterion of Bayes, adapted to the linguistic stylistics of decision-making messages about fakes and their labeling, and the feasibility of applying unsupervised machine learning methods has been made. An analysis of the results of using the rapid detection method of fake news with limited prior information has been conducted. This method is based on the complex synergistic combination of natural language processing processes: frequency analysis of text tokens in short informational messages, improved content analysis method for fake news, binary message classification using an improved Naive Bayes classifier, and BM25 ranking function. The method stands out for implementing the learning process on a dynamically updated set of short informational messages from credible sources. This ensures the solution to the problem of rapid detection of fakes with an accuracy ranging from 85% to 93% for their binary labeling under conditions of significant quantity, flow density, and content limitation of individual messages. Compared with the known NLP strategy, which is based on using the TF-IDF statistical measure without integrating the Bayes classifier, the classification accuracy percentage of the text ranges from 80% to 90%. Thus, the proposed method increased the efficiency of detecting fake news on the Internet by an average of 2.5%. The binary classification and labeling method of fake news has been improved using the Naive Bayes classifier and the BM25 ranking function. It is distinguished by the adaptive selection of ranking function parameters based on experimental data obtained from frequency analysis of news from credible sources. This allows for increasing the accuracy of text data classification by 14% on a dynamically updated set of short informational messages without sacrificing speed compared to known implementations of the fake news classification stage on the Internet. The content analysis method of fake news has been improved based on the use of unsupervised learning schemes. The method is characterized by using a dynamically changing list of sources and content of the DataSet array from credible sources, which forms a dictionary for fake detection. This ensures the rapid formation of fake features, taking into account significant changes in their style and content sphere based on the brief content of the message. The further development of information technology for real-time detection of fake news with limited prior information has been achieved, based on the implementation of a method developed during research. This information technology stands out for its ability to recognize and binary mark fakes on devices with low performance, energy consumption, and temporary lack of access to global information networks. The results of experiments with the proposed information technology for realtime detection of fake news with limited prior information have shown the potential to provide a binary assessment with high resilience in marking fakes for consumers under critical availability conditions. Additionally, there is the possibility of real-time detection and binary marking of fakes on devices with low performance, energy consumption, and temporary lack of access to global information networks. Thus, the relevance of the dissertation research lies in solving the problem of rapid detection of fake messages – news in new conditions of their significant quantity, flow density, and content limitation of individual messages.
dc.format.extent232 с.
dc.identifier.citationМіщенко, Л. Д. Метод розпізнавання фейкових новин у мережі інтернет на основі обробки природної мови : дис. … д-ра філософії : 123 Комп’ютерна інженерія / Міщенко Людмила Дмитрівна. – Київ, 2024. – 232 c.
dc.identifier.urihttps://ela.kpi.ua/handle/123456789/68509
dc.language.isouk
dc.publisherКПІ ім. Ігоря Сікорського
dc.publisher.placeКиїв
dc.subjectобробка природної мови
dc.subjectNLP
dc.subjectфейкові новини
dc.subjectмережа Інтернет
dc.subjectінтелектуальний аналіз даних
dc.subjectфункція ранжування BM25
dc.subjectNaїve Bayes класифікатор
dc.subjectмашинне навчання
dc.subjectстатистичне навчання
dc.subjectочищення даних
dc.subjectмодель
dc.subjectконтент аналіз
dc.subjectінформаційна технологія
dc.subjectNatural Language Processing
dc.subjectfake news
dc.subjectInternet
dc.subjectintelligent data analysis
dc.subjectBM25 ranking function
dc.subjectNaїve Bayes classifier
dc.subjectmachine learning
dc.subjectstatistical learning
dc.subjectdata cleaning
dc.subjectmodel
dc.subjectcontent analysis
dc.subjectinformation technology
dc.subject.udc004.75 (004.62)
dc.titleМетод розпізнавання фейкових новин у мережі інтернет на основі обробки природної мови
dc.typeThesis Doctoral

Файли

Контейнер файлів
Зараз показуємо 1 - 1 з 1
Вантажиться...
Ескіз
Назва:
Mishchenko_dys.pdf
Розмір:
6.4 MB
Формат:
Adobe Portable Document Format
Ліцензійна угода
Зараз показуємо 1 - 1 з 1
Ескіз недоступний
Назва:
license.txt
Розмір:
8.98 KB
Формат:
Item-specific license agreed upon to submission
Опис: