Виявлення нових тем фейкових новин та їх джерел використовуючи методи глибокого навчання

dc.contributor.advisorКислий, Роман Володимирович
dc.contributor.authorОрловський, Артем Володимирович
dc.date.accessioned2024-05-08T08:09:27Z
dc.date.available2024-05-08T08:09:27Z
dc.date.issued2024
dc.description.abstractАктуальність. Дедалі більшу популярність набуває використання різних новинних веб ресурсів у мережі Інтернет та соціальних мережах для поширення інформації. Набираючи деяку аудиторію читачів та користуючись їх довірою, такі джерела починають розповсюджувати фейкові новини чи маніпуляції. Тому ідея захисту населення від дезінформації та поширення маніпулятивного впливу в умовах війни є вкрай гострою й необхідною в сьогоденні. Використання сучасних технологій є необхідним фактором у боротьбі із поширенням фейкових даних. При чому, основна задача полягає в швидкому автоматичному аналізі інформації, а також розповсюдженні спростувань та правдивих фактів. Тому розробка нових алгоритмів пошуку та аналізу потоку новин являється вкрай актуальною задачею. Метою дослідження є полегшення виявлення елементів дезінформації за рахунок створення методу та алгоритму для перевірки потоку текстових даних на наявність елементів дезінформації у вигляді лінгвістичних конструкцій та оборотів, які вказують на неправдивість представленої інформації. Для досягнення мети поставлено і виконано такі завдання: 1. Дослідження структури новин, фейкових новин 2. Дослідження методів детекції фейкових новин 3. Збір актуальних даних та датасету, структуризація і обробка даних 4. Розробка алгоритму для виявлення фейків та їх джерел 5. Реалізація програмного забезпечення у вигляді веб додатка з сервісною архітектурою з використанням глибоких моделей машинного навчання як сервіси. Об’єкт дослідження – фейкові новини у контексті загальної системи засобів масової інформації та їх детекція. Предмет дослідження є способи виявлення елементів дезінформації в текстових потоках даних. Методами дослідження є методи комп’ютерної лінгвістики та машинного навчання для виявлення елементів дезінформації. Наукова новизна одержаних результатів роботи полягає у наступному: 1. Запропоновано спосіб детекції фейкових новин і їх джерел з джерел новин 2. Використано застосування великих мовних моделей як класифікаторів логічної зв'язності 3. Запропоновано побудову графу близьких новин з логічними зв'язками з допомогою поєднання методів векторного пошуку та класифікації natural language inference 4. Створено інтерактивний чат-асистент для пояснення результатів та отримання додаткової інформації у зовнішніх джерелах Особистий внесок здобувача. Магістерське дослідження є самостійно виконаною роботою, в якій відображено особистий авторський підхід та особисто отримані теоретичні та прикладні результати, що відносяться до вирішення задачі аналізу текстів з допомогою великих мовних моделей та графових алгоритмів як Natural Language Processing: inference, understanding і generation. Формулювання мети та завдань дослідження проводилось спільно з науковим керівником. Публікації: Методи аналізу новин /Орловський А. В., Кислий Р. В. // Системні науки та інформатика: збірник доповідей II науково-практичної конференції «Системні науки та інформатика» з нагоди 125-річчя КПІ ім. Ігоря Сікорського, 04 – 08 грудня 2023 року, Київ. – К., НН ІПСА КПІ ім. Ігоря Сікорського, 2023. – с. 325-329.
dc.description.abstractotherTopicality. The use of various news web resources on the Internet and social networks to disseminate information is gaining more and more popularity. Having gained a certain audience of readers and taking advantage of their trust, such sources begin to spread fake news or manipulation. Therefore, the idea of protecting the population from disinformation and the spread of manipulative influence in the conditions of war is extremely acute and necessary today. The use of modern technologies is a necessary factor in the fight against the spread of fake data. Moreover, the main task is the rapid automatic analysis of information, as well as the distribution of refutations and true facts. Therefore, the development of new algorithms for searching and analyzing the flow of news is an extremely urgent task. The purpose and objectives of the study is to facilitate the detection of elements of disinformation by creating a method and algorithm for checking the flow of textual data for the presence of elements of disinformation in the form of linguistic constructions and turns that indicate the falsity of the information presented. To achieve the goal, the following tasks were set and completed: 1. Study of the structure of news, fake news 2. Study of fake news detection methods 3. Collection of current data and dataset, data structuring and processing 4. Development of an algorithm for detecting fakes and their sources 5. Software implementation in the form of a web application with a service architecture using deep machine learning models as services. The object of the research is fake news in the context of the general system of mass media and their detection. The subject of the study is methods of identifying elements of disinformation in textual data streams. Research methods include methods of computational linguistics and machine learning to identify elements of misinformation. The scientific novelty of the obtained work results is as follows: 1. A method of detecting fake news and its sources from news sources is proposed 2. The use of large language models as classifiers of logical connectivity 3. It is proposed to build a graph of similar news with logical connections using a combination of vector search methods and natural language inference classification 4. Created an interactive chat assistant for explaining results and obtaining additional information from external sources Personal contribution of the applicant. The master's research is an independently completed work that reflects the author's personal approach and personally obtained theoretical and applied results related to solving the problem of text analysis using large language models and graph algorithms such as Natural Language Processing: inference, understanding and generation. Formulation of the goal and tasks of the research was carried out together with the scientific supervisor. Publication "Methods of news analysis /Orlovskyi A. V., Kyslyi R. V. // Systems Sciences and Informatics: Proceedings of the II Scientific-Practical Conference "Systems Sciences and Informatics" on the occasion of the 125th anniversary of Igor Sikorsky KPI, December 04-08, 2023, Kyiv. – K., NN IASA Igor Sikorsky KPI, 2023. – pp. 325-329.
dc.format.extent124 с.
dc.identifier.citationОрловський, А. В. Виявлення нових тем фейкових новин та їх джерел використовуючи методи глибокого навчання : магістерська дис. : 122 Комп’ютерні науки / Орловський Артем Володимирович. – Київ, 2024. – 124 с.
dc.identifier.urihttps://ela.kpi.ua/handle/123456789/66696
dc.language.isouk
dc.publisherКПІ ім. Ігоря Сікорського
dc.publisher.placeКиїв
dc.subjectТехнологія Natural Language Processing - NLP
dc.subjectRetrieval Augmented Generation - RAG
dc.subjectNatural Language Inference - NLI
dc.subjectprompt engineering
dc.subjectLarge Language Model - LLM
dc.subjecttransformer
dc.subjectapproximate nearest neighbors
dc.subjectфейк
dc.subjectNatural Language Processing - NLP
dc.subjectRetrieval Augmented Generation -RAG
dc.subjectNatural Language Inference -NLI
dc.subjectfake
dc.subject.udc004.42
dc.titleВиявлення нових тем фейкових новин та їх джерел використовуючи методи глибокого навчання
dc.typeMaster Thesis

Файли

Контейнер файлів
Зараз показуємо 1 - 1 з 1
Ескіз недоступний
Назва:
Orlovskyi_magistr.docx
Розмір:
8.17 MB
Формат:
Microsoft Word XML
Ліцензійна угода
Зараз показуємо 1 - 1 з 1
Ескіз недоступний
Назва:
license.txt
Розмір:
8.98 KB
Формат:
Item-specific license agreed upon to submission
Опис: