Методи класифікації текстових даних для виявлення пропаганди

dc.contributor.advisorГавриленко, Олена Валеріївна
dc.contributor.authorХанько, Ганна Вадимівна
dc.date.accessioned2019-01-30T11:21:44Z
dc.date.available2019-01-30T11:21:44Z
dc.date.issued2018
dc.description.abstractenTopicality. Propaganda has existed in traditional media for many years, and with the development of the Internet, it is gradually penetrating social media. This is due to the daily increase in textual information on the Internet. Indeed, propaganda is so powerful that everyone is prone to it. The main channel through which the society accepts propaganda, are the means of mass communication. The statistics of the credibility of the media is impressive. Information dissemination is an industry with a turnover of more than four hundred billion dollars per year, half of them are spent on mass propaganda. Every person thinks verbally and is therefore more or less influenced by what sales professionals, politicians, journalists, fraudsters, sect organizers, special services and terrorists skillfully use. Consequently, a necessary task is to create an informational and psychological security tool designed to check textual content for the presence of special linguistic structures and phrases that facilitate non-critical analysis of information. The aim of the research is is the development of an algorithm designed to check the text content for the presence of special linguistic structures and turns, which contribute to the non-critical analysis of information. To achieve this goal it is necessary to perform the following tasks: - analyze the algorithms and methods of machine learning to solve the problem of automatic text classification; - select a model for the presentation of textual information in the classifier; - develop an algorithm for preprocessing of texts in accordance with the selected model for the presentation of textual information; - develop a modified method for classifying textual information; - perform the software implementation of the developed algorithm for automatic classification of textual information; - prepare data for assessing the quality of classification; - conduct research on the effectiveness of the developed information technology. The object of the study is the process of classifying text data. The object of research is the process of classifying text information. The subject of research is the methods of classifying text data to identify propaganda. Research methods are machine learning methods based on text mining techniques. Scientific novelty of the obtained results. The modified text data classification method has been developed for identifying text data using the previous sentimental analysis, Dirichlet Latent Allocation and the TextRank algorithm. TextRank algorithm was improved by taking into account the position of the word in the text. Publications. The research results were published in the journal "Modern directions of development of information and communication technologies and management tools" [1], published in the theses of the scientific conference of students, undergraduates and graduate students "Computer Science and Computer Engineering" - IOT-2018 [2], published in the journal "World Congress "Aviation in the 21st century" [3].uk
dc.description.abstractukАктуальність. Пропаганда існує в традиційних засобах масової інформації протягом багатьох років, і з розвитком Інтернету поступово проникає і у соціальні медіа. Це обумовлено щоденним збільшенням текстової інформації на просторах всесвітньої мережі інтернет. Дійсно, пропаганда настільки потужна, що всі схильні до цього. Основним каналом, по якому соціум приймає пропаганду, є засоби масової комунікації. Статистика переконливості засобів масової інформації вражаюча. Поширення інформації - це індустрія з оборотами більш ніж в 400 мільярдів доларів на рік, з яких 206 мільярдів витрачаються на масову пропаганду. Кожна людина мислить вербально і тому в тій чи іншій мірі піддається впливу, чим вміло користуються фахівці з продажу, політики, медійники, шахраї, організатори сект, спецслужби і терористи. Отже, необхідною задачею є створення інструменту інформаційно-психологічної безпеки, призначеного для перевірки текстового контенту на наявність спеціальних лінгвістичних конструкцій та оборотів, які сприяють некритичному аналізу інформації. Метою дослідження є створення алгоритму, призначеного для перевірки текстового контенту на наявність спеціальних лінгвістичних конструкцій та оборотів, які сприяють некритичному аналізу інформації. Для досягнення поставленої мети необхідно виконати наступні завдання: - проаналізувати алгоритми та методи машинного навчання для вирішення задачі автоматичної класифікації текстів; - обрати модель представлення текстової інформації в класифікаторі; - розробити алгоритм попередньої обробки текстів відповідно до обраної моделі представлення текстової інформації; - розробити модифікований метод класифікації текстової інформації; - виконати програмну реалізацію розробленого алгоритму автоматичної класифікації текстової інформації; - підготувати дані для оцінки якості класифікації; - провести дослідження ефективності розробленої інформаційної технології. Об’єктом дослідження є процес класифікації текстових даних. Предметом дослідження є методи класифікації текстових даних для виявлення пропаганди. Методами дослідження є методи машинного навчання, які базуються на методах text mining. Наукова новизна отриманих результатів. Розроблено модифікований метод класифікації текстових даних для виявлення текстових даних, що використовує попередній сентиментальний аналіз, латентне розміщення Дирихле та алгоритм TextRank. Алгоритм TextRank було покращено завдяки врахування позиції слова у тексті. Публікації. Результати досліджень опубліковані в журналі «Сучасні напрями розвитку інформаційно-комунікаційних технологій та засобів управління» [1], опубліковано в тезах наукової конференції студентів, магістрантів та аспірантів «Інформатика та обчислювальна техніка» – ІОТ-2018 [2], опубліковані в журналі “World Congress “Aviation in 21st century”[3].uk
dc.format.page79 с.uk
dc.identifier.citationХанько, Г. В. Методи класифікації текстових даних для виявлення пропаганди : магістерська дис. : 126 Інформаційні системи та технології / Ханько Ганна Вадимівна. – Київ, 2018. – 79 с.uk
dc.identifier.urihttps://ela.kpi.ua/handle/123456789/26128
dc.language.isoukuk
dc.publisher.placeКиївuk
dc.subjectмашинне навчанняuk
dc.subjecttext mininguk
dc.subjectінтелектуальний аналіз данихuk
dc.subjectтекстовий класифікаторuk
dc.subjectаналіз контентуuk
dc.subjectалгоритми класифікаціїuk
dc.subjectmachine learninguk
dc.subjectdata mininguk
dc.subjecttext classifieruk
dc.subjectcontent analysisuk
dc.subjectclassification algorithmsuk
dc.subject.udc519.68uk
dc.titleМетоди класифікації текстових даних для виявлення пропагандиuk
dc.typeMaster Thesisuk

Файли

Контейнер файлів
Зараз показуємо 1 - 1 з 1
Ескіз недоступний
Назва:
Khanko_magistr.docx
Розмір:
5.51 MB
Формат:
Microsoft Word XML
Опис:
Ліцензійна угода
Зараз показуємо 1 - 1 з 1
Ескіз недоступний
Назва:
license.txt
Розмір:
7.74 KB
Формат:
Item-specific license agreed upon to submission
Опис: