Створення навчальних даних для виявлення згенерованих новин

dc.contributor.advisorСтативка, Юрій Іванович
dc.contributor.authorЗаболоцький, Михайло Олександрович
dc.date.accessioned2024-02-02T09:44:10Z
dc.date.available2024-02-02T09:44:10Z
dc.date.issued2024
dc.description.abstractСтруктура та обсяг магістерської дисертації. Магістерська дисертація складається зі вступу, 6 розділів, висновків, 21 посилань на джерела. Обсяг дисертації 89 сторінок, котрі містять 12 рисунків. Актуальність теми. Сучасний інформаційний простір переповнений згенерованими новинами, що ускладнює процес верифікації фактів т підриває довіру до медіа-ресурсів. Розвиток алгоритмів та моделей, здатних відрізнити автентичні повідомлення від штучно створених, є ключовим для забезпечення сталого розвитку медійної галузі та інформаційної безпеки суспільства. Створення навчальних даних для таких алгоритмів та моделей і визначає актуальність обраної теми. Мета і задачі дослідження. Метою є створення програмного продукту для автоматизованого формування набору данних шляхом автоматизованого збору новин, написаних людиною та генерування текстів на ті ж теми за допомогою великих мовних моделей. Такі набори даних необхідні для навчання класифікаторів, здатних розрізняти тексти, згенеровані штучним інтелектом, від текстів, написаних людиною. Основними завданнями є: - проаналізувати конкурентів, які вже наявні на ринку; - розробити алгоритм збору новинних статей, які написані людиною; - визначити засоби розробки та інструменти, необхідні для програмної реалізації проєкту; - розробити алгоритм генерування новинних статей на тему кожної статті, написаної людиною; - виконати тестову перевірку розрізнення згенерованих та написаних людиною новин засобами ChatGPT API. Методи дослідження. У даному дослідженні для досягнення мети роботи використовувалися такі методи дослідження: аналіз ринку для оцінювання існуючих рішень та визначення ніші нової системи, методи обробки природної мови для розпізнавання іменованих сутностей, алгоритми машинного навчання для класифікації текстів, а також програмування для розробки алгоритмів збору даних та їх генерування. Водночас, застосовано загальнонаукові методи, такі як методи аналізу та порівняння, які використовувалися при розгляді існуючих продуктів, алгоритмів та інших засобів. Важливим став метод синтезу, що застосовувався при розробці нових алгоритмів та засобів. Крім того, методи об'єктно-орієнтованого проєктування та реалізації були ключовими в процесі розробки програмного застосунку, а методи обробки природної мови сприяли ефективному виявленню іменованих сутностей. Практичне значення одержаних результатів. Розроблена система може бути застосована для підготовки актуальних наборів даних, необхідних для навчання моделей, здатних розрізняти згенеровані штучним інтелектом тексти новин від новинних статей, написаних людьми. Такі моделі, в свою чергу, необхідні новинним агенціям та інформаційним порталам для автоматизованої перевірки новин на предмет їх автентичності. Це значно підвищить швидкість та надійність виявлення згенерованих новин, мінімізуючи ризики поширення дезінформації. Об’єктом дослідження є генерування текстів, паралельних новинним статтям. Предметом дослідження є генерування текстів подібних новинним статтям українською мовою.uk
dc.description.abstractotherStructure and scope of a master's thesis. The master's thesis consists of an introduction, 6 chapters, conclusions, and 21 references. The volume of the dissertation is 98 pages, which contains 12 figures. Relevance of the topic. The modern information space is full of generated news, which complicates the process of fact-checking and undermines trust in media resources. The development of algorithms and models that can distinguish authentic messages from artificially generated ones is key to ensuring the sustainable development of the media industry and the information security of society. The creation of training data for such algorithms and models determines the relevance of the chosen topic. The purpose and objectives of the study. The goal is to create a software product for automated dataset generation by automated collection of news articles written by humans and generating texts on the same topics using large language models. Such datasets are needed to train classifiers that can distinguish between texts generated by artificial intelligence and texts written by humans. The main tasks are as follows: - analyze competitors already present on the market; - develop an algorithm for collecting news articles written by humans; - identify the development tools and tools necessary for the programmatic implementation of the project; - develop an algorithm for generating news articles on the topic of each article written by a human;; - perform a test to distinguish between human-generated and human-written news articles using the ChatGPT API. Research methods. In this study, the following research methods were used to achieve the goal of the work: market analysis to evaluate existing solutions and determine the niche of the new system, natural language processing methods for recognizing named entities, machine learning algorithms for text classification, and programming to develop algorithms for data collection and data generation. At the same time, general scientific methods, such as analysis and comparison methods, were applied to review existing products, algorithms, and other tools. The method of synthesis, which was used to develop new algorithms and tools, was also important. In addition, object-oriented design and implementation methods were key in the process of developing the software application, and natural language processing methods contributed to the effective detection of named entities. Practical significance of the results. The developed system can be used to prepare up-to-date datasets necessary for training models capable of distinguishing between artificially generated news texts and news articles written by humans. Such models, in turn, are needed by news agencies and information portals to automate news verification for authenticity. This will significantly increase the speed and reliability of detecting generated news, minimizing the risks of spreading disinformation. The object of the study is the generation of texts parallel to news articles. The subject of the study is the generation of texts similar to news articles in the Ukrainian language.uk
dc.format.extent120 с.uk
dc.identifier.citationЗаболоцький, М. О. Створення навчальних даних для виявлення згенерованих новин : магістерська дис. : 121 Інженерія програмного забезпечення / Заболоцький Михайло Олександрович. - Київ, 2024. - 120 с.uk
dc.identifier.urihttps://ela.kpi.ua/handle/123456789/64245
dc.language.isoukuk
dc.publisherКПІ ім. Ігоря Сікорськогоuk
dc.publisher.placeКиївuk
dc.subjectзгенеровані новиниuk
dc.subjectштучний інтелектuk
dc.subjectавтентичність інформаціїuk
dc.subjectмовні моделіuk
dc.subjectзгенеровані новиниuk
dc.subjectнавчальні даніuk
dc.subjectфейкові новиниuk
dc.subjectвелика мовна модельuk
dc.subjectстворення навчальних данихuk
dc.subject.udc004.4uk
dc.titleСтворення навчальних даних для виявлення згенерованих новинuk
dc.typeMaster Thesisuk

Файли

Контейнер файлів
Зараз показуємо 1 - 1 з 1
Вантажиться...
Ескіз
Назва:
Zabolotskyi_magistr.pdf
Розмір:
3.32 MB
Формат:
Adobe Portable Document Format
Опис:
Ліцензійна угода
Зараз показуємо 1 - 1 з 1
Ескіз недоступний
Назва:
license.txt
Розмір:
1.71 KB
Формат:
Item-specific license agreed upon to submission
Опис: