Створення навчальних даних для виявлення згенерованих новин

Вантажиться...
Ескіз

Дата

2024

Науковий керівник

Назва журналу

Номер ISSN

Назва тому

Видавець

КПІ ім. Ігоря Сікорського

Анотація

Структура та обсяг магістерської дисертації. Магістерська дисертація складається зі вступу, 6 розділів, висновків, 21 посилань на джерела. Обсяг дисертації 89 сторінок, котрі містять 12 рисунків. Актуальність теми. Сучасний інформаційний простір переповнений згенерованими новинами, що ускладнює процес верифікації фактів т підриває довіру до медіа-ресурсів. Розвиток алгоритмів та моделей, здатних відрізнити автентичні повідомлення від штучно створених, є ключовим для забезпечення сталого розвитку медійної галузі та інформаційної безпеки суспільства. Створення навчальних даних для таких алгоритмів та моделей і визначає актуальність обраної теми. Мета і задачі дослідження. Метою є створення програмного продукту для автоматизованого формування набору данних шляхом автоматизованого збору новин, написаних людиною та генерування текстів на ті ж теми за допомогою великих мовних моделей. Такі набори даних необхідні для навчання класифікаторів, здатних розрізняти тексти, згенеровані штучним інтелектом, від текстів, написаних людиною. Основними завданнями є: - проаналізувати конкурентів, які вже наявні на ринку; - розробити алгоритм збору новинних статей, які написані людиною; - визначити засоби розробки та інструменти, необхідні для програмної реалізації проєкту; - розробити алгоритм генерування новинних статей на тему кожної статті, написаної людиною; - виконати тестову перевірку розрізнення згенерованих та написаних людиною новин засобами ChatGPT API. Методи дослідження. У даному дослідженні для досягнення мети роботи використовувалися такі методи дослідження: аналіз ринку для оцінювання існуючих рішень та визначення ніші нової системи, методи обробки природної мови для розпізнавання іменованих сутностей, алгоритми машинного навчання для класифікації текстів, а також програмування для розробки алгоритмів збору даних та їх генерування. Водночас, застосовано загальнонаукові методи, такі як методи аналізу та порівняння, які використовувалися при розгляді існуючих продуктів, алгоритмів та інших засобів. Важливим став метод синтезу, що застосовувався при розробці нових алгоритмів та засобів. Крім того, методи об'єктно-орієнтованого проєктування та реалізації були ключовими в процесі розробки програмного застосунку, а методи обробки природної мови сприяли ефективному виявленню іменованих сутностей. Практичне значення одержаних результатів. Розроблена система може бути застосована для підготовки актуальних наборів даних, необхідних для навчання моделей, здатних розрізняти згенеровані штучним інтелектом тексти новин від новинних статей, написаних людьми. Такі моделі, в свою чергу, необхідні новинним агенціям та інформаційним порталам для автоматизованої перевірки новин на предмет їх автентичності. Це значно підвищить швидкість та надійність виявлення згенерованих новин, мінімізуючи ризики поширення дезінформації. Об’єктом дослідження є генерування текстів, паралельних новинним статтям. Предметом дослідження є генерування текстів подібних новинним статтям українською мовою.

Опис

Ключові слова

згенеровані новини, штучний інтелект, автентичність інформації, мовні моделі, згенеровані новини, навчальні дані, фейкові новини, велика мовна модель, створення навчальних даних

Бібліографічний опис

Заболоцький, М. О. Створення навчальних даних для виявлення згенерованих новин : магістерська дис. : 121 Інженерія програмного забезпечення / Заболоцький Михайло Олександрович. - Київ, 2024. - 120 с.

DOI