Генерування корпусів текстових даних на основі детермінованого методу
Loading...
Date
2021
Authors
Advisor
Journal Title
Journal ISSN
Volume Title
Publisher
КПІ ім. Ігоря Сікорського
Abstract
Проблематика. Розв’язання великої кількості задач у галузі оброблення природної мови передбачає використання корпусів текстових даних, що зумовлює актуальність підготовки останніх. Їх формування на основі справжніх текстів потребує часових витрат, а також є не завжди доцільним. Тому популярності набуває автоматизоване генерування корпусів на основі різних методів й алгоритмів, що значно спрощує підготовку експериментальних даних. Мета дослідження. Збільшити кількість знаходжуваних дефектів під час тестування програмних реалізацій методів оброблення природномовних текстових даних, розробивши новий метод генерування корпусів текстових даних задля їх використання як вхідних даних для тестування. Методика реалізації. Запропоновано детермінований метод генерації корпусів текстових даних CorDeGen (від Corpora Deterministic Generation), що задовольняє такі вимоги: детермінованість; залежність на вході лише від бажаної кількості термів у корпусі, що генерується; забезпечення генерування корпусу нетривіальної структури. На основі запропонованого методу розроблено відповідний алгоритм, а також виконано програмну реалізацію на платформі .NET (мова програмування – C#). За допомогою цієї програмної реалізації оцінено швидкодію та ефективність розробленого методу. Результати дослідження. Оцінювання швидкодії розробленого методу CorDeGen показало степеневу залежність часу генерування корпусу від кількості термів (вхідного параметра) з показником степеня близьким до 1,5. У межах дослідження доцільність використання розробленого методу для тестування коректності програмних реалізацій показана на прикладі тестування методу кластеризації kсередніх. Висновки. Тестування створеного детермінованого методу генерації корпусів текстових даних довело його ефективність при тестуванні інших методів оброблення природномовних даних, як-от кластеризації, замість природних корпусів.
Description
Keywords
корпус текстових даних, генерація корпусів, оброблення природномовних даних, кластеризація даних, метод k-means, метод k-середніх, корпус текстовых данных, генерация корпусов, обработка естественноязычных данных, кластеризация данных, метод k-средних, corpus of text data, corpora generation, natural language processing, data clustering, k-means method
Citation
Юсин, Я. О. Генерування корпусів текстових даних на основі детермінованого методу / Я. О. Юсин, Т. М. Заболотня // Наукові вісті КПІ : міжнародний науково-технічний журнал. – 2021. – № 3(133). – С. 38–45. – Бібліогр.: 12 назв.