Генерування корпусів текстових даних на основі детермінованого методу
Вантажиться...
Дата
2021
Автори
Науковий керівник
Назва журналу
Номер ISSN
Назва тому
Видавець
КПІ ім. Ігоря Сікорського
Анотація
Проблематика. Розв’язання великої кількості задач у галузі оброблення природної мови передбачає використання корпусів текстових даних, що зумовлює актуальність підготовки останніх. Їх формування на основі справжніх текстів потребує часових витрат, а також є не завжди доцільним. Тому популярності набуває автоматизоване генерування корпусів на основі різних методів й алгоритмів, що значно спрощує підготовку експериментальних даних. Мета дослідження. Збільшити кількість знаходжуваних дефектів під час тестування програмних реалізацій методів оброблення природномовних текстових даних, розробивши новий метод генерування корпусів текстових даних задля їх використання як вхідних даних для тестування. Методика реалізації. Запропоновано детермінований метод генерації корпусів текстових даних CorDeGen (від Corpora Deterministic Generation), що задовольняє такі вимоги: детермінованість; залежність на вході лише від бажаної кількості термів у корпусі, що генерується; забезпечення генерування корпусу нетривіальної структури. На основі запропонованого методу розроблено відповідний алгоритм, а також виконано програмну реалізацію на платформі .NET (мова програмування – C#). За допомогою цієї програмної реалізації оцінено швидкодію та ефективність розробленого методу. Результати дослідження. Оцінювання швидкодії розробленого методу CorDeGen показало степеневу залежність часу генерування корпусу від кількості термів (вхідного параметра) з показником степеня близьким до 1,5. У межах дослідження доцільність використання розробленого методу для тестування коректності програмних реалізацій показана на прикладі тестування методу кластеризації kсередніх. Висновки. Тестування створеного детермінованого методу генерації корпусів текстових даних довело його ефективність при тестуванні інших методів оброблення природномовних даних, як-от кластеризації, замість природних корпусів.
Опис
Ключові слова
корпус текстових даних, генерація корпусів, оброблення природномовних даних, кластеризація даних, метод k-means, метод k-середніх, корпус текстовых данных, генерация корпусов, обработка естественноязычных данных, кластеризация данных, метод k-средних, corpus of text data, corpora generation, natural language processing, data clustering, k-means method
Бібліографічний опис
Юсин, Я. О. Генерування корпусів текстових даних на основі детермінованого методу / Я. О. Юсин, Т. М. Заболотня // Наукові вісті КПІ : міжнародний науково-технічний журнал. – 2021. – № 3(133). – С. 38–45. – Бібліогр.: 12 назв.