Генерування корпусів текстових даних на основі детермінованого методу

Юсин, Я. О.Заболотня, Т. М.2023-08-092023-08-092021Юсин, Я. О. Генерування корпусів текстових даних на основі детермінованого методу / Я. О. Юсин, Т. М. Заболотня // Наукові вісті КПІ : міжнародний науково-технічний журнал. – 2021. – № 3(133). – С. 38–45. – Бібліогр.: 12 назв.https://ela.kpi.ua/handle/123456789/59094Проблематика. Розв’язання великої кількості задач у галузі оброблення природної мови передбачає використання корпусів текстових даних, що зумовлює актуальність підготовки останніх. Їх формування на основі справжніх текстів потребує часових витрат, а також є не завжди доцільним. Тому популярності набуває автоматизоване генерування корпусів на основі різних методів й алгоритмів, що значно спрощує підготовку експериментальних даних. Мета дослідження. Збільшити кількість знаходжуваних дефектів під час тестування програмних реалізацій методів оброблення природномовних текстових даних, розробивши новий метод генерування корпусів текстових даних задля їх використання як вхідних даних для тестування. Методика реалізації. Запропоновано детермінований метод генерації корпусів текстових даних CorDeGen (від Corpora Deterministic Generation), що задовольняє такі вимоги: детермінованість; залежність на вході лише від бажаної кількості термів у корпусі, що генерується; забезпечення генерування корпусу нетривіальної структури. На основі запропонованого методу розроблено відповідний алгоритм, а також виконано програмну реалізацію на платформі .NET (мова програмування – C#). За допомогою цієї програмної реалізації оцінено швидкодію та ефективність розробленого методу. Результати дослідження. Оцінювання швидкодії розробленого методу CorDeGen показало степеневу залежність часу генерування корпусу від кількості термів (вхідного параметра) з показником степеня близьким до 1,5. У межах дослідження доцільність використання розробленого методу для тестування коректності програмних реалізацій показана на прикладі тестування методу кластеризації kсередніх. Висновки. Тестування створеного детермінованого методу генерації корпусів текстових даних довело його ефективність при тестуванні інших методів оброблення природномовних даних, як-от кластеризації, замість природних корпусів.ukкорпус текстових данихгенерація корпусівоброблення природномовних данихкластеризація данихметод k-meansметод k-середніхкорпус текстовых данныхгенерация корпусовобработка естественноязычных данныхкластеризация данныхметод k-среднихcorpus of text datacorpora generationnatural language processingdata clusteringk-means methodГенерування корпусів текстових даних на основі детермінованого методуГенерация корпусов текстовых данных на основе детерминированного методаText data corpora generation on the basis of the deterministic methodArticlePp. 38-45https://doi.org/10.20535/kpisn.2021.3.240780004.021:004.910000-0001-6971-38080000-0001-8570-7571