Генерування корпусів текстових даних на основі детермінованого методу

Юсин, Я. О.; Заболотня, Т. М.

Генерування корпусів текстових даних на основі детермінованого методу

Файли

240780-580111-1-10-20220207.pdf (356.94 KB)

Дата

2021

Автори

Юсин, Я. О.

Заболотня, Т. М.

Видавець

КПІ ім. Ігоря Сікорського

Анотація

Проблематика. Розв’язання великої кількості задач у галузі оброблення природної мови передбачає використання корпусів текстових даних, що зумовлює актуальність підготовки останніх. Їх формування на основі справжніх текстів потребує часових витрат, а також є не завжди доцільним. Тому популярності набуває автоматизоване генерування корпусів на основі різних методів й алгоритмів, що значно спрощує підготовку експериментальних даних. Мета дослідження. Збільшити кількість знаходжуваних дефектів під час тестування програмних реалізацій методів оброблення природномовних текстових даних, розробивши новий метод генерування корпусів текстових даних задля їх використання як вхідних даних для тестування. Методика реалізації. Запропоновано детермінований метод генерації корпусів текстових даних CorDeGen (від Corpora Deterministic Generation), що задовольняє такі вимоги: детермінованість; залежність на вході лише від бажаної кількості термів у корпусі, що генерується; забезпечення генерування корпусу нетривіальної структури. На основі запропонованого методу розроблено відповідний алгоритм, а також виконано програмну реалізацію на платформі .NET (мова програмування – C#). За допомогою цієї програмної реалізації оцінено швидкодію та ефективність розробленого методу. Результати дослідження. Оцінювання швидкодії розробленого методу CorDeGen показало степеневу залежність часу генерування корпусу від кількості термів (вхідного параметра) з показником степеня близьким до 1,5. У межах дослідження доцільність використання розробленого методу для тестування коректності програмних реалізацій показана на прикладі тестування методу кластеризації kсередніх. Висновки. Тестування створеного детермінованого методу генерації корпусів текстових даних довело його ефективність при тестуванні інших методів оброблення природномовних даних, як-от кластеризації, замість природних корпусів.

Ключові слова

корпус текстових даних, генерація корпусів, оброблення природномовних даних, кластеризація даних, метод k-means, метод k-середніх, корпус текстовых данных, генерация корпусов, обработка естественноязычных данных, кластеризация данных, метод k-средних, corpus of text data, corpora generation, natural language processing, data clustering, k-means method

Бібліографічний опис

Юсин, Я. О. Генерування корпусів текстових даних на основі детермінованого методу / Я. О. Юсин, Т. М. Заболотня // Наукові вісті КПІ : міжнародний науково-технічний журнал. – 2021. – № 3(133). – С. 38–45. – Бібліогр.: 12 назв.

URI

https://ela.kpi.ua/handle/123456789/59094

DOI

https://doi.org/10.20535/kpisn.2021.3.240780

Зібрання

Наукові вісті КПІ: міжнародний науково-технічний журнал, № 3(133)

Повна інформація про документ

Генерування корпусів текстових даних на основі детермінованого методу

Файли

Дата

Автори

Науковий керівник

Назва журналу

Номер ISSN

Назва тому

Видавець

Анотація

Опис

Ключові слова

Бібліографічний опис

ORCID

URI

DOI

Зібрання