Генерування корпусів текстових даних на основі детермінованого методу
dc.contributor.author | Юсин, Я. О. | |
dc.contributor.author | Заболотня, Т. М. | |
dc.date.accessioned | 2023-08-09T15:36:12Z | |
dc.date.available | 2023-08-09T15:36:12Z | |
dc.date.issued | 2021 | |
dc.description.abstract | Проблематика. Розв’язання великої кількості задач у галузі оброблення природної мови передбачає використання корпусів текстових даних, що зумовлює актуальність підготовки останніх. Їх формування на основі справжніх текстів потребує часових витрат, а також є не завжди доцільним. Тому популярності набуває автоматизоване генерування корпусів на основі різних методів й алгоритмів, що значно спрощує підготовку експериментальних даних. Мета дослідження. Збільшити кількість знаходжуваних дефектів під час тестування програмних реалізацій методів оброблення природномовних текстових даних, розробивши новий метод генерування корпусів текстових даних задля їх використання як вхідних даних для тестування. Методика реалізації. Запропоновано детермінований метод генерації корпусів текстових даних CorDeGen (від Corpora Deterministic Generation), що задовольняє такі вимоги: детермінованість; залежність на вході лише від бажаної кількості термів у корпусі, що генерується; забезпечення генерування корпусу нетривіальної структури. На основі запропонованого методу розроблено відповідний алгоритм, а також виконано програмну реалізацію на платформі .NET (мова програмування – C#). За допомогою цієї програмної реалізації оцінено швидкодію та ефективність розробленого методу. Результати дослідження. Оцінювання швидкодії розробленого методу CorDeGen показало степеневу залежність часу генерування корпусу від кількості термів (вхідного параметра) з показником степеня близьким до 1,5. У межах дослідження доцільність використання розробленого методу для тестування коректності програмних реалізацій показана на прикладі тестування методу кластеризації kсередніх. Висновки. Тестування створеного детермінованого методу генерації корпусів текстових даних довело його ефективність при тестуванні інших методів оброблення природномовних даних, як-от кластеризації, замість природних корпусів. | uk |
dc.description.abstractother | Проблематика. Решение множества задач в области обработки естественного языка предусматривает использование корпусов текстовых данных, что делает актуальной подготовку последних. Их формирование на основе подлинных текстов требует временных затрат и не всегда целесообразно. Поэтому популярность приобретает автоматизированная генерации корпусов на основе различных методов и алгоритмов, что значительно упрощает подготовку экспериментальных данных. Цель исследования. Увеличить количество обнаруживаемых дефектов во время тестирования программных реализаций методов обработки текстовых данных на естественном языке, путем разработки нового метода генерации корпусов текстовых данных для их использования в качестве входных данных для тестирования. Методика реализации. Предложен детерминированный метод генерации корпусов текстовых данных CorDeGen (Corpora Deterministic Generation), который удовлетворяет следующим требованиям: детерминированность, зависимость на входе только от желаемого количества термов в генерируемом корпусе, обеспечение генерирования корпуса нетривиальной структуры. На основе предложенного метода разработан соответствующий алгоритм, а также осуществлена программная реализация на плат форме .NET (язык программирования – C#). С помощью этой программной реализации выполнено оценивание быстродействия и эффективности разработанного метода. Результаты исследования. Оценивание быстродействия разработанного метода CorDeGen показало степенную зависимость времени генерирования корпуса от количества термов с показателем степени близким к 1,5. В рамках исследования целесообразность использования разработанного метода для тестирования корректности программных реализаций показана на примере тестирования метода кластеризации k-средних. Выводы. Тестирование разработанного детерминированного метода генерации корпусов текстовых данных показало его эффективность при тестировании других методов обработки естественноязычных данных, таких как кластеризация, вместо природных корпусов. | uk |
dc.description.abstractother | Background. The solution to many problems in the field of natural language processing involves the use of corpora of text data, which makes the issue of preparing such corpora topical. At the same time, the formation of corpora based on natural texts is time-consuming and not always expedient. Therefore, an automated generation of corpora based on various methods and algorithms is gaining popularity, which greatly simplifies the preparation of experimental data. Objective. The purpose of the paper is to increase the number of detected defects during testing of software implementations of methods for processing natural text data by developing a new method for generating text data corpora to be used as input for testing. Methods. The deterministic method of text data corpora generation, named CorDeGen, is proposed, which satisfies the following requirements: determinism, dependence on input only from the desired number of terms in the generated corpus, as well as the non-trivial structure of the generated corpus. Based on the proposed method, the algorithm has been developed that implements it, as well as a software implementation on the .NET platform (programming language – C#). The evaluation of the speed and efficiency of the developed method has been done based on the developed software. Results. The performed speed evaluation of the developed CorDeGen method showed a power-law dependence of the time of generating the corpus on the number of terms (input parameter), with a degree of about 1.5. In this study, the feasibility of using the developed method to test the correctness of software implementations is shown by the example of testing the k-means clustering method. Conclusions. Testing of the developed deterministic method of text data corpora generation has shown the effectiveness of using this method in the testing of other natural language processing tasks, such as clustering, instead of natural corpora. | uk |
dc.format.pagerange | Pp. 38-45 | uk |
dc.identifier.citation | Юсин, Я. О. Генерування корпусів текстових даних на основі детермінованого методу / Я. О. Юсин, Т. М. Заболотня // Наукові вісті КПІ : міжнародний науково-технічний журнал. – 2021. – № 3(133). – С. 38–45. – Бібліогр.: 12 назв. | uk |
dc.identifier.doi | https://doi.org/10.20535/kpisn.2021.3.240780 | |
dc.identifier.orcid | 0000-0001-6971-3808 | uk |
dc.identifier.orcid | 0000-0001-8570-7571 | uk |
dc.identifier.uri | https://ela.kpi.ua/handle/123456789/59094 | |
dc.language.iso | uk | uk |
dc.publisher | КПІ ім. Ігоря Сікорського | uk |
dc.publisher.place | Київ | uk |
dc.relation.ispartof | Наукові вісті КПІ: міжнародний науково-технічний журнал, № 3(133) | uk |
dc.rights.uri | https://creativecommons.org/licenses/by/4.0/ | |
dc.subject | корпус текстових даних | uk |
dc.subject | генерація корпусів | uk |
dc.subject | оброблення природномовних даних | uk |
dc.subject | кластеризація даних | uk |
dc.subject | метод k-means | uk |
dc.subject | метод k-середніх | uk |
dc.subject | корпус текстовых данных | uk |
dc.subject | генерация корпусов | uk |
dc.subject | обработка естественноязычных данных | uk |
dc.subject | кластеризация данных | uk |
dc.subject | метод k-средних | uk |
dc.subject | corpus of text data | uk |
dc.subject | corpora generation | uk |
dc.subject | natural language processing | uk |
dc.subject | data clustering | uk |
dc.subject | k-means method | uk |
dc.subject.udc | 004.021:004.91 | uk |
dc.title | Генерування корпусів текстових даних на основі детермінованого методу | uk |
dc.title.alternative | Генерация корпусов текстовых данных на основе детерминированного метода | uk |
dc.title.alternative | Text data corpora generation on the basis of the deterministic method | uk |
dc.type | Article | uk |
Файли
Контейнер файлів
1 - 1 з 1
Вантажиться...
- Назва:
- 240780-580111-1-10-20220207.pdf
- Розмір:
- 356.94 KB
- Формат:
- Adobe Portable Document Format
- Опис:
Ліцензійна угода
1 - 1 з 1
Ескіз недоступний
- Назва:
- license.txt
- Розмір:
- 1.71 KB
- Формат:
- Item-specific license agreed upon to submission
- Опис: