Засоби формування та обробки бази даних словосполучень української мови

dc.contributor.advisorПетрашенко, Андрій Васильович
dc.contributor.authorРябоконь, Тетяна Олексіївна
dc.date.accessioned2022-01-18T08:58:22Z
dc.date.available2022-01-18T08:58:22Z
dc.date.issued2021
dc.description.abstractenActuality of theme. Collocation analysis is an important part of NLP research. The ability to analyze, classify and find collocations makes it possible to operate with the context and content embedded in sentences, rather than individual words. This helps to significantly improve systems that work with natural languages. There are many algorithms and approaches that allow you to analyze individual words, but analyzing and finding a group of related words is a more difficult task. Collocations are important for such applications as: natural language generation - to make sure that the source data sounds natural and to avoid mistakes; computational lexicography - to automatically identify important phrases to be included in the dictionary and corpus linguistic research, such as the study of social and cultural phenomena through language. This work is devoted to collocations extraction from texts written in the Ukrainian language, filtering and morphological analysis of words. Collocation extraction is a task that involves using a computer to automatically select a collocation from the text corpus. The traditional method of collocation extraction is to find a formula based on statistical values to calculate the score associated with each pair of words. Purpose: to increase the efficiency of automatic generation of the database of phrases of the Ukrainian language, as well as the development of search tools. Object of research is text-oriented databases. Subject of research is methods and algorithms of automated generation of a database of phrases by means of text data processing, and also methods of acceleration of generation of the described database. Methods of research: the study uses statistical measures of association, methods of normalization of text data and methods of distributed computing and data processing. Scientific novelty: software tools for the generation of the Ukrainian language database of collocation have been developed. It differs from the existing ones in that the efficiency of generating the developed database has been increased with the help of distributed computing methods. The developed software allows finding collocations by processing texts in the Ukrainian language and saving them to the data storage, for searching through this data and their further analysis. Practical value of the results obtained in this work is that the developed database can be used for further language study and other research in the field of NLP. Research was also conducted and data were obtained on which collocation extraction methods are best suited for the Ukrainian language, taking into account the language grammatical features that can be used in further studies of natural language generation, to improve search engines and voice assistants, tools for editing and summarizing texts, etc. Approbation. The main provisions and results of the work were presented and discussed at the XVI scientific conference of undergraduates and graduate students "Applied Mathematics and Computing" AMC-2021. Article in the scientific journal "Computer-integrated technologies: education, science, production", issue № 44 "The software system for generation and processing of a database of collocations of the Ukrainian language". Structure and scope of work. The master's dissertation consists of an introduction, four chapters and conclusions. In the introduction the general characteristic of research is given, urgency and novelty of research are considered, possible practical applications of the developed database of phrases are named. The first section analyzes the existing similar systems, names their advantages and disadvantages, identifies the requirements for the developed system and formulates the problem of preliminary processing of text data. The second section describes the algorithm of pre-processing of texts, presents the results of analysis of methods for finding collocation in texts in Ukrainian, compares them and selects the most effective, and analyzes ways to filter the found phrases. The third section describes the tools used to develop the software, the software architecture, and the tools for accelerating the generation of the phrase database. The fourth section identifies the possible scope and presents the results of optimizing the generation of the developed database of phrases, as well as the results of the developed software. The conclusions present the results of the work. The work is presented on 93 sheets, contains references to the list of used literature sources.uk
dc.description.abstractukАктуальність теми. Аналіз словосполучень є важливим розділом NLP досліджень. Вміння аналізувати, класифікувати та знаходити словосполучення дає можливість оперувати контекстом та змістом, що закладені у речення, а не окремими словами. Це допомагає значно вдосконалити системи, що працюють з натуральними мовами. Існує багато алгоритмів та підходів, які дозволяють аналізувати окремі слова, але аналіз та пошук групи слів, що зв’язані між собою є більш складним завданням. Словосполучення важливі для ряду застосувань: генерація природної мови – щоб переконатися, що вихідні дані звучать природно і уникнути помилок; обчислювальна лексикографія – для автоматичного визначення важливих словосполучень, які мають потрапити до словника та корпусні лінгвістичні дослідження, наприклад, вивчення суспільних та культурних явищ через мову. Дана робота присвячена пошуку словосполучень в текстах, що написані українською мовою, з подальшим упорядкуванням та морфологічним аналізом слів. Виділення словосполучення - це задача, що передбачає використання комп'ютера для автоматичного виділення словосполучення з корпусу. Традиційний метод виконання виділення словосполучення полягає у знаходженні формули на основі статистичних величин для обчислення оцінки пов’язаної з кожною парою слів. Мета роботи: підвищення ефективності автоматичної генерації бази даних словосполучень української мови, а також розроблення засобів пошуку. Об’єктом дослідження є тексто-орієнтовані бази даних. Предметом дослідження є методи та алгоритми автоматизованого генерування бази даних словосполучень за допомогою оброблення текстових даних, а також методи прискорення генерування описаної бази даних. Методи дослідження в роботі використовуються статистичні міри асоціації, методи нормалізації текстових даних та методи розподілених обчислень та оброблення даних. Наукова новизна: розроблено програмні засоби формування бази даних словосполучень української мови, яка відрізняється від існуючих тим, що ефективність генерації розробленої бази даних підвищена за допомогою методів розподілених обчислень. Розроблене програмне забезпечення дозволяє знаходити словосполучення шляхом оброблення текстів українською мовою та зберігати їх до сховища даних, з можливістю пошуку по цим даним та їх подальшого аналізу. Практична цінність отриманих в роботі результатів полягає в тому, що розроблена база даних може використовуватися для подальшого вивчення мови та інших досліджень у сфері NLP. Також проведено дослідження та отримані дані, які методи пошуку словосполучень найкраще підходять саме для української мови, враховуючи граматичні особливості мови, що може бути використано у подальших дослідженнях генерації природної мови, для вдосконалення пошукових систем та голосових асистентів, інструментів, що домагають редагувати та підсумовувати тексти, тощо. Апробація роботи. Основні положення і результати роботи були представлені та обговорювались на XVI науковій конференції магістрантів та аспірантів «Прикладна математика та комп’ютинг» ПМК-2021. Стаття у науковому журналі "Комп’ютерно-інтегровані технології: освіта, наука, виробництво", випуск № 44 «Програмні засоби формування та обробки бази даних словосполучень української мови» Структура та обсяг роботи. Магістерська дисертація складається з вступу, чотирьох розділів та висновків. У вступі подано загальну характеристику дослідження, розглянуто актуальність та новизну дослідження, названі можливі практичні застосування розроблюваної бази даних словосполучень. У першому розділі проаналізовано існуючі подібні системи, названі їх переваги та недоліки, визначено вимоги до розроблюваної системи та сформульовано проблему попередньої оброки текстових даних. У другому розділі описано алгоритм попередньої обробки текстів, наведено результати аналізу методів знаходження словосполучень у текстах українською мовою, порівняно їх та обрано найефективніші, та проаналізовано способи фільтрації знайдених словосполучень. У третьому розділі описано інструменти використані для розроблення програмного забезпечення, архітектуру програмного забезпечення та засоби прискорення генерації бази даних словосполучень. У четвертому розділі визначено можливу сферу застосування та наведено результати оптимізації генерації розробленої бази даних словосполучень, а також результати роботи розробленого програмного забезпечення. У висновках представлені результати проведеної роботи. Робота представлена на 93 аркушах, містить посилання на список використаних літературних джерел.uk
dc.format.page94 с.uk
dc.identifier.citationРябоконь, Т. О. Засоби формування та обробки бази даних словосполучень української мови : магістерська дис. : 123 Комп’ютерна інженерія / Рябоконь Тетяна Олексіївна. – Київ, 2021. – 94 с.uk
dc.identifier.urihttps://ela.kpi.ua/handle/123456789/45915
dc.language.isoukuk
dc.publisherКПІ ім. Ігоря Сікорськогоuk
dc.publisher.placeКиївuk
dc.subjectстатистичні методи знаходження словосполученьuk
dc.subjectбаза даних словосполученьuk
dc.subjectstatistical methods of finding phrasesuk
dc.subjectdatabase of phrasesuk
dc.subject.udc004.912uk
dc.titleЗасоби формування та обробки бази даних словосполучень української мовиuk
dc.typeMaster Thesisuk

Файли

Контейнер файлів
Зараз показуємо 1 - 1 з 1
Вантажиться...
Ескіз
Назва:
Rjabokon_magistr.pdf
Розмір:
2.94 MB
Формат:
Adobe Portable Document Format
Опис:
Ліцензійна угода
Зараз показуємо 1 - 1 з 1
Ескіз недоступний
Назва:
license.txt
Розмір:
9.1 KB
Формат:
Item-specific license agreed upon to submission
Опис: