Засоби формування та обробки бази даних словосполучень української мови
Вантажиться...
Дата
2021
Автори
Науковий керівник
Назва журналу
Номер ISSN
Назва тому
Видавець
КПІ ім. Ігоря Сікорського
Анотація
Актуальність теми. Аналіз словосполучень є важливим розділом NLP досліджень. Вміння аналізувати, класифікувати та знаходити словосполучення дає можливість оперувати контекстом та змістом, що закладені у речення, а не окремими словами. Це допомагає значно вдосконалити системи, що працюють з натуральними мовами. Існує багато алгоритмів та підходів, які дозволяють аналізувати окремі слова, але аналіз та пошук групи слів, що зв’язані між собою є більш складним завданням.
Словосполучення важливі для ряду застосувань: генерація природної мови – щоб переконатися, що вихідні дані звучать природно і уникнути помилок; обчислювальна лексикографія – для автоматичного визначення важливих словосполучень, які мають потрапити до словника та корпусні лінгвістичні дослідження, наприклад, вивчення суспільних та культурних явищ через мову.
Дана робота присвячена пошуку словосполучень в текстах, що написані українською мовою, з подальшим упорядкуванням та морфологічним аналізом слів. Виділення словосполучення - це задача, що передбачає використання комп'ютера для автоматичного виділення словосполучення з корпусу. Традиційний метод виконання виділення словосполучення полягає у знаходженні формули на основі статистичних величин для обчислення оцінки пов’язаної з кожною парою слів.
Мета роботи: підвищення ефективності автоматичної генерації бази даних словосполучень української мови, а також розроблення засобів пошуку.
Об’єктом дослідження є тексто-орієнтовані бази даних.
Предметом дослідження є методи та алгоритми автоматизованого генерування бази даних словосполучень за допомогою оброблення текстових даних, а також методи прискорення генерування описаної бази даних.
Методи дослідження в роботі використовуються статистичні міри асоціації, методи нормалізації текстових даних та методи розподілених обчислень та оброблення даних.
Наукова новизна: розроблено програмні засоби формування бази даних словосполучень української мови, яка відрізняється від існуючих тим, що ефективність генерації розробленої бази даних підвищена за допомогою методів розподілених обчислень. Розроблене програмне забезпечення дозволяє знаходити словосполучення шляхом оброблення текстів українською мовою та зберігати їх до сховища даних, з можливістю пошуку по цим даним та їх подальшого аналізу.
Практична цінність отриманих в роботі результатів полягає в тому, що розроблена база даних може використовуватися для подальшого вивчення мови та інших досліджень у сфері NLP. Також проведено дослідження та отримані дані, які методи пошуку словосполучень найкраще підходять саме для української мови, враховуючи граматичні особливості мови, що може бути використано у подальших дослідженнях генерації природної мови, для вдосконалення пошукових систем та голосових асистентів, інструментів, що домагають редагувати та підсумовувати тексти, тощо.
Апробація роботи. Основні положення і результати роботи були представлені та обговорювались на XVI науковій конференції магістрантів та аспірантів «Прикладна математика та комп’ютинг» ПМК-2021. Стаття у науковому журналі "Комп’ютерно-інтегровані технології: освіта, наука, виробництво", випуск № 44 «Програмні засоби формування та обробки бази даних словосполучень української мови»
Структура та обсяг роботи. Магістерська дисертація складається з вступу, чотирьох розділів та висновків.
У вступі подано загальну характеристику дослідження, розглянуто актуальність та новизну дослідження, названі можливі практичні застосування розроблюваної бази даних словосполучень.
У першому розділі проаналізовано існуючі подібні системи, названі їх переваги та недоліки, визначено вимоги до розроблюваної системи та сформульовано проблему попередньої оброки текстових даних.
У другому розділі описано алгоритм попередньої обробки текстів, наведено результати аналізу методів знаходження словосполучень у текстах українською мовою, порівняно їх та обрано найефективніші, та проаналізовано способи фільтрації знайдених словосполучень.
У третьому розділі описано інструменти використані для розроблення програмного забезпечення, архітектуру програмного забезпечення та засоби прискорення генерації бази даних словосполучень.
У четвертому розділі визначено можливу сферу застосування та наведено результати оптимізації генерації розробленої бази даних словосполучень, а також результати роботи розробленого програмного забезпечення.
У висновках представлені результати проведеної роботи.
Робота представлена на 93 аркушах, містить посилання на список використаних літературних джерел.
Опис
Ключові слова
статистичні методи знаходження словосполучень, база даних словосполучень, statistical methods of finding phrases, database of phrases
Бібліографічний опис
Рябоконь, Т. О. Засоби формування та обробки бази даних словосполучень української мови : магістерська дис. : 123 Комп’ютерна інженерія / Рябоконь Тетяна Олексіївна. – Київ, 2021. – 94 с.