Алгоритм видобутку інформації з неструктурованих текстових джерел

Баздирев, Антон Андрійович

Алгоритм видобутку інформації з неструктурованих текстових джерел

Файли

Bazdyrev_bakalavr.pdf (5.2 MB)

Дата

2020-06

Автори

Баздирев, Антон Андрійович

Науковий керівник

Каніовська, Ірина Юріївна

Видавець

КПІ ім. Ігоря Сікорського

Анотація

Дипломна робота містить: 90 с., 43 рис., 13 табл., 2 дод., 13 джерел. Об’єкт дослідження – неструктуровані текстові дані, зокрема тексти з веб-сайтів та офіційної документації. Предмет дослідження - рекурентні нейронні мережі, нейронні мережі трансформери. Мета роботи – описати та заформалізувати загальний підхід до видобутку довільної інформації з неструктурованих текстових джерел за допомогою методів глибокого навчання та створити систему розпізнавання та видобутку з веб-сайтів компаній офіційних імен та адрес. Результатом роботи є створена та розгорнена в кластері в хмарі AWS система, що розпізнає офіційні імена компанії та адреси в довільних текстових документах та веб-сайтах. У роботі застосовано методи глибокого та трансферного начання. В якості нейронних мереж кодувальників використано BERT та LSTM. Актуальність дослідження полягає в тому, що алгоритми роботи з довільними текстовими даними наразі знаходять широке застосування в компаніях, що займаються стратегічним консультуванням, аналізом ризиків та створенням загальних всеохоплюючих комерційних баз знань та експертних систем.

Ключові слова

обробка природної мови, глибоке навчання, трансферне навчання, видобуток інформації, трансформери, natural language processing, deep learning, transfer learning, data extraction, transformer networks

Бібліографічний опис

Баздирев, А. А. Алгоритм видобутку інформації з неструктурованих текстових джерел : дипломна робота бакалавра : 124 Системний аналіз / Баздирев Антон Андрійович. – Київ, 2020. – 90 с.

URI

https://ela.kpi.ua/handle/123456789/37175

Зібрання

Бакалаврські роботи (ММСА)
Бакалаврські роботи

Повна інформація про документ

Алгоритм видобутку інформації з неструктурованих текстових джерел

Файли

Дата

Автори

Науковий керівник

Назва журналу

Номер ISSN

Назва тому

Видавець

Анотація

Опис

Ключові слова

Бібліографічний опис

ORCID

URI

DOI

Зібрання