Каніовська, Ірина ЮріївнаБаздирев, Антон Андрійович2020-11-022020-11-022020-06Баздирев, А. А. Алгоритм видобутку інформації з неструктурованих текстових джерел : дипломна робота бакалавра : 124 Системний аналіз / Баздирев Антон Андрійович. – Київ, 2020. – 90 с.https://ela.kpi.ua/handle/123456789/37175Дипломна робота містить: 90 с., 43 рис., 13 табл., 2 дод., 13 джерел. Об’єкт дослідження – неструктуровані текстові дані, зокрема тексти з веб-сайтів та офіційної документації. Предмет дослідження - рекурентні нейронні мережі, нейронні мережі трансформери. Мета роботи – описати та заформалізувати загальний підхід до видобутку довільної інформації з неструктурованих текстових джерел за допомогою методів глибокого навчання та створити систему розпізнавання та видобутку з веб-сайтів компаній офіційних імен та адрес. Результатом роботи є створена та розгорнена в кластері в хмарі AWS система, що розпізнає офіційні імена компанії та адреси в довільних текстових документах та веб-сайтах. У роботі застосовано методи глибокого та трансферного начання. В якості нейронних мереж кодувальників використано BERT та LSTM. Актуальність дослідження полягає в тому, що алгоритми роботи з довільними текстовими даними наразі знаходять широке застосування в компаніях, що займаються стратегічним консультуванням, аналізом ризиків та створенням загальних всеохоплюючих комерційних баз знань та експертних систем.ukобробка природної мовиглибоке навчаннятрансферне навчаннявидобуток інформаціїтрансформериnatural language processingdeep learningtransfer learningdata extractiontransformer networksАлгоритм видобутку інформації з неструктурованих текстових джерелBachelor Thesis90 с.