Алгоритм видобутку інформації з неструктурованих текстових джерел
dc.contributor.advisor | Каніовська, Ірина Юріївна | |
dc.contributor.author | Баздирев, Антон Андрійович | |
dc.date.accessioned | 2020-11-02T12:20:06Z | |
dc.date.available | 2020-11-02T12:20:06Z | |
dc.date.issued | 2020-06 | |
dc.description.abstracten | Thesis: 90 pp., 43 fig., 13 tables, 2 appendix, 13 sources. The object of research - unstructured textual data, including texts from websites and official documentation. The subject of research - recurrent neural networks, neural networks transformers. The purpose of the work is to describe and formalize the general approach to the information extraction from unstructured text sources using deep learning models and to create a system for recognition and extraction of official names and addresses from the websites of companies. The result is a deployed system, which extracts the official company names and addresses in arbitrary text documents and websites. The methods of deep and transfer learning are used in the work. BERT and LSTM were used as encoders. The relevance of the study is that algorithms for natural language procesing are widely used in companies engaged in strategic consulting, risk analysis and the creation of common comprehensive commercial knowledge bases and expert systems. | uk |
dc.description.abstractuk | Дипломна робота містить: 90 с., 43 рис., 13 табл., 2 дод., 13 джерел. Об’єкт дослідження – неструктуровані текстові дані, зокрема тексти з веб-сайтів та офіційної документації. Предмет дослідження - рекурентні нейронні мережі, нейронні мережі трансформери. Мета роботи – описати та заформалізувати загальний підхід до видобутку довільної інформації з неструктурованих текстових джерел за допомогою методів глибокого навчання та створити систему розпізнавання та видобутку з веб-сайтів компаній офіційних імен та адрес. Результатом роботи є створена та розгорнена в кластері в хмарі AWS система, що розпізнає офіційні імена компанії та адреси в довільних текстових документах та веб-сайтах. У роботі застосовано методи глибокого та трансферного начання. В якості нейронних мереж кодувальників використано BERT та LSTM. Актуальність дослідження полягає в тому, що алгоритми роботи з довільними текстовими даними наразі знаходять широке застосування в компаніях, що займаються стратегічним консультуванням, аналізом ризиків та створенням загальних всеохоплюючих комерційних баз знань та експертних систем. | uk |
dc.format.page | 90 с. | uk |
dc.identifier.citation | Баздирев, А. А. Алгоритм видобутку інформації з неструктурованих текстових джерел : дипломна робота бакалавра : 124 Системний аналіз / Баздирев Антон Андрійович. – Київ, 2020. – 90 с. | uk |
dc.identifier.uri | https://ela.kpi.ua/handle/123456789/37175 | |
dc.language.iso | uk | uk |
dc.publisher | КПІ ім. Ігоря Сікорського | uk |
dc.publisher.place | Київ | uk |
dc.subject | обробка природної мови | uk |
dc.subject | глибоке навчання | uk |
dc.subject | трансферне навчання | uk |
dc.subject | видобуток інформації | uk |
dc.subject | трансформери | uk |
dc.subject | natural language processing | uk |
dc.subject | deep learning | uk |
dc.subject | transfer learning | uk |
dc.subject | data extraction | uk |
dc.subject | transformer networks | uk |
dc.title | Алгоритм видобутку інформації з неструктурованих текстових джерел | uk |
dc.type | Bachelor Thesis | uk |
Файли
Контейнер файлів
1 - 1 з 1
Вантажиться...
- Назва:
- Bazdyrev_bakalavr.pdf
- Розмір:
- 5.2 MB
- Формат:
- Adobe Portable Document Format
- Опис:
Ліцензійна угода
1 - 1 з 1
Ескіз недоступний
- Назва:
- license.txt
- Розмір:
- 8.98 KB
- Формат:
- Item-specific license agreed upon to submission
- Опис: