Мікросервіс парсингу і аналізу текстів, що отримуються з електронної медичної картки

dc.contributor.advisorКисельов, Геннадій Дмитрович
dc.contributor.authorСутула, Олександр Віталійович
dc.date.accessioned2019-03-26T16:03:23Z
dc.date.available2019-03-26T16:03:23Z
dc.date.issued2018
dc.description.abstractenThe thesis contains 73 pages, 12 figures, 19 tables, 20 references. Relevance. The branch of analysis of large data, in particular medical, is rapidly developing, and there is a great demand for tools that allow to extract point information from various types of data formats. Medical information is characterized by a large amount of heterogeneous data and, like any data exchange system, the information is supplemented to a certain extent with information, due to the loss of data, situations often arise where the analysis slows down at times, and sometimes even becomes impossible. These tools should be fast and flexible to provide analysis of large amounts of data. At the moment, there are quite a few solutions for parsing HL7 messages on the JVM platform, a common development platform, and there are a lot of speed of parsing of point information. Purpose. The purpose of this work is to improve existing solutions for parsing messages of medical standard HL7. The task of the study is the implementation of the message parser standard HL7, which is more efficient for processing large data sets. Results. It was suggested to develop a parser based on Scala and a library for building Parboiled2 parser that have enough opportunities to improve the work of the existing HAPI HL7 Terser tool for the JVM platform and Akka http for the sake of the REST API and the possibility of implementing a mini service. The created parser was comparable to the HAPI HL7 Terser on a data set, simulating the receipt of various information from the message. Object of research. Message parsers of medical standard HL7. Subject of research. Grammar and structure of medical standard HL7. Research methods. The structure of the report of the medical standard HL7, its format, features is investigated. The tools needed to create a parser for such messages are analyzed, namely the tools for creating a grammar-based parser, tools for building DSL for information requests. Scientific novelty The solution uses Scala and Parboiled2 to improve the performance of information parsing tasks from medical format HL7. At the moment, there is only one analog for the JVM, which allows you to get any information from the message, it's HAPI HL7 Terser. With the help of the solutions described in this work, the message parsing speed has increased by an average of 8 times. Practical value. The developed solution allows you to obtain heterogeneous information from the medical standard HL7 message an order of magnitude faster than existing analogues.uk
dc.description.abstractruОбщий объем работы: 73 страницы, 12 иллюстраций, 19 таблиц, перечень ссылок из 20 наименований. Актуальность темы. Отрасль анализа больших данных, в частности медицинских, стремительно развивается, и есть большой спрос на инструменты позволяющие изымать точечную информацию из различного рода форматов данных. Медицинская информация характеризуется большим объемом разнородных данных и, как и любая система обмена данными, в определенной степени дополняется цель информацию, из-за убыточности данных часто возникают ситуации, когда анализ замедляется в разы, а иногда вообще становится невозможным. Эти инструменты должны быть быстрыми и гибкими для обеспечения анализа больших объемов данных. На данный момент, существует довольно мало решений для парсинга сообщений HL7 на платформе JVM, распространенной платформе для разработки, а иcнуючи имеют очень ряд скорость парсинга точечной информации. Цель и задачи исследования. Целью данной работы является совершенствование существующих решений для парсинга сообщений медицинского стандарта HL7. Задачей исследования является реализация парсера сообщений стандарта HL7, что является более эффективной для обработки больших массивов данных. Решение поставленных задач и достигнутые результаты Было предложено разработку парсера на базе Scala и библиотеки для построения синтаксического анализатора Parboiled2, что имеют достаточно возможностей для улучшения работы уже существующего инструмента HAPI HL7 Terser для JVM платформы и Akka http для забезпення REST API и возможности внедрения мини сервиса. Созданный парсер было сравнимо с HAPI HL7 Terser на наборе данных, моделирующий получения различной информации из сообщения. Объект исследования Парсеры сообщений медицинского стандарта HL7. Предмет исследования Грамматика и структура медицинского стандарта HL7. Методы исследования Исследуется структура сообщение медицинского стандарта HL7, его формат, особенности. Анализируются инструменты, необходимые для создания парсера для таких сообщений, а именно инструментарий создания синтаксического анализатора на основе грамматик, инструменты для построения DSL для запросов информации. Научная новизна Решение использующий Scala и Parboiled2 для улучшения выполнения задач парсинга информации из медицинского формата HL7. На данный момент, существует единственный аналог для JVM, что позволяет получить любую информацию из сообщения, это - HAPI HL7 Terser. С помощью решений, описанных в этой работе, скорость парсинга сообщений увеличилась в среднем в 8 раз. Практическое значение полученных результатов. Разработанное решение позволяет получить разнородных информацию из сообщения медицинского стандрат HL7 на порядок быстрее существующих аналогов.uk
dc.description.abstractukЗагальний обсяг роботи: 73 сторінки, 12 ілюстрацій, 19 таблиць, перелік посилань із 20 найменувань. Актуальність теми. Галузь аналізу великих даних, зокрема медичних, стрімко розвивається, і є великий попит на інструменти що дозволяють вилучати точкову інформацію з різного роду форматів даних. Медична інформація характеризується великим об’ємом різнорідних даних та, як і будь яка система обміну даними, певною мірою доповнюється мета інформацію, через збитковості даних часто виникають ситуації коли аналіз уповільнюється в рази, а інколи взагалі стає неможливим. Ці інструменти мають бути швидкими та гнучкими для забезпечення аналізу великих об’ємів даних. На разі, існує доволі мало рішень для парсингу повідомлень HL7 на платформі JVM, найпоширенішій платформі для розробки, а іcнуючі мають дуже низку швидкість парсингу точкової інформації. Мета та задачі дослідження. Метою даної роботи є удосконалення існуючих рішень для парсинга повідомлень медичного стандарту HL7. Задачею дослідження є реалізація парсера повідомлень стандарту HL7, що є більш ефективною для обробки великих масивів даних. Вирішення поставлених завдань та досягнуті результати. Було запропоновано розробку парсера на базі Scala та бібліотеки для побудови синтаксичного аналізатора Parboiled2, що мають достатньо можливостей для покращення роботи уже існуючого інструмента HAPI HL7 Terser для JVM платформи та Akka http для забезпення REST API та можливості впровадження як міні сервісу. Створений парсер було порівняно з HAPI HL7 Terser на наборі даних, що моделює отримання різної інформації з повідомлення. Об’єкт дослідження. Парсери повідомлень медичного стандарту HL7 Предмет дослідження. Граматика та структура медичного стандарту HL7 Методи дослідження. Досліджується структура повідомлення медичного стандарту HL7, його формат, особливості. Аналізуються інструменти, необхідні для створення парсера для таких повідомлень, а саме інструментарій створення синтаксичного аналізатора на основі граматик, інструменти для побудови DSL для запитів інформації. Наукова новизна Рішення що використовує Scala та Parboiled2 для покращення виконання задач парсингу інформаціїз медичного формату HL7. На разі, існує єдиний аналог для JVM, що дозволяє отримати будь-яку інформацію з повідомлення, це – HAPI HL7 Terser. За допомогою рішень, описаних в цій роботі, швидкість парсингу повідомлень збільшилась в середньому у 8 разів. Практичне значення одержаних результатів Розроблене рішення дозволяє отримати різнородну інформацію з повідомлення медичного стандрата HL7 на порядок швидше за існуючі аналоги на платформі JVM.uk
dc.format.page73 c.uk
dc.identifier.citationСутула, О. В. Мікросервіс парсингу і аналізу текстів, що отримуються з електронної медичної картки : магістерська дис. : 122 Комп’ютерні науки та інформаційні технології / Сутула Олександр Віталійович. - Київ, 2018. - 73 с.uk
dc.identifier.urihttps://ela.kpi.ua/handle/123456789/26921
dc.language.isoukuk
dc.subjectпарсингuk
dc.subjectсинтаксичний аналізаторuk
dc.subjectHL7uk
dc.subjectDSLuk
dc.subjectScalauk
dc.subjectParboiled2uk
dc.subjectграматикаuk
dc.subjectparseruk
dc.subjectparsinguk
dc.subjectgrammaruk
dc.subject.udc004.457uk
dc.titleМікросервіс парсингу і аналізу текстів, що отримуються з електронної медичної карткиuk
dc.typeMaster Thesisuk

Файли

Контейнер файлів
Зараз показуємо 1 - 1 з 1
Вантажиться...
Ескіз
Назва:
Sutula_magistr.pdf
Розмір:
1.14 MB
Формат:
Adobe Portable Document Format
Опис:
Ліцензійна угода
Зараз показуємо 1 - 1 з 1
Ескіз недоступний
Назва:
license.txt
Розмір:
1.71 KB
Формат:
Item-specific license agreed upon to submission
Опис: