Мікросервіс парсингу і аналізу текстів, що отримуються з електронної медичної картки
Вантажиться...
Дата
2018
Науковий керівник
Назва журналу
Номер ISSN
Назва тому
Видавець
Анотація
Загальний обсяг роботи: 73 сторінки, 12 ілюстрацій, 19 таблиць, перелік
посилань із 20 найменувань.
Актуальність теми.
Галузь аналізу великих даних, зокрема медичних, стрімко розвивається, і є
великий попит на інструменти що дозволяють вилучати точкову інформацію з різного
роду форматів даних. Медична інформація характеризується великим об’ємом
різнорідних даних та, як і будь яка система обміну даними, певною мірою
доповнюється мета інформацію, через збитковості даних часто виникають ситуації
коли аналіз уповільнюється в рази, а інколи взагалі стає неможливим. Ці інструменти
мають бути швидкими та гнучкими для забезпечення аналізу великих об’ємів даних.
На разі, існує доволі мало рішень для парсингу повідомлень HL7 на платформі
JVM, найпоширенішій платформі для розробки, а іcнуючі мають дуже низку
швидкість парсингу точкової інформації.
Мета та задачі дослідження.
Метою даної роботи є удосконалення існуючих рішень для парсинга
повідомлень медичного стандарту HL7. Задачею дослідження є реалізація парсера
повідомлень стандарту HL7, що є більш ефективною для обробки великих масивів
даних.
Вирішення поставлених завдань та досягнуті результати.
Було запропоновано розробку парсера на базі Scala та бібліотеки для побудови
синтаксичного аналізатора Parboiled2, що мають достатньо можливостей для
покращення роботи уже існуючого інструмента HAPI HL7 Terser для JVM платформи
та Akka http для забезпення REST API та можливості впровадження як міні сервісу.
Створений парсер було порівняно з HAPI HL7 Terser на наборі даних, що
моделює отримання різної інформації з повідомлення.
Об’єкт дослідження.
Парсери повідомлень медичного стандарту HL7
Предмет дослідження.
Граматика та структура медичного стандарту HL7
Методи дослідження.
Досліджується структура повідомлення медичного стандарту HL7, його формат,
особливості. Аналізуються інструменти, необхідні для створення парсера для таких
повідомлень, а саме інструментарій створення синтаксичного аналізатора на основі
граматик, інструменти для побудови DSL для запитів інформації.
Наукова новизна
Рішення що використовує Scala та Parboiled2 для покращення виконання задач
парсингу інформаціїз медичного формату HL7. На разі, існує єдиний аналог для JVM,
що дозволяє отримати будь-яку інформацію з повідомлення, це – HAPI HL7 Terser. За
допомогою рішень, описаних в цій роботі, швидкість парсингу повідомлень
збільшилась в середньому у 8 разів.
Практичне значення одержаних результатів
Розроблене рішення дозволяє отримати різнородну інформацію з повідомлення
медичного стандрата HL7 на порядок швидше за існуючі аналоги на платформі JVM.
Опис
Ключові слова
парсинг, синтаксичний аналізатор, HL7, DSL, Scala, Parboiled2, граматика, parser, parsing, grammar
Бібліографічний опис
Сутула, О. В. Мікросервіс парсингу і аналізу текстів, що отримуються з електронної медичної картки : магістерська дис. : 122 Комп’ютерні науки та інформаційні технології / Сутула Олександр Віталійович. - Київ, 2018. - 73 с.