Система вилучення описового тексту з фотографій клінічних документів, реферування та виділення ключових слів

Вантажиться...
Ескіз

Дата

2021-12

Назва журналу

Номер ISSN

Назва тому

Видавець

КПІ ім. Ігоря Сікорського

Анотація

Магістерська дисертація за темою «Система вилучення описового тексту з фотографій клінічних документів, реферування та виділення ключових слів» виконана студентом кафедри біомедичної кібернетики ФСП Солов’єм Богданом Анатолійовичем зі спеціальності 122 «Комп’ютерні науки» за освітньо-професійною програмою «Комп’ютерні технології в біології та медицині» та складається зі: вступу; 4 розділів (Аналіз джерел з предметної області; Експерементальні дослідження; Практична частина - функціональне моделювання і опис процесів; Практична частина – розробка системи), розділу зі стартап проєкту, висновків до кожного з цих розділів; загальних висновків; списку використаних джерел, який налічує 42 джерела та додатків. Загальний обсяг роботи 102 сторінка. Актуальність теми. Машинне навчання є відмінним способом для аналізу текстів з метою виділення головних тем. Існує кількість різних моделей та алгоритмів машинного навчання, які дозволяють з будь-якого набору текстів виділити ключові слова та визначити стислий зміст по кожній темі яка зустрічається в наборі текстів. Але ефективність цих методів є різної, і застосування неефективного алгоритму не дасть можливість підвищити ефективність пошуку по набору текстів саме тому для досягнення поставленої мети було прийнято рішення обрати саме таку тему дослідження алгоритми аналізу та автоматизованого реферування набору текстів, алгоритми визначення ключових слів. Мета дослідження. Мета даної роботи полягає у підвищені ефективності пошуку по набору текстів за рахунок розробки системи автоматизованого реферування та виділення ключових слів. Об’єкт дослідження. Алгоритми аналізу та автоматизованого реферування набору текстів, алгоритми визначення ключових слів. Предмет дослідження. Дослідження показників якості, виходячи з обраного методів кластеризації, реферування, та вилучення ключових слів. Методи дослідження. Методи кластеризації - агломератний; k-means++; розклад невід'ємних матриць; метод латентного семантичного аналізу; методи виділення ключових слів - Word2Vec з моделлю k-skip-n-gram, сингулярний розклад.  Практичне значення одержаних результатів. Усі результати дослідження будуть використані для побудови системи, яку можна впровадити в українські медичні заклади та клінічні лікарні. Система реалізує процес автоматизованого реферування набору текстових колекцій української мовою і з високою точністю визначає реферат та ключові слова колекції текстів. Система допомагатиме лікарю ознайомлюватись з медичними історіями пацієнтів за значно коротшій час. Одним з найважливіших факторів для впровадження, є те що систему розроблено з використанням бібліотек мови програмування Python, які реалізують оптимізовані алгоритми кластеризаціх та розкладу матриць, що забезпечує високу швидкість аналізу текстів системою.

Опис

Ключові слова

кластеризація, невід’ємний матричний розклад, косинусна відстань, сінгулярний розклад, реферат

Бібліографічний опис

Соловей, Б. А. Система вилучення описового тексту з фотографій клінічних документів, реферування та виділення ключових слів : магістерська дис. : 122 Комп’ютері науки / Соловей Богдан Анатолійович. – Київ, 2021. – 113 с.

DOI