Діагностичні алгоритми визначення генетичних мутацій раку за допомогою аналізу медичних текстів

Левчик, Лілія Олександрівна; Бабенко, Віталій Олегович; Бовсуновська, Катерина Сергіївна; Павлов, Володимир Анатолійович; Настенко, Євген Арнольдович

Діагностичні алгоритми визначення генетичних мутацій раку за допомогою аналізу медичних текстів

dc.contributor.author	Левчик, Лілія Олександрівна
dc.contributor.author	Бабенко, Віталій Олегович
dc.contributor.author	Бовсуновська, Катерина Сергіївна
dc.contributor.author	Павлов, Володимир Анатолійович
dc.contributor.author	Настенко, Євген Арнольдович
dc.date.accessioned	2023-02-21T15:12:15Z
dc.date.available	2023-02-21T15:12:15Z
dc.date.issued	2022
dc.description.abstracten	Analytical diagnostic tools, including genetic testing, have advanced to the point where an increasing proportion of disease diagnoses, such as cancer, can be automated. However, the manual work required for the diagnosis of cancerous tumors remains a significant hurdle to progress in this area. The sequencing process for a cancerous tumor can reveal thousands of genetic mutations, but the challenge is to identify the mutations that contribute to cancer growth (drivers) versus those that are neutral (passengers). This task requires a clinical pathologist to manually review and classify each mutation based on information obtained from clinical literature, a time-consuming process. The use of computerized methods for analyzing medical texts has the potential to alleviate the burden of diagnosing cancerous tumors. The aim of this study was to determine the utility of natural language processing and machine learning in automatically identifying cancer genetic mutation types from medical text data. A publicly accessible database of medical text data, containing 3321 observations and annotated with 9 types of cancer genetic mutations by leading researchers and oncologists at the Memorial Sloan Kettering Cancer Center (New York, USA), is available for use. This data was provided as part of a machine learning competition on Kaggle. To address the multi-class classification problem, various machine learning models were employed, including multinomial naive Bayes multinomial logistic regression, random forest, group method of data handling, multilayer perceptron, and a recurrent neural network with long short-term memory. The multilayer perceptron model was found to be the most effective approach for determining the type of genetic mutation, demonstrating a 65.1% prediction accuracy on the test sample (25% of the total dataset). A random forest model also performed well, achieving a 64.9% accuracy. These results outperformed those of the Kaggle contestants, where the highest classification accuracy, 64.7%, was achieved using a linear model based on the support vector method. The combination of natural language processing and machine learning techniques shows great potential for application in the medical field, particularly in the identification of cancer genetic mutation types based on text data. This has the potential to significantly facilitate the work of clinicians and oncologists in the diagnostic process. Further research is planned to achieve more effective results.	uk
dc.description.abstractuk	Сучасний стан аналітичних інструментів діагностики, до яких відноситься і генетичне тестування, дозволяють розраховувати, що процес діагностування онкологічних захворювань може бути автоматизованим. Однак, об’єм ручної роботи, необхідної для діагностики ракових пухлин, залишається значною перешкодою для прогресу в даній області. Процес секвенування пухлини здатний виявити тисячі генетичних мутацій, але задача полягає в тому, щоб відрізнити ті мутації, які сприяють зростанню рака (драйвери), від нейтральних мутацій (пасажирів). Ця задача потребує від клінічного патолога ручного аналізу та класифікації кожної мутації на основі інформації, отриманої з клінічної літератури. Використання комп’ютеризованих методів аналізу медичних текстів здатне автоматизувати даний етап діагностики ракових пухлин. Мета даної роботи полягала в оцінці ефективності використання методів обробки природної мови у поєднанні з машинним навчанням для автоматизованого визначення типів генетичних мутацій раку з медичних текстових даних. Наявна для використання база медичних текстових даних, що містить 3321 спостереження, і анотована по 9 типам генетичних мутацій раку провідними дослідниками та онкологами центру Меморіалу Слоуна Кеттерінга (Нью-Йорк, США). Дані були надані в рамках конкурсу по машинному навчанню спільнотою фахівців з Data Science - Kaggle. Для розв’язання багатокласової задачі класифікації використані моделі машинного навчання: мультиноміальний наївний Байєс, мультиноміальна логістична регресія, випадковий ліс, метод групового урахування аргументів, багатошаровий перцептрон, та рекурентна нейронна мережа з довгою короткостроковою пам’яттю. Модель багатошарового перцептрона виявилась найбільш ефективною для визначення типу генетичної мутації, продемонстрував точність передбачення 65.1% на тестовій вибірці, що склала 25% від загального набору даних. Друга по точності модель (випадковий ліс) досягла точність у 64.9%. Одержані результати перевершили результати учасників конкурсу Kaggle, де найвища точність класифікації (64.7%) була досягнута за допомогою лінійної моделі, заснованій на методі опорних векторів.Поєднання методів обробки природної мови та машинного навчання показує великий потенціал для застосування в медичній галузі, зокрема, у визначенні типів генетичних мутацій раку на основі текстових даних. Це надає можливість для автоматизації дій медичного персоналу в процесі діагностики. Для досягнення більш ефективних результатів планується проведення подальших досліджень.	uk
dc.format.pagerange	С. 64-76	uk
dc.identifier.citation	Діагностичні алгоритми визначення генетичних мутацій раку за допомогою аналізу медичних текстів / Левчик Лілія Олександрівна, Бабенко Віталій Олегович, Бовсуновська Катерина Сергіївна, Павлов Володимир Анатолійович, Настенко Євген Арнольдович // Біомедична інженерія і технологія. – 2022. – № 8. – С. 64-76.	uk
dc.identifier.uri	https://ela.kpi.ua/handle/123456789/52877
dc.language.iso	uk	uk
dc.publisher	КПІ ім.Ігоря Сікорського	uk
dc.publisher.place	Київ	uk
dc.source	Журнал Біомедична інженерія і технологія, № 8, 2022	uk
dc.subject	генетичні мутації раку	uk
dc.subject	медичні текстові дані	uk
dc.subject	обробка природної мови	uk
dc.subject	векторизація тексту	uk
dc.subject	машинне навчання	uk
dc.subject	глибоке навчання	uk
dc.subject	cancer genetic mutations	uk
dc.subject	medical text data	uk
dc.subject	natural language processing	uk
dc.subject	text vectorization	uk
dc.subject	machine learning	uk
dc.subject	deep learning	uk
dc.subject.udc	004.81 + 616-006	uk
dc.title	Діагностичні алгоритми визначення генетичних мутацій раку за допомогою аналізу медичних текстів	uk
dc.type	Article	uk

Файли

Контейнер файлів

Зараз показуємо 1 - 1 з 1

Назва:: BmT-2022-8_p64-76.pdf
Розмір:: 505.69 KB
Формат:: Adobe Portable Document Format
Опис:

Завантажити

Ліцензійна угода

Зараз показуємо 1 - 1 з 1

Назва:: license.txt
Розмір:: 9.1 KB
Формат:: Item-specific license agreed upon to submission
Опис:

Завантажити

Зібрання

Біомедична інженерія і технологія, № 8