Діагностичні алгоритми визначення генетичних мутацій раку за допомогою аналізу медичних текстів

dc.contributor.authorЛевчик, Лілія Олександрівна
dc.contributor.authorБабенко, Віталій Олегович
dc.contributor.authorБовсуновська, Катерина Сергіївна
dc.contributor.authorПавлов, Володимир Анатолійович
dc.contributor.authorНастенко, Євген Арнольдович
dc.date.accessioned2023-02-21T15:12:15Z
dc.date.available2023-02-21T15:12:15Z
dc.date.issued2022
dc.description.abstractenAnalytical diagnostic tools, including genetic testing, have advanced to the point where an increasing proportion of disease diagnoses, such as cancer, can be automated. However, the manual work required for the diagnosis of cancerous tumors remains a significant hurdle to progress in this area. The sequencing process for a cancerous tumor can reveal thousands of genetic mutations, but the challenge is to identify the mutations that contribute to cancer growth (drivers) versus those that are neutral (passengers). This task requires a clinical pathologist to manually review and classify each mutation based on information obtained from clinical literature, a time-consuming process. The use of computerized methods for analyzing medical texts has the potential to alleviate the burden of diagnosing cancerous tumors. The aim of this study was to determine the utility of natural language processing and machine learning in automatically identifying cancer genetic mutation types from medical text data. A publicly accessible database of medical text data, containing 3321 observations and annotated with 9 types of cancer genetic mutations by leading researchers and oncologists at the Memorial Sloan Kettering Cancer Center (New York, USA), is available for use. This data was provided as part of a machine learning competition on Kaggle. To address the multi-class classification problem, various machine learning models were employed, including multinomial naive Bayes multinomial logistic regression, random forest, group method of data handling, multilayer perceptron, and a recurrent neural network with long short-term memory. The multilayer perceptron model was found to be the most effective approach for determining the type of genetic mutation, demonstrating a 65.1% prediction accuracy on the test sample (25% of the total dataset). A random forest model also performed well, achieving a 64.9% accuracy. These results outperformed those of the Kaggle contestants, where the highest classification accuracy, 64.7%, was achieved using a linear model based on the support vector method. The combination of natural language processing and machine learning techniques shows great potential for application in the medical field, particularly in the identification of cancer genetic mutation types based on text data. This has the potential to significantly facilitate the work of clinicians and oncologists in the diagnostic process. Further research is planned to achieve more effective results.uk
dc.description.abstractukСучасний стан аналітичних інструментів діагностики, до яких відноситься і генетичне тестування, дозволяють розраховувати, що процес діагностування онкологічних захворювань може бути автоматизованим. Однак, об’єм ручної роботи, необхідної для діагностики ракових пухлин, залишається значною перешкодою для прогресу в даній області. Процес секвенування пухлини здатний виявити тисячі генетичних мутацій, але задача полягає в тому, щоб відрізнити ті мутації, які сприяють зростанню рака (драйвери), від нейтральних мутацій (пасажирів). Ця задача потребує від клінічного патолога ручного аналізу та класифікації кожної мутації на основі інформації, отриманої з клінічної літератури. Використання комп’ютеризованих методів аналізу медичних текстів здатне автоматизувати даний етап діагностики ракових пухлин. Мета даної роботи полягала в оцінці ефективності використання методів обробки природної мови у поєднанні з машинним навчанням для автоматизованого визначення типів генетичних мутацій раку з медичних текстових даних. Наявна для використання база медичних текстових даних, що містить 3321 спостереження, і анотована по 9 типам генетичних мутацій раку провідними дослідниками та онкологами центру Меморіалу Слоуна Кеттерінга (Нью-Йорк, США). Дані були надані в рамках конкурсу по машинному навчанню спільнотою фахівців з Data Science - Kaggle. Для розв’язання багатокласової задачі класифікації використані моделі машинного навчання: мультиноміальний наївний Байєс, мультиноміальна логістична регресія, випадковий ліс, метод групового урахування аргументів, багатошаровий перцептрон, та рекурентна нейронна мережа з довгою короткостроковою пам’яттю. Модель багатошарового перцептрона виявилась найбільш ефективною для визначення типу генетичної мутації, продемонстрував точність передбачення 65.1% на тестовій вибірці, що склала 25% від загального набору даних. Друга по точності модель (випадковий ліс) досягла точність у 64.9%. Одержані результати перевершили результати учасників конкурсу Kaggle, де найвища точність класифікації (64.7%) була досягнута за допомогою лінійної моделі, заснованій на методі опорних векторів.Поєднання методів обробки природної мови та машинного навчання показує великий потенціал для застосування в медичній галузі, зокрема, у визначенні типів генетичних мутацій раку на основі текстових даних. Це надає можливість для автоматизації дій медичного персоналу в процесі діагностики. Для досягнення більш ефективних результатів планується проведення подальших досліджень.uk
dc.format.pagerangeС. 64-76uk
dc.identifier.citationДіагностичні алгоритми визначення генетичних мутацій раку за допомогою аналізу медичних текстів / Левчик Лілія Олександрівна, Бабенко Віталій Олегович, Бовсуновська Катерина Сергіївна, Павлов Володимир Анатолійович, Настенко Євген Арнольдович // Біомедична інженерія і технологія. – 2022. – № 8. – С. 64-76.uk
dc.identifier.urihttps://ela.kpi.ua/handle/123456789/52877
dc.language.isoukuk
dc.publisherКПІ ім.Ігоря Сікорськогоuk
dc.publisher.placeКиївuk
dc.sourceЖурнал Біомедична інженерія і технологія, № 8, 2022uk
dc.subjectгенетичні мутації ракуuk
dc.subjectмедичні текстові даніuk
dc.subjectобробка природної мовиuk
dc.subjectвекторизація текстуuk
dc.subjectмашинне навчанняuk
dc.subjectглибоке навчанняuk
dc.subjectcancer genetic mutationsuk
dc.subjectmedical text datauk
dc.subjectnatural language processinguk
dc.subjecttext vectorizationuk
dc.subjectmachine learninguk
dc.subjectdeep learninguk
dc.subject.udc004.81 + 616-006uk
dc.titleДіагностичні алгоритми визначення генетичних мутацій раку за допомогою аналізу медичних текстівuk
dc.typeArticleuk

Файли

Контейнер файлів
Зараз показуємо 1 - 1 з 1
Вантажиться...
Ескіз
Назва:
BmT-2022-8_p64-76.pdf
Розмір:
505.69 KB
Формат:
Adobe Portable Document Format
Опис:
Ліцензійна угода
Зараз показуємо 1 - 1 з 1
Ескіз недоступний
Назва:
license.txt
Розмір:
9.1 KB
Формат:
Item-specific license agreed upon to submission
Опис: