Аналіз даних секвенування ДНК для дослідження мікробіому кишківника людини і пов'язаних з ним хвороб

Вантажиться...
Ескіз

Дата

2025

Назва журналу

Номер ISSN

Назва тому

Видавець

КПІ ім. Ігоря Сікорського

Анотація

В роботі розглядається застосування методів машинного навчання до задачі дослідження ДНК мікробіому кишківника людини з метою визначення хвороб пов’язаних з шлунково-кишковим трактом. Реалізовано аналіз даних ДНК мікробіому людини використовуючи методи машинного навчання. Основну увагу приділено обробці даних секвенування нового покоління NGS (Next Generation Sequensing), представлених у форматі FASTQ, із подальшим формуванням ознак на основі k-мерів, що представляють собою відрізки послідовності ДНК довжиною k. З метою формування ознак для створення моделей машинного навчання для розпізнавання хвороб в роботі використано два основні підходи до векторизації послідовностей нуклеотидів: визначення частот появи k-мерів в прочитанних послідовностях нуклеотидів з використанням методів обробки природньої мови, а саме моделі "мішок слів", та семантичне векторне представлення k-мерів за допомогою моделі Word2Vec, яка використовує нейромережеву модель для навчання розпізнавання послідовності нуклеотидів. Проведено порівняльний аналіз обох підходів за допомогою моделей машинного навчання дерево рішень та ліс дерев рішень. Для валідації результатів застосовано метрики точності, повноти, F1-міри та побудовано матриці плутанини. У результаті було встановлено, що підхід мішок слів із використанням CountVectorizer та TF-IDF трансформації у поєднанні з моделлю машинного навчання випадковий ліс дерев рішень забезпечує здатність обробки даних при роботі з біологічними послідовностями.

Опис

Ключові слова

секвенування, ДНК, МІКРОБІОМ, кішківник

Бібліографічний опис

Кузьмінська, Д. В. Аналіз даних секвенування ДНК для дослідження мікробіому кишківника людини і пов'язаних з ним хвороб : магістерська дис. : 176 Мікро- та наносистемна техніка / Кузьмінська Дарія Вячеславівна. – Київ, 2024. – 73 с.

ORCID

DOI