Аналіз даних секвенування ДНК для дослідження мікробіому кишківника людини і пов'язаних з ним хвороб
Вантажиться...
Дата
2025
Науковий керівник
Назва журналу
Номер ISSN
Назва тому
Видавець
КПІ ім. Ігоря Сікорського
Анотація
В роботі розглядається застосування методів машинного навчання до задачі дослідження ДНК мікробіому кишківника людини з метою визначення хвороб пов’язаних з шлунково-кишковим трактом. Реалізовано аналіз даних ДНК мікробіому людини використовуючи методи машинного навчання. Основну увагу приділено обробці даних секвенування нового покоління NGS (Next Generation Sequensing), представлених у форматі FASTQ, із подальшим формуванням ознак на основі k-мерів, що представляють собою відрізки послідовності ДНК довжиною k.
З метою формування ознак для створення моделей машинного навчання для розпізнавання хвороб в роботі використано два основні підходи до векторизації послідовностей нуклеотидів: визначення частот появи k-мерів в прочитанних послідовностях нуклеотидів з використанням методів обробки природньої мови, а саме моделі "мішок слів", та семантичне векторне представлення k-мерів за допомогою моделі Word2Vec, яка використовує нейромережеву модель для навчання розпізнавання послідовності нуклеотидів.
Проведено порівняльний аналіз обох підходів за допомогою моделей машинного навчання дерево рішень та ліс дерев рішень. Для валідації результатів застосовано метрики точності, повноти, F1-міри та побудовано матриці плутанини.
У результаті було встановлено, що підхід мішок слів із використанням CountVectorizer та TF-IDF трансформації у поєднанні з моделлю машинного навчання випадковий ліс дерев рішень забезпечує здатність обробки даних при роботі з біологічними послідовностями.
Опис
Ключові слова
секвенування, ДНК, МІКРОБІОМ, кішківник
Бібліографічний опис
Кузьмінська, Д. В. Аналіз даних секвенування ДНК для дослідження мікробіому кишківника людини і пов'язаних з ним хвороб : магістерська дис. : 176 Мікро- та наносистемна техніка / Кузьмінська Дарія Вячеславівна. – Київ, 2024. – 73 с.