Іванько, Катерина ОлегівнаКузьмінська, Дарія Вячеславівна2026-01-142026-01-142025Кузьмінська, Д. В. Аналіз даних секвенування ДНК для дослідження мікробіому кишківника людини і пов'язаних з ним хвороб : магістерська дис. : 176 Мікро- та наносистемна техніка / Кузьмінська Дарія Вячеславівна. – Київ, 2024. – 73 с.https://ela.kpi.ua/handle/123456789/78119В роботі розглядається застосування методів машинного навчання до задачі дослідження ДНК мікробіому кишківника людини з метою визначення хвороб пов’язаних з шлунково-кишковим трактом. Реалізовано аналіз даних ДНК мікробіому людини використовуючи методи машинного навчання. Основну увагу приділено обробці даних секвенування нового покоління NGS (Next Generation Sequensing), представлених у форматі FASTQ, із подальшим формуванням ознак на основі k-мерів, що представляють собою відрізки послідовності ДНК довжиною k. З метою формування ознак для створення моделей машинного навчання для розпізнавання хвороб в роботі використано два основні підходи до векторизації послідовностей нуклеотидів: визначення частот появи k-мерів в прочитанних послідовностях нуклеотидів з використанням методів обробки природньої мови, а саме моделі "мішок слів", та семантичне векторне представлення k-мерів за допомогою моделі Word2Vec, яка використовує нейромережеву модель для навчання розпізнавання послідовності нуклеотидів. Проведено порівняльний аналіз обох підходів за допомогою моделей машинного навчання дерево рішень та ліс дерев рішень. Для валідації результатів застосовано метрики точності, повноти, F1-міри та побудовано матриці плутанини. У результаті було встановлено, що підхід мішок слів із використанням CountVectorizer та TF-IDF трансформації у поєднанні з моделлю машинного навчання випадковий ліс дерев рішень забезпечує здатність обробки даних при роботі з біологічними послідовностями.73 с.ukсеквенуванняДНКМІКРОБІОМкішківникАналіз даних секвенування ДНК для дослідження мікробіому кишківника людини і пов'язаних з ним хворобMaster Thesis