Моделювання та аналіз сигналів біонанопорового секвенування ДНК для виявлення генетичних мутацій

dc.contributor.authorЄвдощенко, І. М.
dc.contributor.authorІванько, К. О.
dc.contributor.authorІванушкіна, Н. Г.
dc.contributor.authorВішвеш Кулкарні
dc.date.accessioned2022-11-22T13:47:47Z
dc.date.available2022-11-22T13:47:47Z
dc.date.issued2021
dc.description.abstractenThe application of genomic signal processing methods to the problem of modeling and analysis of nanoporous DNA sequencing signals is considered in the paper. Based on the nucleotide sequences in the norm and in the case of muta-tions, 1200 signals are simulated, which represent 4 classes: norm, missense mutation, insertion mutation and deletion mu-tation. Correlation analysis was used to determine the similarity of nanoporous DNA sequencing signals using a cross-cor-relation function between two current signals in the protein nanopore, specifically signal in norm and in the presence of mutation. The location of the correlation peak determines the type of mutation (insertion or deletion), as well as the align-ment of the same nucleotide sequences using a defined signal shift. The results of applying machine learning methods to the problem of classification of nanoporous DNA sequencing signals significantly depend on the noise level of the registered current signals through the protein nanopore and the type of muta-tion. Given a relatively low noise level, when the values of the ion current through a protein nanopore for different nucleo-tides do not intersect, the classification accuracy reaches 100%. In the case of increasing the standard deviation of the law of distribution of noise components, there is an overlap of the levels of current values in the nanopore in the case of its blocking by nucleotides of the close size. As a result, errors in the definition of normal and single nucleotide mutations (missense or nonsense) often occur, especially if the levels of current steps in the nanopore for two nucleotides are similar (for example, guanine and thymine, thymine and adenine, adenine and cytosine) and noise masks their contribution to reduction current in the nanopore. Mutations of insertion and deletion of a certain nucleotide sequence are often classified without errors, because these mutations are characterized by a shift of several nucleotides between normal signals and pathology, which increases the distance between these signals. Among the machine learning methods that have demonstrated the high accuracy of classification of the signals of nanopore-based DNA sequencing, the methods of linear discriminant, k-nearest neighbors classifier (with Euclidean distance and the sufficient number of nearest neighbors), as well as the method of reference vectors should be mentioned. The best results were obtained for the classification method of support vector machines. The use of linear, quadratic and cubic kernel functions shows the high accuracy of correctly classified signals — from 93 to 100%.uk
dc.description.abstractukРобота присвячена розвитку методів цифрової обробки геномних сигналів, які представляють собою дані щодо будови ДНК, з метою використання методів обробки сигналів до задачі аналізу геномних даних. За фраг-ментами послідовностей нуклеотидів змодельовано сигнали іонного струму крізь біологічну нанопору при секвенції ДНК для випадків норми, точкових мутацій, вставки та видалення ділянки ДНК. Модельні сигнали іонного струму у білковій нанопорі отримано на основі реальних послідовностей нуклеотидів з атласів ракового геному. В роботі використано кореляційний аналіз для визначення подібності сигналів нанопорового секвенування ДНК за допомо-гою функції взаємної кореляції між двома сигналами іонного струму крізь білкову нанопору, зокрема між сигна-лами у нормі та з наявністю мутації. За розташуванням максимуму взаємної кореляційної функції визначається тип мутації (інсерція або делеція), а також проводиться вирівнювання однакових нуклеотидних послідовностей за допомогою визначеного зсуву сигналу. Проаналізовано застосування методів машинного навчання до класифікації геномних сигналів нанопорового секвенування ДНК. Для визначення найкращих моделей класифікації застосовано алгоритми на основі дерев рішень, дискримінантного аналізу, методу опорних векторів, логістичної регресії, методу k-найближчих сусідів та ансамблевого навчання. Для різних методів машинного навчання визначено та порівняно точність класифікації на 4 класи: норма, точкова мутація (місенс або нонсенс), мутація делеції та інсерції декількох нуклеотидів. Показано, що результати застосування методів машинного навчання до проблеми класифікації сигналів нанопорового секве-нування ДНК суттєво залежать від рівня шуму у зареєстрованих сигналах іонного струму крізь білкову нанопору та типу мутації. Найкращі результати класифікації отримано для методу опорних векторів. Застосування лінійної, квадратичної та кубічної функцій ядра показало високу точність вірно класифікованих сигналів – від 93 до 100%.uk
dc.format.pagerangeС. 217265-1-217265-11uk
dc.identifier.citationМоделювання та аналіз сигналів біонанопорового секвенування ДНК для виявлення генетичних мутацій / Євдощенко І. М., Іванько К. О., Іванушкіна Н. Г., Вішвеш Кулкарні // Мікросистеми, Електроніка та Акустика : науково-технічний журнал. – 2021. – Т. 26, № 1(117). – С. 217265-1-217265-11. – Бібліогр.: 25 назва.uk
dc.identifier.doihttps://doi.org/10.20535/2523-4455.mea.217265
dc.identifier.orcid0000-0003-0049-2159uk
dc.identifier.orcid0000-0002-3842-2423uk
dc.identifier.orcid0000-0001-8389-7906uk
dc.identifier.orcid0000-0002-2285-8652uk
dc.identifier.urihttps://ela.kpi.ua/handle/123456789/51189
dc.language.isoukuk
dc.publisherКПІ ім. Ігоря Сікорськогоuk
dc.publisher.placeКиївuk
dc.rights.urihttps://creativecommons.org/licenses/by/4.0/
dc.sourceМікросистеми, Електроніка та Акустика : науково-технічний журнал, 2021, Т. 26, № 1(117)uk
dc.subjectсеквенація ДНКuk
dc.subjectбілкова нанопораuk
dc.subjectмутаціїuk
dc.subjectобробка геномних сигналівuk
dc.subjectкласифікаціяuk
dc.subjectмашинне навчанняuk
dc.subjectDNA sequencinguk
dc.subjectsingle protein molecule nanoporeuk
dc.subjectmutationsuk
dc.subjectgenomic signal processinguk
dc.subjectclassificationuk
dc.subjectmachine learninguk
dc.subject.udc004.056.53uk
dc.titleМоделювання та аналіз сигналів біонанопорового секвенування ДНК для виявлення генетичних мутаційuk
dc.typeArticleuk

Файли

Контейнер файлів
Зараз показуємо 1 - 1 з 1
Вантажиться...
Ескіз
Назва:
MEA_1_2021_05_217265-1-217265-11.pdf
Розмір:
1.13 MB
Формат:
Adobe Portable Document Format
Опис:
Ліцензійна угода
Зараз показуємо 1 - 1 з 1
Ескіз недоступний
Назва:
license.txt
Розмір:
9.1 KB
Формат:
Item-specific license agreed upon to submission
Опис: