Estimation of Algorithms Efficiency in the Task of Biological Objects Clustering
dc.contributor.author | Umanets, Vitalii | |
dc.contributor.author | Voinyk, Bogdan | |
dc.contributor.author | Pavlov, Volodymyr | |
dc.contributor.author | Nastenko, Ievgen | |
dc.contributor.author | Уманець, Віталій Сергійович | |
dc.contributor.author | Войник, Богдан Олексійович | |
dc.contributor.author | Павлов, Володимир Анатолійович | |
dc.contributor.author | Настенко, Євген Арнольдович | |
dc.contributor.author | Уманец, Виталий Сергеевич | |
dc.contributor.author | Войник, Богдан Алексеевич | |
dc.contributor.author | Павлов, Владимир Анатольевич | |
dc.contributor.author | Настенко, Евгений Арнольдович | |
dc.date.accessioned | 2018-07-19T12:41:55Z | |
dc.date.available | 2018-07-19T12:41:55Z | |
dc.date.issued | 2018 | |
dc.description.abstracten | Background. The task of determining the functional relationship between biophysical parameters is an integral part of the actual problem of finding the optimal impact on a biological object and is currently not completely resolved. One of the important tasks in this area is the partitioning of the original feature space into such areas (clusters) that relate to different functional relationships linking biophysical parameters and have, in general, an arbitrary shape. Such clusters in the future is logical to call functional. To obtain and analyze the functional clusters, there are a number of algorithms, each of which has its advantages and disadvantages. At the same time, the solution of a certain practical problem requires an evaluation of the efficiency of the algorithms in terms of the cluster separation adequacy. Objective. In this paper, for a general example of the biological objects clustering problem (Fischer’s Iris Data Set), the efficiency of a typical clustering tools series is evaluated. The application of k-means classical algorithm, the Ward algorithm and developed in this work the fuzzy version of clustering for the k-means algorithm with a limited mass of the working area for the clusters’ formation was considered. Methods. The algorithm includes a procedure for a priori estimation of the clusters quantity. The estimation is carried out according to the frequency histogram. To determine the optimal number of the histogram columns, the application of the Scott formula is justified. The algorithm allows forming clusters of arbitrary configuration with obtaining the value of the object's membership measure for each of the clusters. The comparative testing of the above algorithms was carried out on Fisher’s Iris Data Set. Results. The best value of F₁-score is obtained for the algorithm proposed in this paper: F₁ = 0.92, the value F₁ = 0.90 is obtained for the Ward method and the value F₁ = 0.88 – for the classical k-means algorithm. Conclusions. The obtained test results on the analysis problem of arbitrary-shaped clusters made it possible to give preference to the version of fuzzy k-means with a limited mass of the working area for the clusters’ formation. The calculating of the membership measure value allows us to obtain additional information on the structure of cluster formations, as well as to correct the result of clustering of k-means with a limited mass, which is especially important since the formation of clusters occurs in a single pass. Comparing the computational resources required for computing algorithms with relatively close test results also makes it possible to give preference to the developed algorithm. Compared with the Ward algorithm, it requires fewer computing resources since no additional memory is needed to store the distance matrix and no time is required to recalculate it. | uk |
dc.description.abstractru | Проблематика. Задача определения функциональной связи между биофизическими параметрами является составной частью актуальной проблемы поиска оптимального воздействия на биологический объект и в настоящее время не является полностью решенной. Одной из важных задач в этой области является разбиение исходного пространства признаков на такие области (кластеры), которые относятся к различным функциональным соотношениям, связывающим биофизические параметры, и имеют, в общем случае, произвольную форму. Такие кластеры в дальнейшем логично называть функциональными. Для получения и анализа функциональных кластеров существует ряд алгоритмов, каждый из которых обладает своими преимуществами и недостатками. В то же время решение определенной практической задачи требует оценки эффективности алгоритмов с точки зрения адекватности выделения кластеров. Цель. В статье для достаточно общего примера задачи кластеризации биологических объектов (ирисы Фишера) оценивается эффективность ряда типичных инструментов кластеризации. Рассмотрено применение алгоритма k-средних, алгоритма Варда, а также разработанной в данной работе нечеткой версии кластеризации для алгоритма k-средних с ограниченной массой рабочей области формирования кластеров. Методика реализации. В алгоритм включена процедура априорной оценки количества кластеров. Оценка проводится по гистограмме частот, для определения оптимального количества столбцов гистограммы обосновывается применение формулы Скотта. Алгоритм позволяет формировать кластеры произвольной конфигурации с получением значения меры принадлежности объекта каждому из кластеров. На наборе данных "Ирисы Фишера" проведено сравнительное тестирование указанных алгоритмов. Результаты. Наилучшее значение F₁-score получено для алгоритма, предложенного в работе – F₁ = 0,92, F₁ = 0,90 для метода Варда и F₁ = 0,88 для классического алгоритма k-средних. Выводы. Полученные результаты тестирования свидетельствуют о том, что в задачах анализа кластеров произвольной формы целесообразно отдать предпочтение разработанной в данной работе версии нечетких k-средних с ограниченной массой рабочей области формирования кластеров. Расчет значения меры принадлежности в алгоритме позволяет получить дополнительную информацию о структуре кластерных образований, а также осуществить поправки результата кластеризации k-средних с ограниченной массой, что особенно важно при формировании кластеров за один проход. Сравнение требуемых для расчета вычислительных ресурсов для алгоритмов с относительно близкими результатами теста также свидетельствует о преимуществе предложенного в работе алгоритма. По сравнению с алгоритмом Варда ему требуется меньше вычислительных ресурсов, так как не нужна дополнительная память для хранения матрицы расстояний и нет затрат времени на ее перерасчет. | uk |
dc.description.abstractuk | Проблематика. Завдання визначення функціонального зв’язку між біофізичними параметрами є складовою частиною актуальної проблеми пошуку оптимального впливу на біологічний об’єкт і на сьогодні не є повністю вирішеним. Однією з важливих задач у цій області є розбиття початкового простору ознак на такі області (кластери), які відносяться до різних функціональних співвідношень, що зв’язують біофізичні параметри, і які мають, у загальному випадку, довільну форму. Такі кластери в подальшому логічно називати функціональними. Для отримання й аналізу функціональних кластерів існує низка алгоритмів, кожен із яких має свої переваги й недоліки. У той же час розв’язання певної практичної задачі вимагає оцінки ефективності алгоритмів з точки зору адекватності виділення кластерів. Мета. У статті для досить загального прикладу завдання кластеризації біологічних об’єктів (іриси Фішера) оцінюється ефективність низки типових інструментів кластеризації. Розглянуто застосування алгоритму k-середніх, алгоритму Варда, а також розробленої в роботі нечіткої версії кластеризації для алгоритму k-середніх з обмеженою масою робочої області формування кластерів. Методика реалізації. В алгоритм включено процедуру апріорної оцінки кількості кластерів. Оцінка проводиться по гістограмі частот, для визначення оптимальної кількості стовпців гістограми обґрунтовується застосування формули Скотта. Алгоритм дає змогу формувати кластери довільної конфігурації з отриманням значення міри приналежності об’єкта кожному з кластерів. На наборі даних "Іриси Фішера" проведено порівняльне тестування зазначених алгоритмів. Результати. Оптимальне значення F₁-score отримано для алгоритму, що запропонований у роботі – F₁ = 0,92, значення F₁ = 0,90 одержано для методу Варда і значення F₁ = 0,88 – для класичного алгоритму k-середніх. Висновки. Отримані результати тестування свідчать, що в завданнях аналізу кластерів довільної форми доцільно віддати перевагу розробленій у дійсній роботі версії нечітких k-середніх з обмеженою масою робочої області формування кластерів. Розрахунок значення міри приналежності дає можливість в алгоритмі отримати додаткову інформацію про структуру кластерних утворень, а також здійснити поправки результату кластеризації k-середніх з обмеженою масою, що особливо важливо при формуванні кластерів за один прохід. Порівняння необхідних для розрахунку обчислювальних ресурсів для алгоритмів з відносно близькими результатами тесту також свідчить про перевагу запропонованого в роботі алгоритму. Порівняно з алгоритмом Варда йому необхідно менше обчислювальних ресурсів, оскільки не потрібна додаткова пам’ять для зберігання матриці відстаней і немає витрат часу на її перерахунок. | uk |
dc.format.pagerange | Pp. 84-89 | uk |
dc.identifier.citation | Estimation of Algorithms Efficiency in the Task of Biological Objects Clustering / V. S. Umanets, B. A. Voinyk, V. A. Pavlov, Ie. A. Nastenko // Innovative Biosystems and Bioengineering : international scientific e-journal. – 2018. – Vol. 2, No. 2. – Pp. 84–89. – Bibliogr.: 9 ref. | uk |
dc.identifier.doi | https://doi.org/10.20535/ibb.2018.2.2.133466 | |
dc.identifier.uri | https://ela.kpi.ua/handle/123456789/23980 | |
dc.language.iso | en | uk |
dc.publisher | Igor Sikorsky Kyiv Polytechnic Institute | uk |
dc.publisher.place | Kyiv | uk |
dc.rights | Attribution 4.0 International (CC BY 4.0) | en |
dc.rights.uri | https://creativecommons.org/licenses/by/4.0/ | en |
dc.source | Innovative Biosystems and Bioengineering : international scientific e-journal, 2018, Vol. 2, No. 2 | uk |
dc.subject | clustering | uk |
dc.subject | k-means | uk |
dc.subject | biological object | uk |
dc.subject | membership function | uk |
dc.subject | estimation of a number of clusters | uk |
dc.subject | fuzzy clustering | uk |
dc.subject | кластеризація | uk |
dc.subject | k-середні | uk |
dc.subject | біологічний об’єкт | uk |
dc.subject | міра належності | uk |
dc.subject | оцінка кількості кластерів | uk |
dc.subject | нечітка кластеризація | uk |
dc.subject | кластеризация | uk |
dc.subject | k-средние | uk |
dc.subject | биологический объект | uk |
dc.subject | мера принадлежности | uk |
dc.subject | оценка количества кластеров | uk |
dc.subject | нечеткая кластеризация | uk |
dc.subject.udc | 004.021 | uk |
dc.title | Estimation of Algorithms Efficiency in the Task of Biological Objects Clustering | uk |
dc.title.alternative | Оцінка ефективності алгоритмів у задачі кластеризації біологічних об’єктів | uk |
dc.title.alternative | Оценка эффективности алгоритмов в задаче кластеризации биологических объектов | uk |
dc.type | Article | uk |
Файли
Контейнер файлів
1 - 1 з 1
Вантажиться...
- Назва:
- IBB2018.2.2_02.pdf
- Розмір:
- 280.08 KB
- Формат:
- Adobe Portable Document Format
- Опис:
Ліцензійна угода
1 - 1 з 1
Ескіз недоступний
- Назва:
- license.txt
- Розмір:
- 7.74 KB
- Формат:
- Item-specific license agreed upon to submission
- Опис: