Comparison of Machine Learning Classifiers for Protein Secondary Structure Prediction
Abstract
Proteinlerin üç boyutlu yapılarının tahmin edilmesi
teorik kimya ve biyoenformatik için önemli problemlerden biridir.
Protein yapı tahmininin en önemli aşamalarından biri ise ikincil
yapı tahminidir. Protein veritabanlarındaki verilerin hızlı artışı ve
yakın zamanda geliştirilen farklı öznitelik çıkarma yöntemleri
neticesinde ikincil yapı tahmini için kullanılan veri setleri boyut ve
örnek sayısı bakımından büyümektedir. Bu nedenle hızlı çalışan
ve belirli bir doğruluk oranını sahip tahmin algoritmaların
kullanılması önem kazanmaktadır. Bu çalışmada iki aşamalı
hibrit bir sınıflandırıcının ikinci aşaması için çeşitli sınıflama
algoritmaları, EVAset veri seti kullanılarak hem orijinal boyutlu
uzayda hem de bilgi kazancı metriği ile boyutu düşürülen uzayda
optimize edilmiştir. Elde edilen sonuçlar doğrultusunda en
başarılı tahmin yöntemi destek vektör makinası olurken model
eğitme süresi bakımından en hızlı yöntem aşırı öğrenme makinası
olarak elde edilmiştir. Three-dimensional structure prediction is one of the
important problems in bioinformatics and theoretical chemistry.
One of the most important steps in the three-dimensional structure
prediction is the estimation of secondary structure. Due to rapidly
growing databases and recent feature extraction methods datasets
used for predicting secondary structure can potentially contain a
large number of samples and dimensions. For this reason, it is
important to use algorithms that are fast and accurate. In this
study, various classification algorithms have been optimized for
the second phase of a two-stage classifier on EVAset benchmark
both in the original input space and in the space reduced using the
information gain metric. The most accurate classifier is obtained
as the support vector machine while the extreme learning machine
is significantly faster in model training.