Developing deep learning models for protein structure prediction
Abstract
The three-dimensional structure of a protein provides important clues about the function of that protein. Although there have been many studies on protein structure prediction, the problem has still not been solved completely. As it is very difficult to predict the three-dimensional structure of a protein directly, predictions of structural properties of proteins such as secondary structure, solvent accessibility, and torsion angles are carried out first, which are later used as inputs to more elaborate structure estimation tasks. In this thesis, novel deep learning models have been developed by using convolutional neural networks (CNN), graph convolutional networks (GCN) and long-short-term memory (LSTM) recurrent neural networks to predict secondary structure, solvent accessibility and torsion angles of proteins. A rich feature set formed by using PSI-BLAST, HHBlits, physicochemical properties, structural profile matrices, AA index values, and graphs representing the relationship between amino acids were used as inputs to the models. In the first study, a deep learning model was developed by using CNN and GCN layers for secondary structure prediction. In the second study, LSTM layers were added to the first model, which was extended to make solvent accessibility and torsion angle predictions as well using the multi-task learning approach. In both studies, graphs were generated using neighborhood relations between amino acids. In the last study, a novel U-net-based model was designed for secondary structure prediction using CNN, GCN, and LSTM layers. The graph matrices used as input to GCN layers were obtained by using protein contact map prediction. All models were trained, optimized and tested on benchmark data sets. Improvements were obtained in accuracy as compared to the state-of-the-art Bir proteinin üç boyutlu yapısı, o proteinin fonksiyonu hakkında önemli ipuçları sunmaktadır. Literatürde protein yapı tahmini yapan birçok çalışma bulunmasına rağmen bu problem henüz tam olarak çözümlenememiştir. Üç boyutlu protein yapı tahmininin direkt olarak yapılması çok zor olduğundan ilk etapta ikincil yapı, çözücü erişilirlik ve burulma açıları gibi yapısal özellikler tahmin edilir ve daha karmaşık yapı tahmin algoritmalarına girdi olarak gönderilir. Bu tezde, ikincil yapı, çözücü erişilirlik ve burulma açıları tahminleri için evrişimsel sinir ağları (ESA), çizge evrişimsel ağlar (ÇEA) ve uzun kısa vadeli hafıza (UKVH) temelli tekrarlayan yapay sinir ağları kullanılarak özgün derin öğrenme modelleri geliştirilmiştir. PSI-BLAST, HHBlits, fiziko kimyasal özellikler, yapısal profil matrisleri ve AAindex parametreleri kullanılarak oluşturulan zengin bir öznitelik seti ve amino asitler arasındaki ilişkinin temsil edildiği çizgeler modellerde girdi olarak kullanılmıştır. İlk çalışmada, ikincil yapı tahmini için ESA ve ÇEA kullanılarak özgün bir model oluşturulmuştur. İkinci çalışmada, ilk modele UKVH katmanları da eklenmiş ve model çok görevli öğrenme yaklaşımı sayesinde çözücü erişilirlik ve burulma açı tahminleri de yapacak şekilde güncellenmiştir. Her iki çalışmada da ÇEA modellerinin girdileri olan çizgeler amino asitler arası komşuluk ilişkisi kullanılarak oluşturulmuştur. Son çalışmada ESA, ÇEA ve UKVH kullanılarak U-net tabanlı özgün bir model ikincil yapı tahmini için tasarlanmıştır. Bu çalışmada girdi olarak kullanılan çizge matrisi protein temas haritası tahmini kullanılarak elde edilmiştir. Tüm modeller güncel veri kümelerinde eğitilmiş, optimize edilmiş ve test edilmiştir. Literatürdeki yöntemlerden daha başarılı sonuçlar elde edilmiştir.
Collections
Related items
Showing items related by title, author, creator and subject.
-
Comparison of NR and UniClust Databases for Protein Secondary Structure Prediction
Aydin, Zafer; Kaynar, Oguz; Gormez, Yasin (IEEE, 2018)Proteinlerin üç boyutlu yapılarının tahmin edilmesi teorik kimya ve biyoenformatik için önemli problemlerden biridir. Üç boyutlu yapı tahminin en önemli aşamalarından biri ise ikincil yapı tahminidir. İkincil yapı ... -
Topological feature generation for link prediction in biological networks
Temiz, Mustafa; Bakir-Gungor, Burcu; Sahan, Pinar Guner; Coskun, Mustafa (PEERJ INC, 2023)Graph or network embedding is a powerful method for extracting missing or potential information from interactions between nodes in biological networks. Graph embedding methods learn representations of nodes and interactions ... -
ROSE: A Novel Approach for Protein Secondary Structure Prediction
Görmez, Yasin; Aydın, Zafer (Springer Science and Business Media Deutschland GmbH, 2021)Three-dimensional structure of protein gives important information about protein’s function. Since it is time-consuming and costly to find the structure of protein by experimental methods, estimation of three-dimensional ...