Credit Risk Analysis based on Hybrid Classification: Case Studies on German and Turkish Credit Datasets
Abstract
— Kredi risk analizi, karar verme süreçleri açısından
finans sektöründe önemli bir rol oynamaktadır. Bankalar ve
finansal kuruluşlar, müşterilerinden büyük ölçeklerde ham veri
toplamaktadırlar. Veri madenciliği teknikleri, bu ham veri
içerisinden kullanışlı bilgiler edinmek amacıyla kullanılabilir.
Destek-vektörleri, yapay sinir ağları ve bayesian yaklaşımı bu
alanda hali hazırda kullanılan sınıflandırma yöntemleridir. Bu
çalışmada, farklı tekil sınıflandırma yöntemlerinin bir araya
getirilerek hibrid bir yaklaşımla, sınıflandırma sonuçlarının
doğruluğunun arttırılması hedeflenmiştir. Farklı kombinasyonlar
ayrıca sınıflandırma yetkinliği açısından performans
karşılaştırılmasına tabi tutulmuştur. Hem Alman kredi veriseti
hem de ulusal bir bankadan alınan veriseti üzerinde ilgili yaklaşım
çalıştırılmış ve yöntemin genelleştirilebilme özelliğinin görülmesi
de amaçlanmıştır. Deney sonuçları, özellik seçiminin
sınıflandırma başarımı ve hesaplama zamanı açısından çok önemli
olduğunu, hibrid yaklaşımın tekil sınıflandırma yöntemlerine göre
sınıflandırma doğruluğu açısından daha iyi sonuçlar verdiğini ve
son olarak radial-basis fonksiyonu ile birlikte kullanıldığında
destek-karar vektörlerinin hem tekil hem hibrid yaklaşımlar
içerisinde en iyi sınıflandırma başarımına sahip olduğunu
göstermiştir. — In finance sector, credit risk analysis plays a major
role in decision process. Banks and finance institutions gather
large amounts of raw data from their customers. Data mining
techniques can be employed to obtain useful information from this
raw data. Several data mining techniques, such as support-vector
machines (SVM), neural networks, naive-bayes, have already been
used to classify customers. In this paper, we propose hybrid
classification approaches, which try to combine several classifiers
and ensemble learners to boost accuracy on classification results.
Furthermore, we compare these approaches’ performance with
respect to their classification accuracy. We work with two diverse
datasets; namely, German credit dataset and Turkish bank
dataset. The goal of using such diverse dataset is to show
generalization capabality of our approaches. Experimental results
provide three important consequences. First, feature selection
stage has a major role both on result accuracy and calculation
complexity. Second, hybrid approaches have better generalability
over single classifiers. Third, using SVM-Radial Basis Function
(RBF) as the base classifier and a hybrid model member gives the
best accuracy and type-1 accuracy results among others.