A novel approach based on bagging and boosting for imbalanced classification problems
Abstract
Classification algorithms are employed in a wide range of real-world problems such as
obstacle detection, fraud detection, medical diagnosis, spam detection, speech
recognition, image processing, intrusion detection, and so forth. However, it is not always
an easy task to propose a legitimate classifier. For a classification task, there are numerous
limitations of datasets. One of the most confronted limitations in real-world classification
tasks is skewed class distribution, also called the class imbalance problem. When learning
is employed in class imbalanced datasets without incorporating appropriate adjustments
into the existing algorithms, minority classes are mostly misclassified. This study
introduces a novel classification algorithm that outperforms previous studies on
benchmark datasets used for the class imbalance problem. The presented novel algorithm,
namely, BagBoost, involves aggregating modified bagging and modified boosting
algorithms to increase the visibility of minority class instances.
The state-of-the-art algorithms in the classification of imbalanced datasets are
investigated. The results of the best existing algorithms are compared with the proposed
algorithm using benchmark datasets. Results show that BagBoost is a better classifier
than commonly used classification algorithms in the literature for benchmark datasets
according to F-measure and G-mean scores. Sınıflandırma algoritmaları, engel tespiti, dolandırıcılık tespiti, tıbbi teşhis, istenmeyen
posta tespiti, konuşma tanıma, görüntü işleme, izinsiz giriş tespiti ve benzeri gibi çok
çeşitli gerçek dünya problemlerinde kullanılır. Ancak, meşru bir sınıflandırıcı önermek
her zaman kolay bir iş değildir. Bir sınıflandırma görevi için, çok sayıda veri kümesi
sınırlaması vardır. Gerçek dünyadaki sınıflandırma görevlerinde en çok karşılaşılan
sınırlamalardan biri, sınıf dengesizliği sorunu olarak da adlandırılan çarpık sınıf
dağılımıdır. Öğrenme, sınıf dengesiz veri kümelerinde mevcut algoritmalara uygun
ayarlamalar yapılmadan kullanıldığında, azınlık sınıfları çoğunlukla yanlış sınıflandırılır.
Bu çalışma, sınıf dengesizliği problemi için kullanılan kıyaslama veri kümeleri üzerinde
önceki çalışmalardan daha iyi performans gösteren özgün bir sınıflandırma algoritması
sunmaktadır. Sunulan yeni algoritma, yani BagBoost, azınlık sınıfı örneklerinin
görünürlüğünü artırmak için değiştirilmiş torbalama ve değiştirilmiş artırma
algoritmalarının bir araya getirilmesini içerir.
Dengesiz veri kümelerinin sınıflandırılmasında en gelişmiş algoritmalar araştırılmıştır.
Mevcut en iyi algoritmaların sonuçları, kıyaslama veri kümeleri kullanılarak önerilen
algoritma ile karşılaştırılmıştır. Sonuçlar, BagBoost'un F-ölçü ve G-ortalama puanlarına
göre kıyaslama veri setleri için literatürde yaygın olarak kullanılan sınıflandırma
algoritmalarından daha iyi bir sınıflandırıcı olduğunu göstermektedir.