Boosting Yöntemleri
30 Mayıs’ta Dataİstanbul tarafından düzenlenen bir etkinlikte ‘Boosting Yöntemleri: Temeller ve Uygulamalar’ adlı bir konuşma yaptım. Dataİstanbul veri bilimi ve yapay öğrenme alanında çalışan ya da kendini geliştirmek isteyen gönüllülerden oluşan bir topluluk. Düzenli aralıklarla bir araya gelerek atölyeler, eğitimler ve seminerler düzenliyorlar. Düzenledikleri etkinlikleri takip etmenizi tavsiye ederim.
Adından da anlaşılacağı gibi konuşmamda, boosting yöntemlerinin temellerini ve LightGBM ile Scikit-Learn paketleri üzerindeki uygulamalarını anlattım. Bu sayede LightGBM’e Giriş yazısıyla kullanımına değindiğimiz konunun arka planındaki teoriye de giriş yapmış olduk. Sunumda bahsettiğim yöntemleri bir bağlanım problemi üzerinden anlattım. Yaptığımız uygulamalar ise sınıflandırma üzerineydi. Konuşmanın ana başlıklarını aşağıda bulabilirsiniz:- Karar ağaçları ve olası problemleri
- Bagging (bootstrap aggregating) ve rassal orman yöntemleri
- Boosting yönteminin temelleri
- Boosting ve bagging karşılaştırması
- Gradient boosting
- AdaBoost (Adaptive Boosting)
Uygulamalarda LightGBM’e Giriş yazısını kullandım. LightGBM üzerinde bu çalışmayı yaptıktan sonra Gradient Boosting ve AdaBoost yöntemlerini bir de Scikit-Learn üzerinden çalıştırdık. AdaBoost yöntemini kullandığımızda gözlemlerin bir sınıfa ait olma olasılıklarının dağılımında yaşanabilecek problemleri çözmek için olasılıkların yeniden dağıtılmasını sağlayan CalibrationClassifierCV modülünü gördük.
Aşağıdaki linkten konuşmanın sunum dosyasına erişebilirsiniz.
Konuşmada kullandığım Jupyter Notebook dosyalarına GitHub dizinimiz üzerinden erişebilirsiniz.