Doğrusal Olmayan Regresyon Modelleri

Oguz S.
3 min readJun 9, 2021

--

Photo by h heyerlein on Unsplash

İstatistik bilimde gözlemi yapılan verilerin bir veya birden fazla bağımsız değişkenin model parametrelerinin doğrusal olmayan bileşiği olan ve bir veya daha çok sayıda bağımsız değişkeni kapsayan bir fonksiyonla modelleştirilmesini içeren bir regresyon türüdür.

Bazı doğrusal olmayan regresyon modelleri :

  1. K-En Yakın Komşu (KNN)
  2. Destek Vektör Regresyonu (SVR)
  3. Yapay Sinir Ağları (YSA)
  4. Regresyon Ağaçları (CART)
  5. Bagged Tress
  6. Random Forests (RF)
  7. Gradient Boosting Machines (GBM)

K-En Yakın Komşu :

  • Tahminler gözlem benzerliğine göre yapılır.
  • Büyük veri açısından pek yeterli değildir.

K-NN parametrik olmayan tembel bir öğrenme algoritmasıdır. Tembel öğrenmede eğitim aşaması yoktur. Eğitim verilerini öğrenmez, bunun yerine eğitim veri kümesini “ezberler”. Bir tahmin yapmak istendiğinde, tüm veri setinde en yakın komşuları arar.
Algoritmanın çalışmasında bir K değeri belirlenir. Bu K değerinin anlamı bakılacak eleman sayısıdır. Bir değer geldiğinde en yakın K kadar eleman alınarak gelen değer arasındaki uzaklık hesaplanır. Uzaklık hesaplama işleminde genelde Öklid fonksiyonu kullanılır.

Destek Vektör Regresyonu :

Amaç, bir marjin aralığına maksimum noktayı en küçük hata ile alabilecek şekilde doğru ya da eğriyi belirlemektir.
İki grup arasında bir sınır çizerek iki grubu ayırmak mümkündür. Bu sınırın çizileceği yer ise iki grubun da üyelerine en uzak olan yer olmalıdır. İşte SVM bu sınırın nasıl çizileceğini belirler.

Yapay Sinir Ağları :

  • Yapay Sinir Ağları bir çok hücreden meydana gelir
  • Hata toleransına sahiptirler. Eksik veya belirsiz bilgiyle çalışabilirler. Hatalı durumlarda dereceli bozulma gösterirler.

İnsan beyninin bilgi işleme şeklini referans alan sınıflandırma ve regresyon problemleri için kullanılabilen kuvvetli makine öğrenmesi algoritmalarından birisidir.
Yapay sinir ağlarında amaç en küçük hata değerini veren katsayıları bulmaktır. Gizli katmanlar, veri seti doğrusal olmayan bir şekilde ayrılması gerektiğinde kullanılır. Katmanların her birinin içinde ise nöronlar vardır. Bu nöronların birbiri ile ilişkisi yoktur, öğrendiklerini bir sonraki katmandaki nöronlara aktarırlar. Aktarma işlemi sırasında aktivasyon fonksiyonları kullanılır.

Regresyon Ağaçları :

Amaç veri seti içerisindeki karmaşık yapıları basit karar yapılarına dönüştürmektir. Heterojen veri setleri belirlenmiş bir hedef değişkene göre homojen alt gruplara ayrılır. Genelleme kaygısı yok ise başarılı sonuçlar verir.

Genelleme kaygısı yoksa şu demektir : “Öyle bir model oluşturalım ki yeni gelen verileri de tahmin etsin, genellenebilir bir model olsun” değil de “ sadece mevcut veri setini tanıyalım ise “ uygun bir modeldir. Yani aslında model mevcut dataya overfit oluyor, ama zaten genelleme kaygısı olmadığı için overfit olmasında da sorun yok. Çünkü amaç mevcut veri setinin anlamlandırılmasıdır. Yani modelin veri setini aşırı öğrenmesi ve veri seti ile ilgili tam bilgiler vermesi amaçlanır. Yeni veri girip de tahmin etme gibi bir amaç yoksa eğer CART en uygun modeldir.

Bagged Tress :

Temeli boostrap yöntemi ile oluşturulan birden fazla karar ağacının ürettiği tahminlerin bir araya getirilerek değerlendirilmesine dayanır.
T adet ağaç için n er adet gözlem (n<m) bootstrap yöntemi ile seçilir. T adet karar ağacı modelinin ürettiği T adet tahmin değerini bir araya getirir. Ağaçların diğer ağaçlarla bağlamı yoktur. Örneklerin her bir ağacın oluşturulmasındaki olasılığı eşittir. Çekilen örneklerin 2/3 ü ağaçların oluşturulması diğer kısım ağacın performansının test edilmesi için ayrılır. Bagging(yeniden örneklem yöntemi ile elde edilen ağaçların bir araya getirilmesi) yöntemi cart a göre aşırı öğrenmeyi engellemiştir. Bagging bir metodoloji olarak görülmelidir.
CART + bag =bagged tree çıkar
CART + bag(gözlem hem değişken bazında) = Random Forests

Random Forests :

Temeli birden çok karar ağacının ürettiği tahminlerin bir araya getirilerek değerlendirilmesine dayanır.

  • Karar ağacının her bir düğümünde en iyi dallara ayırıcı(bilgi kazancı) değişken tüm değişkenler arasından rastgele seçilen daha az sayıdaki değişken arasından seçilir.
  • Ağaç oluşturmada veri setinin 2/3 ü kullanılır. dışarıda kalan veri ağaçların performans değerlendirmesi ve değişken öneminin belirlenmesi için kullanılır.
  • Her düğüm noktasında rastgele değişken seçimi yapılır.
  • Nihai tahmin için ağaçlardan tahmin değerleri talep edilirken her bir ağacın daha önce hesaplanan hata oranları göz önüne alınarak ağaçlara ağırlık verilir.

Gradient Boosting Machines :

  • Artıklar üzerine tek bir tahmin modeli formunda olan modeller serisi kurulur.
  • Zayıf öğrenicileri bir araya getirip güçlü bir öğrenici ortaya çıkarmak fikrine dayanır.
  • Boosting + Gradient Descent

Gradient boosting tek bir tahminsel model formunda olan modeller serisi oluşturur. Seri içerisindeki bir model serideki bir önceki modelin tahmin artıklarının/hatalarının üzerine kurularak (fit) oluşturur. GBM diferansiyellenebilen herhangi bir kayıp fonksiyonunu optimize edebilen Gradient descent algoritmasını kullanır.

--

--