Makine Öğrenmesi ile Ev Fiyatlarının Tahmini

Zehra Düzenli
3 min readJul 12, 2021

Bu makale Zehra Düzenli tarafından Alparslan Mesri danışmanlığında hazırlanmıştır.

Kaggle’dan aldığımız verilerle XGBoost algoritmasını kullanarak ev fiyatlarının tahmini üzerinde çalıştık. Veri seti ve değişkenlerin özellikleri için tıklayın.

Veri Ön İşleme

df_train

Önce df_train verilerine göz atmak istiyorum. Eksik verileri ve türlerini görmek istiyorum. Bunu ısı haritasıyla görselleştiriyorum(figure_size görselin boyutunu büyütmek için kullanıldı).

Çıktı:

Ev fiyatlarının tahminini yaparken ‘Id’ sütununu kullanmayacağımız için siliyorum. ‘Alley, PoolQC, Fence, MiscFeature’ sütunlarında verilerin 1/3'ü eksik olduğu için siliyorum.

Eksik verilerden veri tipi ‘object’ olanları mod, ‘int64’ ve ‘float64’ olanları ortalama ile dolduruyorum.

Çıktı:

GrLivArea ve SalePrice arasındaki aykırı değerleri saçılım grafiği ile inceledim ve iki değeri sildim. Bu iki değer yapacağımız tahminin doğruluğunu düşürebilirdi.

2.satır çıktısı:

Aykırı değerler silindikten sonra:

df_test

df_train için uyguladığım her adımı df_test için de uyguluyorum.

Çıktı:

Çıktı:

Tahmin

Bağımlı ve bağımsız değişkenleri belirlendikten sonra veri seti eğitim ve test olmak üzere ayırdım.

XGBRegressor’u parametre vermeden fit ettim.

Tahminleri çıkardıktan sonra RMSE değerini hesapladım.

Model bir evin fiyatını 25.510 Dolar hata ile tahmin ediyor. Verilerde evlerin ortalama fiyatı 180.932 Dolar. Bu durumda %14 hata ile ev fiyatlarının tahminini yapabiliriz.

Modelin Optimize Edilmesi

Modeli optimize ederek daha iyi bir sonuca ulaşmaya çalıştım. Modeli optimize etmek için GridSearchCV kullandım. XGBoost modeli için kullanabileceğim parametreleri inceledim ve farklı değerler vererek en iyi parametrelerin neler olduğuna baktım. (Parametrelere birçok değer vererek denedim. Sadece en iyilerini size sundum.)

Modele en iyi parametreleri vererek yeniden fit ettim ve RMSE değerini hesapladım.

Ev fiyatlarının ortalama fiyatının 180.932 Dolar olduğunu belirtmiştim. Modeli optimize ettikten sonra tahmin hatası 21.388 Dolar’a düştü. Artık %88 doğruluk oranı ile ev fiyatlarını tahmin edebiliyoruz.

--

--