Whoscored Verisinden xG Hesaplama

Sezer Unar
Türkçe Yayın
Published in
3 min readSep 30, 2019

Futbol istatistikleri ile içli dışlı olanlar için paha biçilmez bir site olan whoscored.com’da Beklenen Gol (xG) verisi de olsa ne güzel olurdu değil mi? Bilhassa Türk spor medyasında da artık adını sıkça duymaya başladığımız xG, oyuncu ve maç hakkında çok değerli hikayeler anlatıyor. Bütün bunlar bu yazının konusu değil. Google’da yapacağınız kısa bir araştırma ile çok güzel içeriklere ulaşabilirsiniz.

Peki ama xG istatistiğine nasıl ulaşabiliriz? Understat.com üzerinden La Liga, Premier League, Serie A, Ligue 1, Bundesliga ve Rusya Süper Lig’lerinin beklenen gol tabanlı bütün verilerine bedava olarak ulaşabilirsiniz. Ancak bizler Vedat Muriç’i, Falcao’yu, Burak Yılmaz’ı ya da Fenerbahçe’yi, Alanyaspor’u merak ediyoruz diyorsanız doğru yerdesiniz.

Bu konu üzerine yaptığım hızlı bir araştırma ile tam buradan ulaşabileceğiniz bir paylaşım buldum. Bu yönteme biraz değindikten sonra benim R üzerinden yaptığım bir diğer yönetimi anlatmak istiyorum.

Bildiğiniz gibi xG, maçta çekilen şutların gol olma olasılığıdır. O halde Whoscored’a giderek La Liga’nın 2018–2019 şut ve gol istatistiklerine bakalım.

2018–2019 La Liga’daki takımların şut ve gol istatistikleri

Tabloya yakından bir göz atalım. Ceza sahası dışından çekilen 3483 şutun 128'i gol olurken, ceza sahası içinden çekilen 5095 şutun ise 634'ünde top ağlarla buluşmuş. Altı pastan kaleye gönderilen şut sayısı az olduğu halde tabelaya katkısı, doğal olarak oldukça yüksek görünüyor. Girişim ve sonucu, bölgeye göre oranlarsak basit xG hesabımız için katsayıları bulmuş oluruz.

Şutun atıldığı bölgeye göre xG oranı

Bu tabloya baktığımızda ceza sahası içinden çekilen her 100 şutun 12'si gol olmuş çıkarımını yapabiliriz.

Burada önemli bir noktaya değineceğim. Ben sadece La Liga’nın verilerini aldım. Siz bir çok ligden veri alıp, katsayıları daha isabetli bulabilirsiniz.

Oluşturduğumuz bu modelden yola çıkarak Vedat Muriç’in 2019–2020 sezonu ortalama Beklenen Gol istatistiğini tahmin etmeye çalışalım. Oyuncunun şut verisini Whoscored üzerinden kolayca bulabilirsiniz.

Toplamda 6 maçta forma giyen oyuncu (maç başına ortalama) ceza sahası dışından 1, ceza sahası içinden 2,5 ve altı pastan 0,5 şut çekmiş.

(1 x 0,04) + (2,5 x 0,12) + (0,5 x 0,29)

Bu işlem sonrasında Vedat’ın maç başına 0,48 xG’ye sahip olduğunu görmüş oluruz.

Çoklu Doğrusal Regresyon İle Hesaplama

Şimdi, RStudio üzerinden uyguladığım bir diğer yönteme değinmek istiyorum.

Şut bölgeleri whoscored’dan, xG değeri ise Understat üzerinde alınmış veri seti

Yine 2018–2019 sezonunu içeren toplam 145 tane oyuncunun hangi bölgeden kaç şut attığını whoscored üzerinden aldım. Understat.com’a giderek bu 145 tane oyuncunun maç başına ne kadar xG değeri ürettiklerini de kaydettim. Böylece doğrusal regresyonda kullanmak üzerinde bir veri setine sahip olduk.

Bağımsız değişkenimiz “xG” isimli sütun iken, onu tahmin edebilemek için diğer üç bağımlı değişkeni kullanacağız.

Test ve train ayrımı yaptıktan sonra lm fonksiyonu ile modeli kurdum. Summary fonksiyonu ile modelimize bir göz atalım.

Model çıktısı

P-value değeri düşük, bağımlı değişkenlerimiz de anlamlı. Kısacası, başarılı bir model kurduk. Şimdi test olarak ayırdığımız verileri model yardımıyla tahmin edip gerçek değerleri ile karşılaştıralım.

“pred”, model ile tahmin ettiğimiz xG değerleri iken, “obs” ise gerçek değerler

Kimi oyuncularda tahmin değeri oldukça iyi iken, bazılarında yaklaşık bir sonuç ortaya çıktı. Kullandığımız veriler kısıtlı olduğu için süper bir başarı beklemek anlamsız olacaktır. Çünkü ceza sahası içindeki her noktanın da xG değeri aynı değil; fakat whoscored.com’da sadece 3 bölgeye ait şut verisine sahibiz. Ben çoklu doğrusal regresyonu kullanmayı tercih ettim ancak başka algoritmalar da kullanılabilir. Hatta onların tahminleri daha isabetli de olabilir.

Sonuç olarak elimizde kısa bir sürede yapabileceğimiz basit bir xG modeli oldu.

--

--