Makine Öğrenimi ile 2024 Başkanlık Seçimi Sonucu Olasılıklarını Tahmin Etme

Marduk
Official Allora Community
7 min readJul 24, 2024

Bir başkanlık seçiminin sonucunu tahmin etmek, veri bilimcilerin, istatistikçilerin ve siyasi analistlerin on yıllardır ilgisini çeken büyüleyici bir zorluktur. 2024 ABD Başkanlık Seçimi de bu açıdan bir istisna değildir. 2008 yılında Nate Silver, anketleri birleştirip titiz istatistiksel analizler uygulayarak seçim tahminlerine veri odaklı bir yaklaşımı popüler hale getirdi. Bu yöntemler oldukça etkili olduğunu kanıtlamıştır, ancak ciddi önyargılar ve beklenmedik olayları hesaba katma zorlukları gibi doğuştan gelen sınırlamaları vardır. Silver, bu faktörleri, anket önyargısını bir şekilde kontrol etmeye çalışan anketör sıralamaları ile kontrol etmeye çalıştı, ancak anketörlerin neredeyse tamamı aynı yönde önyargılı olduğunda ne olur? Bu, FiveThirtyEight’in Hillary Clinton’a %71 kazanma olasılığı verdiği 2016 tarihi seçimindeki gibi felaket model hatalarına yol açar.

Bunun yerine, anket sonuçlarını etkileyen temel faktörleri modellemeye ve seçimleri daha büyük bir doğrulukla tahmin etmek için makine öğreniminin gücünden yararlanmaya karar verdim. Geleneksel istatistiksel yöntemlerin aksine, ML geniş ve karmaşık veri kümeleriyle başa çıkabilir, yeni bilgiler geldikçe öğrenebilir ve uyum sağlayabilir. Bu uyarlanabilirlik, seçimlerin dinamik ve çoğu zaman öngörülemeyen doğası için onu özellikle uygun kılar.

Bu model, Allora Network aracılığıyla, en doğru seçim tahminlerini üretmeyi amaçlayan yeni bir konunun parçası olarak birden fazla modeli bir araya getirmek amacıyla entegre edilecek. Allora ile, birden fazla tahmin modelini ve veri setini birleştirerek toplamının parçalarının toplamından daha büyük olan bir model oluşturabiliriz. Bu entegrasyon, çeşitli veri kaynaklarını ve modelleme tekniklerini birleşik bir çerçevede kullanarak seçim tahminlerimizin sağlamlığını ve doğruluğunu artırır.

Sorunu Tanımlama

Başkanlık seçim sonucunu tahmin etmek, sadece kimin popüler oyu kazanacağını tahmin etmek kadar basit değildir. ABD’nin Seçim Koleji sistemi 51 ayrı yarışı (50 eyalet artı Washington D.C.) belirler. Her yarış ulusal sonuca katkıda bulunur, bu da her parçanın önemli olduğu karmaşık bir bulmaca oluşturur.

Temel Hususlar:

  1. Bireysel Eyalet Yarışları: Her eyaletin benzersiz bir siyasi manzarası, demografik yapısı, ekonomisi ve oy verme yasaları vardır, bu da her eyaletin sonucunu tahmin etmeyi farklı bir meydan okuma haline getirir.
  2. Ulusal Toplama: Genel seçim sonucu, popüler oy değil, Seçim Koleji sistemi tarafından belirlenir, bu da tahmin görevine bir karmaşıklık katmanı ekler.
    Veri Kaynaklarının Seçimi

Seçim sonuçlarını tahmin etmek için sağlam bir ML modeli oluşturmak için çeşitli veri kaynaklarını bir araya getirdim. Bunlar arasında şunlar bulunmaktadır:

Tarihsel Anket Verileri: 1940'lara kadar uzanan Başkan onayı verilerini topladım. İşte son 15 Başkan için “Onaylama — Onaylamama” dağılımı:

Daha sonra, bir parti için işareti ters çevirerek, ulusun genel olarak sola mı yoksa sağa mı eğildiğini gösteren bir “ulusal duyarlılık göstergesi” elde edebiliriz:

2. Makroekonomik Veriler: “Mesele ekonomi, aptal!” Bill Clinton’ın kampanyası, 1992 seçim döngüsünde bu ifadeyi ortaya attı. Özellikle görevdeki başkanın yeniden seçilmek için yarıştığı seçim yılları, görevdeki partinin ilk döneminde nasıl performans gösterdiğine dair bir değerlendirmedir. Politikacılar ne kadar seçmenleri kendi taraflarına çekmek için bölücü konuları kullanmaya çalışsalar da, seçmenler ceplerindeki acıya yanıt verir.

İşte Başkan onay oranları ile 12 aylık enflasyonun yan yana çizildiği grafik. Bu iki seri, -.28'lik bir korelasyona sahiptir, bu da enflasyonun seçim sonuçlarında önemli bir belirleyici olduğunu gösterir. Özellikle, enflasyon aşırı değerlere ulaştığında (> %7), ortalama onay farkı, enflasyon kontrol altında olduğunda göre 22 puan daha düşük olur. Bu, özellikle 40 yılın en yüksek seviyelerine ulaşan enflasyonla 2024 seçiminde önemlidir. Enflasyonun yanı sıra, her eyaletin işsizlik ve konut uygunluğu metriklerine de bakıyoruz.

3. Tarihsel Eyalet Seçimleri: Eyalet düzeyindeki geçmiş seçim sonuçları, oy verme kalıpları hakkında değerli bilgiler sağlar. Eyaletler genellikle küçük sapmalarla tarihsel çizgiler boyunca oy kullanma eğilimindedir. Her eyalet için uzun vadeli ortalamaları ve bir savaş alanı eyaletinin devrilip devrilmeyeceğini gösterebilecek eğilimleri hesaplıyoruz.

4. Tarihsel Temsilciler Meclisi Seçimleri: Başkanlık seçimleri her dört yılda bir yapılırken, Temsilciler Meclisi seçimleri her iki yılda bir yapılır. Bu, Başkanlık seçim döngüsünde ortaya çıkabilecek eğilimler hakkında bize ileriye dönük bir fikir verir.

5. Irksal Demografi: Farklı ırksal gruplar arasında seçmen tercihleri büyük ölçüde değişir. Beyaz seçmenler Cumhuriyetçi Parti’yi %15 oranında tercih ederken, siyah seçmenler Demokrat Parti’yi yaklaşık %60 oranında tercih eder (bu eğilim değişmeye başlıyor). Bu dinamikleri ve altta yatan eğilimleri yakalamak için demografik verileri topladım.

Birçok eyalette, beyaz nüfusun azalırken, siyah, Latin ve Asyalı nüfusların arttığı genel bir eğilim görüyoruz.

6. Coğrafya: Eyaletler, coğrafi bölgelerindeki diğer eyaletlerle değerler ve kültürel benzerlikler paylaşır. Örneğin, Maine, Connecticut, New Hampshire ve Vermont, Pilgrim kolonileri olma ortak bir Yeni İngiltere kültürel geçmişini paylaşır. Buna karşılık, Mississippi, Alabama ve Georgia gibi Güneydoğu eyaletleri, tarımsal ekonomileri ve ırksal geçmişlerine dayalı başka bir kültürel geçmişe sahiptir.

7. Yasa Dışı Göçmen Sayısı, Seçmen Kimlik Yasaları ve Posta ile Oy Verme Durumu:

Ana akım medyanın seçmen sahtekarlığının var olmadığını sürekli iddia etmesine rağmen, seçmen kimliği eksikliğinin ve büyük bir yasa dışı göçmen nüfusunun seçim sonuçları üzerinde yasadışı bir etkiye sahip olabileceğini görmek için veri dehası olmaya gerek yoktur. Gerçekten de, yasa dışı göçmen nüfusunu seçim sonuçlarıyla karşılaştırdığımızda, şu grafiği elde ediyoruz:

Korelasyon -0.24, yasa dışı göçmen nüfusu, neredeyse enflasyon kadar güçlü bir tahmin edicidir.

Hedef Değişkeni Seçme

Etkili bir ML modeli oluşturmak için hedef değişkenin seçimi çok önemlidir. Bu görev için birkaç potansiyel hedef değişkeni dikkate alıyoruz:

  1. Fark (R-D): Cumhuriyetçi ve Demokrat adaylar arasındaki oy payı farkı.
  2. Ulusal Ortalamadan Sapma: Her eyaletin farkının ulusal anket ortalamasından nasıl saptığı.
  3. Uzun Vadeli Ortalama Sapma: Mevcut sonuçların her eyaletteki tarihsel oy verme kalıplarına göre nasıl olduğu.

Peki hangi hedefi seçiyoruz? Nihayetinde, seçim dinamiklerini mümkün olduğunca çok açıdan yakalamak istedim, bu yüzden tüm bu yanıtlar için modeller oluşturdum ve ardından tüm tahminler arasında bir ortalama aldım.

Model eğitimi sırasında, örnekleri ağırlıklandırma konusunda dikkatli olmalıyız çünkü her eyalet eşit yaratılmamıştır. Kaliforniya ve Teksas gibi daha kalabalık eyaletler, Wyoming veya Kuzey Dakota gibi seyrek nüfuslu olanlardan daha fazla seçici oylarına sahiptir, bu da eğitim sırasında örneklerinin daha yüksek ağırlıklandırılması gerektiği anlamına gelir. Ayrıca, milletin ortaya çıkan sorunlara (teknolojik yenilik, jeopolitik gerilimler, demografik değişim veya yasa dışı göç gibi) tepki vermesiyle verilerde rejim değişiklikleri meydana gelir. Bu nedenle, son seçimlere uzak geçmiştekilerden daha büyük bir örnek ağırlığı vermemiz gerekiyor. Bunu üstel ağırlıklandırma düzeni kullanarak yapmayı seçtim.

Bu noktada, 3 farklı hedefim, artı üstel ağırlıklandırma parametresi için çeşitli seçimlerim var ve bu da büyük bir potansiyel model sayısı ortaya çıkarır. Tüm tahminler arasında basit bir ortalama alarak, aşağıdaki sonuçları elde ediyoruz:

Öngörünün canlı performansını daha iyi anlamak için, herhangi bir ileriye dönük önyargının sızabileceği yerleri dikkatlice temizlememiz gerektiğini not etmek önemlidir. Sonuçlar, modelin canlı performansını daha iyi anlamak için örnek dışı veriler kullanılarak üretildi.

Olasılığı Hesaplama

Ancak, seçim kazananı için nokta tahmini yapmak yeterli değildir. Kazanma olasılıklarını da ölçmek istiyoruz, bu nedenle kantil regresyonu kullandım. Bu yöntem, belirli olasılık düzeylerinde farkı tahmin etmemizi sağlar. Demokratlar ve Cumhuriyetçiler için tahmin edilen kantillerin nerede kesiştiğini inceleyerek, her eyaletin hangi yöne kayma olasılığını belirleyebiliriz. Bu olasılıkçı yaklaşım, basit bir ikili kazanma/kaybetme modelinden daha ayrıntılı ve sağlam bir tahmin sağlar.

Kantitatif Regresyon Adımları:

  1. Model Eğitimi: Her eyaletin seçim sonucu farkını (R-D) tahmin etmek için 0 ile 1 arasındaki koşullu kantilleri tahmin etmek için tarihsel veriler üzerinde kantil regresyon modeli eğitmek.
  2. Ulusal Sonuç Toplaması: Her kantilde, her eyaletteki ve ulusal seçimdeki kazananı hesaplamak.
  3. Kesme Kantili Bulmak: Olasılıkların Demokrat zaferinden Cumhuriyetçi zaferine geçtiği kantili bulmak.

Sonuç

3 Haziran 2024'te modelim, %62.5 Cumhuriyetçi zaferi ve %37.5 Demokrat zaferi olasılığı tahmin etti. Bu olasılıkların, tek bir aday yerine tüm partinin kazanma şansını yansıttığını belirtmek önemlidir. Çünkü Trump Cumhuriyetçi Parti’deki tek adaydır, %62.5'lik tüm oran Trump’a gider. Ancak Demokrat Parti’de, yaşlı Biden’ın yetişememesi durumunda bir grup aç akbaba gibi bekleyen bir Başkan Yardımcısı ve birden fazla vali var. Hepsi bir arada, %37.5 zafer olasılığı tahmin edildi.

O sırada Polymarket’te Trump’ın hisseleri $0.53'te işlem görüyordu, Biden ise yaklaşık $0.38'deydi ve Michelle Obama ile Gavin Newsom’un birkaç centi vardı. Modelimize göre Trump düşük değerli olacak ve tüm Demokratlar fazla değerli olacaktı. Haziran ayı boyunca, Trump’ın hisseleri model tahminimize yetişmek için $0.60'a yükseldi. Bu, dört haftadan kısa bir sürede %13'lük bir getiri olurdu! Güzel.

(Bu yazının yazıldığı sırada, 2 Temmuz 2024'te modelin çıktıları Trump için %62.5 ve tüm Demokratlar için %37.5 olarak kaldı. Ancak, Biden’ın ilk CNN tartışmasında nasıl ağır bir darbe aldığını yansıtan anket sonuçları geldikten sonra bunun değişmesini bekliyorum.)

Sonuç

Eğer herkesin TV’deki siyasi yorumcuları yapay zeka ile değiştirilmesi gerektiği konusunda hemfikir olacağı bir iş olsaydı, bu iş olurdu. Seçim sezonunun, televizyonlarda birbirlerine bağıran konuşmacılarla dolu olduğu bir dünyadan, ML modellerinin kazanacak olanı ve nedenini tarafsız analizlerle ortaya koyduğu bir dünyaya dönüştüğünü hayal edin. Seçim yorgunluğundan muzdarip birçoğumuz için ne büyük bir rahatlama olurdu!

Yani, ister makine öğrenimi meraklısı, ister siyasi bağımlı, isterse teknolojinin mümkün olanın sınırlarını zorlamasını seven biri olun, bu yolculuğa katılın. 2024 Başkanlık Seçimini veriye dayalı, hem heyecan verici hem de içgörülü bir gösteriye dönüştürelim.

Yazar Hakkında

Alexander Huang, Allora Labs’ta Kıdemli ML Mühendisidir. Fintech, geleneksel finans ve ticarette veri bilimi alanında bir geçmişe sahip olup, en son J.P. Morgan’ın AI Hızlandırma ekibinde Veri Bilimi Başkan Yardımcısı olarak görev yapmıştır. Alex, Stanford Üniversitesi’nden Finansal Matematik Yüksek Lisans derecesine sahiptir.

--

--