Yapay Zeka Dünyasında 2024'ün Son Trendi: GPT-4o

Seyma Candogan
Fiba Tech Lab
Published in
3 min readMay 23, 2024

Yapay Zeka son yıllarda hayatımızın neredeyse her alanında hızla yerini alarak dünyayı baştan sona değiştiren en heyecan verici gelişmelerden birisi oldu. Hayal dünyasının ötesine geçen yenilikleri ile sürekli gelişen bir etkileşimi de beraberinde günümüze taşıyor.

Bugün sanattan bilime, sağlıktan eğitime, siyasetten finansa, otomasyondan ulaşım sektörüne kadar yapay zekanın gelişim alanı sürekli değişmekte, değişerek yenilenmekte ve ilerlemektedir. Etki alanları bu denli geliştikçe karar süreçlerine de destek sağlayan yapay zeka aynı zamanda karar verme mekanizması olarak da potansiyelini arttırıyor.

Kaynak: https://www.krater.ai/

2024 yılının yapay zeka destekli teknolojilerinin hızla geliştiği bir dönem olduğunu söylemek oldukça mümkün. Open AI, Anthropic, Cohere Inc. gibi şirketlerin öncülüğünde amaca uygun ve kapsamlı temel modellerin yapay zeka alanındaki etkisi büyüktür. Bu şirketler derin öğrenme ve doğal dil işleme, insan benzeri yapay zeka gibi alanlarda önemli başarılar elde ederek bu teknolojileri daha da ileriye taşıma potansiyeline sahiptir.

Bu ara çok yeni açıklanan (13.05.2024) GPT-4o son günlerin en ses getiren gelişmesi olarak düşünülüyor. Open AI kendi sitesinde bu gelişmeyi şöyle detaylandırıyor; “ GPT-4o “omni” için (“o”) çok daha doğal insan-bilgisayar etkileşimine doğru atılmış bir adımdır; herhangi bir metin, ses, görüntü ve video kombinasyonunu girdi olarak kabul eder ve herhangi bir metin, ses ve görüntü kombinasyonuna çıktılar oluşturur. Ses girişlerine 232 milisaniye gibi kısa bir sürede, ortalama 320 milisaniyede yani insan tepki süresine benzer bir sürede yanıt verebilmektedir. İngilizce ve koddaki metinlerde GPT-4 Turbo performansıyla eşleşerek İngilizce dışındaki dillerdeki metinlerde önemli bir iyileşme sağlarken aynı zamanda API’de çok daha hızlı ve %50 daha ucuzdur. GPT-4o, mevcut modellerle karşılaştırıldığında özellikle görüntü ve ses anlama konusunda çok daha iyidir. Modelleme yetenekleri; GPT-4o’dan önce, ortalama 2,8 saniye (GPT-3.5) ve 5,4 saniye (GPT-4) gecikmelerle Chat GPT ile konuşmak için ses modunu kullanabiliyordunuz. Bunu başarmak için, ses modu üç ayrı modelden oluşan bir işlem hattıdır: Basit bir model, sesi metne dönüştürür, GPT-3.5 veya GPT-4 metni alır ve metnin çıktısını verir ve üçüncü bir basit model, bu metni tekrar sese dönüştürür. Bu süreç, ana zeka kaynağı olan GPT-4'ün çok fazla bilgi kaybettiği anlamına gelir; ses tonunu, birden fazla konuşmacıyı veya arka plan seslerini doğrudan gözlemleyemez ve kahkaha, şarkı söyleme veya duygu ifade etme çıktısı veremez. GPT-4o ile metin, görüntü ve ses genelinde uçtan uca tek bir yeni model eğittik; bu tüm giriş ve çıkışların aynı sinir ağı tarafından işlendiği anlamına geliyor. GPT-4o, tüm bu yöntemleri birleştiren ilk modelimiz olduğu için, modelin neler yapabileceğini ve sınırlamalarını keşfetmenin henüz sadece yüzeysel aşamasındayız.” [1]

Bir örnek olarak; Open AI model değerlendirmesine baktığımızda da sesli çeviri performansında iyi bir seviyeye gelebileceği rahatlıkla görülüyor.

Sesli çeviri performansı: GPT-4o, konuşma çevirisinde yeni bir son teknoloji ürünüdür ve MLS karşılaştırmasında Whisper-v3'ten daha iyi performans gösterir. [1]

Diğer bir örnekte ise farklılıkları inceleyebiliriz;

Tablo 1: GPT-4 ile GPT-4o arasındaki temel farklar [2]

Gelecekte yapay zekanın nasıl değişeceği, gelişeceği ve insan hayatını nasıl dönüştüreceği değerlendirilirken bu teknolojinin sunacağı imkanların yanı sıra risklerinin de büyük rol oynadığını unutmamak gerekiyor. Etik değerleri ve güvenlikle ilgili sorunları hassasiyetle takip edip, önemini anlamak ve güvence altına almakta yapay zekanın gelişimini takip ettiğimiz kadar önemli bir konu.

Center for Human Technology bu bağlamda teknolojinin insan yaşamı üzerindeki olumlu etkilerini arttırmak, teknoloji şirketlerini etik ve insan odaklı bir yaklaşım benimsemeye teşvik etmek için çalışır. Center for Human Technology’nin kurucu ortaklarından Tristan Harris’e göre insanlığın işletim sistemi olan dil oldukça etkili bir araçtır gene Harris’e göre yapay zekanın manipüle etme gücünü kazanmasıyla işletim sisteminin kontrolünü ele geçirmesi de mümkün, bu yüzden Harris’in çalışmaları yapay zekanın etik boyutları hakkında farkındalık oluşturmak amacıyla iyileştirmeler yapmalarına yönelik bir uyarı niteliğindedir. [3]

Sonuç olarak, tüm dünyanın insanlığa faydalı çözümler sunacağı, barış dolu, sağlıklı ve mutlu bir hayatı yapay zeka bize getirir mi? Deneyip, göreceğiz.

Şeyma Candoğan

Referanslar

[1] https://openai.com/index/hello-gpt-4o/

[2] https://www.webtures.com/tr/blog/gpt-4o-nedir-yeni-getirilen-ozellikler-nelerdir/

[3] https://www.tristanharris.com/

--

--