YZT Gazete — 7. Sayı (10 Ocak 2021)

DALL · E: Metinden Görüntü Oluşturma

Sandalyenizi avokadolu mu alırdınız?

Demet Tangolar
ODTÜ Yapay Zeka Topluluğu

--

Öncelikle, GPT-3 nedir?

GPT-3 (Generative Pre-trained Transformer 3), insanların yazdığı metinlere benzer içerik üretmek için derin öğrenmeyi kullanan bir dil modelidir. GPT-3 San Francisco merkezli yapay zeka araştırma laboratuvarı OpenAI tarafından geliştirilmiştir.

DALL · E nedir?

GPT-3 gibi, DALL · E de transformer bazlı bir modelidir. Metin-görüntü çiftlerinden oluşan bir veri kümesi kullanarak metin açıklamalarından görüntüler oluşturmak üzere eğitilmiş 12 milyar parametreli bir modeldir. Modelin adı ise sanatçı Salvador Dalí ve Pixar’ın WALL · E karakterinden ilham alınarak konulmuştur.

DALL · E, sadece metin girdisi ile sıfırdan bir görsel üretmenin yanı sıra var olan görsellerin parçalarını da girdi metnine göre değiştirme kabiliyetine sahiptir. Bunu görseli tek sefer de değil de, metin ve oluşturacağı görseli parçalara bölerek her adımda maximum likelihood prensibine göre görselin bir kısmını oluşturmasına borçludur.

DALL · E neden önemlidir?

DALL · E ‘nin hayvanların ve nesnelerin antropomorfize edilmiş (insanî niteliklerin başka bir varlığa atfedilmesi) versiyonlarını oluşturma, ilgisiz kavramları makul şekillerde birleştirme, metin oluşturma ve mevcut görüntülere dönüşümler uygulama gibi çeşitli yeteneklere sahip olduğu bulundu.

Araştırmacılar, bu bulgular ışığında görsel kavramları dil aracılığıyla değiştirmenin artık ulaşılabilir olduğunu düşünmekte. Araştırmacılar gelecekte DALL · E gibi modellerin belirli iş süreçleri ve meslekler üzerindeki ekonomik etkisini, model çıktılarındaki ön yargıyı ve bu teknolojinin ima ettiği uzun vadeli etik zorluklar gibi toplumsal sorunlarla nasıl ilişkili olduğunu analiz etmeyi planlıyor.

DALL · E ‘nin neler yapabildiğine dair bazı örnekler:

DALL · E’nin, gramatik olarak zorlayıcı ve anlaşılması göreceli olarak zor olan çeşitli cümleler için makul görüntüler oluşturabildiği görüldü. Çeşitli konularda yeteneği test edilen DALL · E‘nin oluşturduğu görsellerden bazı örnekleri aşağıda inceleyebilirsiniz.

Birden çok obje çizme: Mavi şapka, kırmızı eldiven, yeşil t-shirt, sarı pantolon giymiş bir bebek penguen emojisi

İlgisiz kavramları birleştirme: Arptan yapılmış bir salyangoz

Hayvan çizime: Köpek gezdiren tütü giymiş bir bebek turp

Coğrafi bilgi: Alamo Meydanı, San Francisco ‘da bir akşam

2021’de Yapay Zekâ alanında bizi neler bekliyor?

  • RPA (robotic process automation) ve Yapay Zeka Odaklı Otomasyonun Büyümesi:

Bütçeleri zorlayan salgın süreci ile birlikte şirketler, eskiden çalışanların yaptığı karmaşık işlemleri yapabilen robotik otomasyona yöneldi. ‘Automation Anywhere’ adlı bir şirket, çalışanların otomasyonu genişletmeye yardımcı olmak için iş süreçlerinde etkili olabilecek dijital asistanlar geliştirdi.

  • Siber Güvenlik ve AIOps’a (bilişim teknoloji operasyonları için yapay zekâ) Doğru Tutarlı ve Hızlandırılmış bir Geçiş:

2021’de yapay zekanın siber güvenlik ve bilişim teknolojileri sorunlarını önleyici bir rol aldığını göreceğiz. Özellikle uzaktan çalışmanın bu kadar yaygın olduğu bir dönemde ve insanların güvensiz cihazlarda çalıştığını göz önünde bulundurursak yapay zekâ yine imdadımıza yetişecek.

  • Pazarlama için Kişiselleştirilmiş Yapay Zeka:

Pazarlama gibi yapay zeka da veriye ihtiyaç duyar. Yapay zeka ve pazarlamanın bir araya gelmesiyle kişiye özel reklamlar ve ürünler bizi bekliyor olacak. Bir müşteri hakkında daha fazla veri toplanmaya devam edildikçe, bir sonraki en iyi eylemi veya mükemmel teklifi tahmin etme yeteneği de gelişmeye devam edecektir.

Tüm gazetecilerin dünya gazeteciler günü kutlu olsun!

Hazırlayanlar: Demet Tangolar (DALL-E), Hacı Lale.

Katkıları için diğer YZT üyelerine teşekkürlerimizi sunuyoruz.

İletişim için: odtuyzt@gmail.com, Instagram, Twitter, Linkedin.

--

--