Reinforcement Learning Uygulama ve Araştırma Alanları: Genel Bir Bakış

Yusuf
Yusuf
Dec 21, 2020 · 5 min read

Reinforcement Learning ya da Türkçe kullanımı ile Pekiştirmeli Öğrenme, günümüzde vadettiği potansiyel sebebiyle birçok alanda yapay zeka araştırmacılarının odak noktası konumunda. Özellikle geçtiğimiz on yılda, veri havuzunun katlanarak çoğalmasının ve gitgide gelişen donanım teknolojisinin sağladığı işlem ve hesaplama gücünün akıl almaz artışının yol açtığı Deep Learning devriminin de bu ilgide payı olduğunu söylemek yanlış olmaz. Yapay sinir ağlarının da işin içine girmesiyle birlikte Deep Reinforcement Learning, kompleks sistemlerde ve belirsizlik ortamlarında karar verme problemleri başta olmak üzere birçok alandaki sorunları başarıyla çözmeye başladı ve devam ediyor. Bu yazıda, Reinforcement Learning’in uygulandığı veya uygulanmaya çalışıldığı alanlardan bahsedip mevcut araştırma yönlerini özetlemeye çalışacağım. Keyifli okumalar.

Deep Reinforcement Learning

Robotik

Robotik, RL araştırmacıları için en gözde uygulama alanlarından birisi dersek yalan olmaz. Özellikle sinir ağlarıyla harmanlanan RL algoritmaları, hava ve kara araçlarının kontrol&navigasyon sistemlerinde sıklıkla test edilmekte.

CNN (Convolutional Neural Networks) ağlarıyla entegre edilerek insansı robotların görme ve karar verme mekanizmalarındaki kullanım çalışmalarıyla da sıklıkla karşılaşıyoruz [1]. Üstelik otonom araçlarda RL tabanlı sistemlerin denendiği çalışmalar da bulunuyor [2]. RL’e ait en büyük sorun ve eleştirilerden biri ise bu denemelerin çoğunluğunun simülasyon ortamlarında gerçekleşip gerçek dünyaya uygulanmasının zor olması. Ancak çok hızlı ilerleyen alanlardan birini takip ettiğimiz için bu eleştirileri haksız çıkaran çalışmalara da yavaştan şahit oluyoruz. Örnek vermek gerekirse, Google’ın çatı şirketi Alphabet’in stratosferik helyum balonlarıyla dünya çapında internet sağlamayı hedeflediği Loon projesinde mühendisler, yeni navigasyon sistemleri için DRL tabanlı bir sistem oluşturduklarını ve başarıyla uygulamaya geçirdiklerini henüz geçtiğimiz günlerde açıkladılar [3] [4].

Loon Project

Dolayısıyla alandaki gelişmelerden yola çıkarak simülasyon ve gerçek dünya arasındaki bu uçurumun da geçici bir durum olduğunu öngörebiliriz.

Ekonomi ve Finans

Finans ve ekonomi bazı okurlar için belki ilginç gelebilir ama gerçekten de üzerinde büyük araştırmalar dönen alanlardan birisi de bu alan. Yatırım analizi, fon ve portföy yönetimi gibi alanlarda RL büyük başarılar gösteriyor [5]. Bunun sebeplerinden birisi problemi rahatlıkla MDP (Markov Decision Process) formülasyonuna uygulayabiliyoruz. MDP’nin ne olduğuna bu yazıda değinmeyeceğim ancak bilmiyorsanız bu yazıyı inceleyebilirsiniz [6]. Ayrıca yine RL kullanarak eşitlik ve üretkenliği geliştirmek amacıyla en optimal vergi sistemi politikası belirleyen bu çalışmaya da göz atabilirsiniz [7].

Oyunlar

Oyunlar için rahatlıkla RL’in en başarılı uygulandığı alan diyebiliriz. Hatta günümüzde bu kadar gözde ve heyecanlı bir araştırma alanı olmasına ve potansiyelinin fark edilmesine yol açan en büyük sebep dersek bile abartmış olmayız.

Kaynak

Özellikle 2016 yılında, DeepMind araştırmacılarının Monte-Carlo Tree Search algoritması temelli YZ programı AlphaGo’nun, uzun yıllardır bilgisayar programları için insanüstü seviyeye çıkması en zor görülen Go oyununda 18 kere dünya şampiyonu olan Lee Sedol’u yenmesi tüm dünyada büyük yankı uyandırmıştı [8]. Bunun üzerine yine DeepMind’ta geliştirilen AlphaGo Zero’nun daha da başarılı olması ile birlikte akademik camiada da RL’e olan ilginin kartopu etkisiyle arttığına şahit olduk [9]. Bir diğer yapay zeka araştırma şirketi olan OpenAI’daki araştırmacıların geliştirdiği OpenAI Five’ın, çok daha kompleks bir bilgisayar oyunu olan Dota 2’de dünya şampiyonu olan espor takımını yenmesini de bir diğer örnek olarak verebiliriz [10].

İyi de bu büyük araştırma şirketleri neden oyunlar üzerinde yapay zeka araştırmaları yapıyor, bu sonuçların kime ve neye faydası var? Kısaca bu soruya da bir açıklama getirmek istiyorum. Oyunlar üzerinde yapılan yapay zeka araştırmalarının temel sebebi, YZ sistemlerinin kompleks durumlarda karar alma yetisinin ve öğrenme mekanizmasının ne kadar kuvvetli ve gelişmiş olduğunu anlamak açısından mantıklı ve kolay bir yol olmasıdır. Zeka belirtisi göstermeyen ancak hızlı işlem gücü ve veri depolama gibi özelliklerde insan kabiliyetini geçen sistemler yıllardır zaten hayatımızın içinde (evet bu yazıyı okumanızı da sağlayan bilgisayarlar ve telefonları kastediyorum). Ancak popüler tabiri ile robotların, zekanın temelini oluşturan sezgi gibi bilişsel kabiliyetlere sahip olmaması, robotların daha kullanışlı ve zeki unsurlar olamamasının önündeki en büyük engel. Aslında yapay zeka araştırmalarının büyük çoğunluğunun da altında bu amaç yatıyor. Dolayısıyla insanların bilişsel yeteneklerini aktif kullanarak başarılı oldukları bu karmaşık oyunlarda yakalanacak başarılar aslında, Yapay Genel Zeka dediğimiz; düşünebilen, öğrenebilen, belirsizlik durumlarında optimum kararları verebilen sistemlerin geliştirilmesine yönelik atılmış bir adım olarak görülebilir.

Kaynak Yönetimi

Kaynak yönetimi de RL sistemlerinin başarılı olabildiği alanlardan biri. Burada kullandığımız kaynak kelimesinden aslında her türlü kaynağı algılayabilirsiniz. Bilgisayar ve Ağ sistemlerindeki kaynak yönetimi de [11], bir ticari organizasyonun ekonomik kaynaklarının yönetimi de bu alana dahil. Bunun yanında, enerji kaynaklarının yönetimi ve elektrik tüketimi optimizasyonu da RL’in çalışma alanlarına örnek olarak verilebilir.

Kimya

Kimyasal reaksiyonların DRL metotları kullanılarak optimize edilmesi örneği yardımıyla RL’in kimya alanındaki başarısını açıklayabiliriz. Normal çalışmalarda, kimyasal reaksiyonlarda istenilen sonucu elde edebilmek için deney ortamının ve şartlarının güncellenmesi gerekiyor. Sonuca göre değişkenleri optimal şekilde güncelleme kısmında ise DRL devreye giriyor. Bu alanda yapılan çalışmalara göre DRL algoritması sayesinde, önceden kullanılan en iyi algoritmadan %71 daha az adıma ihtiyaç duyuluyor ve bu, sürecin ciddi manada hızlanmasını sağlıyor [12].

Pazarlama ve Reklam

Pazarlamacıların karşılaştığı en büyük sorunlardan biri, iş dinamiklerinin ve insan tercihlerinin sürekli değişken olmasıdır. Bu dinamik ortamdaki değişkenleri öngörüp en kazançlı pazarlama stratejisini oluşturmaya da nihai amaç gözüyle bakabiliriz.

Tam olarak bu noktada ise RL devreye giriyor. Kişiselleştirilmiş öneriler, kitleye göre en uygun reklam içeriği, aşırı reklam yüklemesine sebep vermeyecek düzeyi yakalamak, fiyat değişikliklerine karşı müşteri tepkisini ölçmek gibi birçok uygulama alanında RL’in sağladığı avantajlardan faydalanıyor [13]. Bahsettiklerimin sadece teoride kalmadıklarını göstermek için bir örnek verelim, Moonrise [14]. Dünyanın en büyük teknoloji şirketlerinden Çin merkezli Baidu şirketinin bir ürünü olan Moonrise, aslında temel olarak RL tabanlı bir online marketing hizmeti olarak karşımıza çıkıyor. Bu örnekten yola çıkarak RL tabanlı sistemlerin endüstride de efektif bir şekilde kullanıldığı sonucuna ulaşabiliriz.

Bu yazıda Reinforcement Learning’in uygulama ve araştırma alanlarından sadece bazılarına değindim. Günümüzde yukarıda bahsedilenlerin dışında sağlık hizmetlerinden web sistemi konfigürasyonuna, trafik probleminden roket motoru üretimi sürecinin optimizasyonuna kadar birçok alanda daha uygulamalarla karşılaşabiliyoruz. Her geçen gün gelişmeye devam eden algoritmalarla beraber araştırmaların hızlanmasıyla bu teknolojinin birçok alanda daha aktif olarak uygulanmaya başlanacağını rahatlıkla öngörebiliriz.

Reinforcement Learning Turkiye

All things Reinforcement Learning

Reinforcement Learning Turkiye

All things Reinforcement Learning including model based , model free, robotics, genetic algorithms, custom environments, agents, RLtoSimulation and more !