BÜYÜK DIL MODELLERINDE PEKISTIRMELI OGRENME (Reinforcement Learnnig -RL) UYGULAMASI OLARAK CHAT GPT Örnegi

Published in

Academy Team

6 min readSep 11, 2023

Abstract:

Discover the fusion of reinforcement learning (RL) and large language models in the realm of artificial intelligence. This article provides a deep dive into the synergy between RL and models like GPT-3.5, unveiling their potential, challenges, and practical applications.

We explore the core concepts of RL while showcasing how RL-driven fine-tuning empowers language models to excel in various tasks, from chatbots engaging in dynamic conversations to content generators crafting contextually relevant text. However, this promising alliance also raises ethical considerations, including bias and responsible AI use.

Our article offers a comprehensive understanding of the current state of research and practical implementation in RL with large language models. By the end of this article, readers will grasp the exciting opportunities and complexities in this burgeoning field, shaping the future of AI-driven language innovations.

GİRİŞ

Yapay zeka alanındaki pekistirmeli ögrenme (Reinforcement Learning — RL) ve büyük dil modellerinin birleşimi, yapay zeka içinde çekici bir sinerjiyi temsil etmektedir. Bu makale, bu iki alan arasındaki karmaşık ilişkiyi keşfetmek amacıyla bir yolculuğa çıkararak potansiyellerini, temel zorluklarını ve gelişmekte olan uygulamalarını aydınlatıyor.

Makalemiz, RL’nin temel kavramlarını ve mekanizmalarını açıklayarak bir temel sunarken, aynı zamanda GPT-3.5 gibi büyük dil modellerinin yapısı ve yeteneklerine odaklanıp doğal dil anlama ve üretme konularında ne kadar güçlü olduklarını gösteriyor.

Makale boyunca, RL’nin dil modellerini yetkilendiren potansiyellerini keşfetmek amacıyla bu iki alanın birleşmesinin yarattığı heyecan verici olasılıkları ele almaya çalışacağız. Bu konu, özellikle önyargı ve sorumlu yapay zeka kullanımı gibi etik düşünceleri de gündeme getiriyor.

Bu keşif, büyük dil modelleriyle RL arasındaki mevcut araştırma ve pratik uygulama durumunu kapsayan kapsamlı bir anlayışı sunacaktır. Makalenin sonunda, bu hızla büyüyen alandaki heyecan verici fırsatları ve karmaşıklıkları kavrayarak yapay zeka tarafından desteklenen dil inovasyonlarının geleceğini şekillendirecek bilgiye sahip olmaya çalışcağız.

1. Pekiştirmeli Öğrenme (Reinforcement Learning)

Pekiştirmeli öğrenme, bir yapay zeka modelinin çevresiyle etkileşim kurarak deneyimlerden öğrenme yeteneğidir. Bu yöntemde, model belirli bir görevi gerçekleştirerek çevreden gelen geri bildirimlere dayanarak kendi performansını iyileştirir. Pekiştirmeli öğrenme yaklaşımı, yapay zekanin yada modelin etkileşimde bulunduğu çevreden elde ettiği ödül değerini ya en yüksek seviyeye çıkarmayı ya da en düşük seviyeye indirmeyi amaçlamaktadır.Bu yapay ajanlar(modeller), çevreleriyle etkileşim halinde oldukları zaman çevrenin belirli bir durumunda bulunurlar. Ajanlar bu durumda, bir dizi eylem gerçekleştirerek kararlar alırlar. Bu kararlar sonucunda ajanlar çevrede yeni bir duruma geçerler ve bu geçişler sonucunda, ajanlar çevreden pozitif veya negatif ödüller alırlar. Burada amaç, toplanan ödüllerin maksimum seviyeye ulaşmasını sağlamak ve yapay ajanların verdiği ardışık kararlarla hedeflenen görevi öğrenmelerini sağlamaktır. (Iplikci & Evdüzen, 2021)

Yukarıdaki Sekil 1'de R𝒕, yapay ajanın çevre tarafından verilen ödülü temsil eder. A𝒕, yapay ajanın çevreye ilettiği eylemleri ifade eder. St, yapay ajanın çevresel koşullarda bulunduğu durumları belirtir. Herhangi bir t anında, yapay ajan S𝒕 durumundayken At eylemini gerçekleştirir, R(𝒕+1) ödülünü alır ve sonuç olarak S(𝒕+1) durumuna geçer.

2. Pekiştirmeli Öğrenmede Kullanılan Kavramlar

Yukarıdaki şekil genel olarak pekistirmeli öğrenmede kullanılan kavramlari açıklasa da biz buradaki kavramlari Chat-GPT modeli üzerinden anlamaya gayret edeceğiz.

Ajan (Agent): Chat GPT gibi, bilgi işleme ve iletişim yeteneklerine sahip bir yapay zeka modelidir.

Çevre (Environment): Chat GPT’nin etkileşimde bulunduğu alan, kullanıcılar ve onların verilerini işlediği sanal ortamı temsil eder.

Aksiyon/Eylem (Action): Aksiyonlar, Chat GPT’nin cevap üretme veya bilgi sağlama gibi kararlarını ifade eder ve bu kararlar metin üretebilme veya bilgi sunabilme şeklinde olabilir.

Durum (State): Chat GPT’nin içsel durumu, çalışma belleği ve geçmiş konuşmalar gibi bilgileri içerir. Bu durum, modelin hangi bilgilere sahip olduğunu ve nasıl tepkiler verdiğini etkiler.

Ödül (Reward): Ödüller, kullanıcıların modelle etkileşimlerinin sonuçlarıdır. Olumlu geri bildirimler (örneğin, teşekkürler) veya olumsuz geri bildirimler (örneğin, düzgün cevap verememe) şeklinde olabilir.

Politika (Policy): Modelin belirli bir durumda hangi aksiyonu seçeceğini belirleyen politika, modelin dil anlayışı ve yanıt verme stratejisini temsil eder.

Yörünge (Trajectory): Chat GPT’nin etkileşimlerinin bir sonucu olarak üretilen metinlerin veya bilgilerin bir dizisi olarak düşünülebilir. Bu yörünge, modelin bir dizi kullanıcı sorgusu veya talebi karşılamasıyla oluşur.

3. ChatGPT ve Insan Geribildirimli Pekistirmeli Ögrenme

Kasım 2022'de OpenAI, büyük bir ilgi kazanan yenilikçi bir yapay zeka destekli sohbet botu olan ChatGPT’i piyasaya sürdü. Önceki sohbet botlarından farklı olarak, ChatGPT geniş bir soru yelpazesi için mantıklı ve tutarlı yanıtlar üretme konusundaki dikkate değer yeteneğini sergiledi.(Shahriar & Hayawi,2023)

ChatGPT’ten önceki birçok sohbet botu da dil modelleri kullanmıştır. Ancak, ChatGPT’nin tutarlı ve etkileyici yanıtlar vermesine olanak tanıyan ana bileşen, pekiştirmeli öğrenme kullanımına atfedilir (Shahriar & Hayawi,2023).

Bu bağlamda, insan değerlendiriciler ChatGPT’nin yanıtlarını sıraladılar ve bu da onun bazı parametrelerini optimize etmesine olanak sağlamış oldu. Nihayetinde daha iyi bir konuşmacı haline gelmesi sonucunu ortaya çıkardı. ChatGPT, 175 milyar parametreye sahip bir üretici oto-regresif dil modeli olan GPT-3'ün üzerine geliştirildi (Brown et al.,2020).

Ortaya çıkarılan bu model tabi ki insan değerleri ve etik kurallarıyla uyumlu olmak zorundaydı. Bu uyumu sağlamak için Insan Geri Bildiriminden Pekistirmeli Ögrenme(RLHF) teknigine basvuruldu. Bu tekniğe İnce Ayar (Fine-Tuning) denmektedir.

4. FINE TUNING (İnce Ayar)

ChatGPT ve InstructGPT, modelin ince ayar aşamasında insan geri bildirimlerinden takviyeli öğrenmeyi kullanır. Bunu assagidaki sekilde sunulan üç aşamaya ayırabiliriz.

**Sekil 2,Kaynak:** **https://openai.com/blog/chatgpt/**

Adım 1:

İlk aşamada, GPT-3.5'i ince ayarlamak için asistan ve kullanıcı rollerini oynayan insanlar tarafından sağlanan veriler kullanılir. Eğitmenler, yanıtları oluştururken model tarafından önerilen metinlere erişim imkanına sahiptiler. Bu diyaloglar, daha önceki InstructGPT sürümlerini kullanan kullanıcıların Playground üzerinden gönderdiği yönlendirmelerle birleştirilmistir. InstructGPT ile ilgili olarak, veri toplama adımı sadece InstructGPT veri setini almayı ve GPT-3 modelini ince ayarlamayı içerir (Christiano et.al.,2022). Bu adım, Şekil 3'te özetlenmiştir. Sonraki aşamalar ChatGpt ve InstructGpt ile aynı aşamalari içermektedir.

**Sekil 3 Dil Modeli Egitimi, Kaynak:https://huggingface.co/blog/rlhf**

Adım 2:

İkinci adım, ödül modeli eğitimine odaklanmaktadır. İlk adımda kullanılan dil modeli, insanların tercihlerini ifade etmek için karşılaştırarak sıraladıkları yanıtların örneklerini hazırlamak için kullanılır. InstructGPT modellemesine göre, bir etiketleyici, sıralamak için 4 ila 9 yanıt alır.(Christiano et al.,2022). Bu, karşılaştırma yapılacak yanıtların sayısının K olduğu karşılaştırmalar anlamına gelir. Her karşılaştırma seti, üretilen yanıtları insan tercihleri açısından değerlendirmeyi öğrenmek için bir sinir ağına iletilir.

**Sekil 4 Ödül Modeli Egitimi, Kaynak :https://huggingface.co/blog/rlhf**

Adım 3:

Son adım, dil modeline ince ayar yapmak için hazırlanan öğeleri tek bir takviyeli öğrenme görevinde kullanır. Görevi takviyeli öğrenme diline uyacak şekilde aşağıdaki gibi formüle edilmiştir:

· Aracı bir dil modeliyle temsil edilir.

· Durum alanı olası giriş belirteci dizileridir.

· Eylem alanı, dil modelinin sözlüğüne karşılık gelen tüm belirteçlerdir.

· Çevreden gelen ödül, 2. adımda eğitilen ödül tahmincisi tarafından sağlanır.

ChatGPT’de kullanılan algoritma, Takviyeli Öğrenme alanında en gelişmiş teknik olan Proximal Policy Optimization’ın kısaltması olan PPO’ dur. Başlangıç modeli ile mevcut politika dağılımları arasındaki PPO kaybına Kullbach-Leibler sapmasi eklenerek başlangıç modelinden önemli ölçüde uzaklaşmanın önlenmesi sağlanır.

SONUÇ

Bu çalışmada pekiştirmeli öğrenme tekniklerinin ChatGPT gibi gelişmiş dil modelleri üzerindeki performansını inceledik. Sonuç olarak, ChatGPT’nin doğal dil işleme görevlerinde daha tutarlı ve anlamlı sonuçlar üretme yeteneğini geliştirdiğini gösteriyor. Takviyeli yada pekiştirmeli öğrenme, bu dil modelinin insan tercihleriyle daha yakından eşleşen yanıtlar üretmesine olanak tanımıştır ve bu da onu gerçek dünya iletişiminde daha etkili bir araç haline getirmistir.

Bununla birlikte, bu teknolojinin uygulanması önemli sınırlamaları ve etik hususları da beraberinde getirmektedir. ChatGPT ve benzeri sistemler, aldatıcı veya istismar edici yanıtlar üretme riski taşır ve bu riski önlemek ve kullanımlarını dengelemek için daha fazla çaba ve düzenleme gerektirir. Ayrıca bu teknolojilerin sosyal, kültürel ve etik etkilerini değerlendirmek gelecekteki uygulamaları daha etkili ve sürdürülebilir kılmak açısından önemlidir.

Sonuç olarak, pekistirmeli öğrenme ve gelişmiş dil modelleri, doğal dil işleme alanında büyük ilerlemeler kaydederek yapay zeka alanında daha da çığır açacak teknolojilere evrilecektir. Ancak bu ilerlemelerin sorumlu ve etik bir şekilde yönetilmesini ve uygulanmasını sağlamak için daha fazla araştırma ve izlemeye ihtiyaç vardır. Bu teknolojilerin daha iyi anlaşılması ve düzenlenmesi, gelecekte daha geniş toplumsal faydalar sağlanmasına yardımcı olacaktır.

KAYNAKCA

Christiano, P. F., Leike, J., Brown, T., Martic, M., Legg, S., & Amodei, D. (2017). Deep reinforcement learning from human preferences. Advances in neural information processing systems, 30.

Evdüzen, M. R. (2021). Derin pekiştirmeli öğrenme ile robot kol tork kontrolü (Master’s thesis, Pamukkale Üniversitesi Fen Bilimleri Enstitüsü).

Ouyang, L., Wu, J., Jiang, X., Almeida, D., Wainwright, C., Mishkin, P., … & Lowe, R. (2022). Training language models to follow instructions with human feedback. Advances in Neural Information Processing Systems, 35, 27730–27744.

Prusinkiewicz, K. (20. 02 2023). deepsense.ai. , https://deepsense.ai/using-reinforcement-learning-to-improve-large-language-models#:~:text=What%20makes%20ChatGPT%20different%20from,to%20fine%2Dtune%20language%20models. Abgerufen

Shahriar, S., & Hayawi, K. (2023). Let’s have a chat! A Conversation with ChatGPT: Technology, Applications, and Limitations. arXiv preprint arXiv:2302.13817.

Ziegler, D. M., Stiennon, N., Wu, J., Brown, T. B., Radford, A., Amodei, D., … & Irving, G. (2019). Fine-tuning language models from human preferences. arXiv preprint arXiv:1909.08593.