Açık Kaynaklı İnce Ayarlı Büyük Dil Modelleri (LLM) Listesi

Gürdal Yaman
Academy Team
Published in
18 min readMay 5, 2023

Bilgisayarınızda local olarak çalıştırabileceğiniz açık kaynaklı ince ayarlı Büyük Dil Modellerinin (LLM) güncel listesi.

Bilgisayarınızda local arak çalıştırabileceğiniz açık kaynaklı ince ayarlı Büyük Dil Modellerinin (LLM) güncel listesi.

Bu liste, local bilgisayarınızda kullanabileceğiniz açık kaynaklı ince ayarlı Büyük Dil Modellerinin eksik bir derlemesidir. Bunun nedeni ise her gün üçten fazla modelin duyurulmasıdır. Şimdilik bu listeyi en güncel hali ile sizlerle paylaşıyorum.

Hepsini listelemedim çünkü bu modelleri tam anlamıyla $100 daha az bir fiyata oluşturabilirsiniz. Burada listelenen modellerden biri olan Cabrita modeli $8 oluşturuldu — bu gerçekten şaşırtıcı değil mi?

Belgelere göre, bu modelleri farklı donanım seviyelerine sahip bir bilgisayarda çalıştırabilmeniz mümkün. Şimdilik herkes için en iyi seçenek llama.cpp’ dir. Çünkü 7 modeli destekler ve orta düzeyde özelliklere sahip bilgisayarlarda çalışabilir.

Listeyi oluştururken bulundukları Temel Modellere (Base Model) göre gruplandırmaya çalıştım.

  • LLaMA | Alpaca | GPT4All | Chinese LLaMA/Alpaca | Vigogne (French) | Vicuna | Koala | OpenBuddy (Multilingual)LLaMA

Bu listedeki modeller, Temel Modellerin yeniden üretimi olan veya bunlara dayanan projelerin listesine göre alt gruplara ayrılmıştır.

  • BigCode’s StarCoder | BigScience’s BLOOM | Cerebras’ Cerebras-GPT | EleutherAI’s GPT-J, GPT-NeoX, Polyglot, and Pythia | GLM | Google’s Flamingo, and FLAN | H2O.ai’s h2ogpt | Meta’s GALACTICA, LLaMA, and XGLM | Mosaic ML’s MPT | Nvidia’s GPT-2 and Megatron | OpenLLaMA | Replit’s Code | RWKV | StabilityAI’s StableLM.

Updates:

  • 03/31/2023: Added HuggingGPT and Vicuna/FastChat (I have not tried GPT4All, but Vicuna/FastChat is pretty good)
  • 04/02/2023: Added “A Survey of Large Language Models” and “LLMMaps — A Visual Metaphor for Stratified Evaluation of Large Language Models” to the Resources section.
  • 04/04/2023: Added Baize and Koala.
  • 04/05/2023: Added Segment Anything (Not really LLM, but it will be really helpful in CV pipeline.)
  • 04/09/2023: Added Galpaca, GPT-J-6B instruction-tuned on Alpaca-GPT4, GPTQ-for-LLaMA, and List of all Foundation Models
  • 04/11/2023: Added Dolly 2.0, StackLLaMA, and GPT4All-J
  • 04/17/2023: Added Palmyra Base 5B and Camel 🐪 5B
  • 04/19/2023: Added StableLM (I really hope this is good), h2oGPT, and The Bloke alpaca-lora-65B-GGML
  • 04/25/2023: Added OpenAssistant Models (A nice collection of reproductions of or based on models). OpenAssistant LLaMa 30B SFT 6 also powers https://hf.co/chat.
  • 04/28/2023: Added StableVicuna and FastChat-T5
  • 04/30/2023: Added couchpotato888, GPT4-x-Alpaca, LLaMA Adapter V2, WizardLM, and A brief history of LLaMA models (Resources section)
  • 05/02/2023:Added OpenLLaMA
  • 05/04/2023: Added BigCode StarCoder (Hugging Face + ServiceNow), Replit-Code (Replit), Pygmalion-7b, AlpacaGPT4-LoRA-7B-OpenLLaMA, Nvidia GPT-2B-001, The Bloke’s StableVicuna-13B-GPTQ, OpenAlpaca, crumb’s Hugging Face website, Teknium’s Hugging Face website, and Knut Jägersberg’s Hugging Face website (in Other Repositories section)

Alpaca / LLaMA (Meta/Stanford)

Stanford Alpaca: Talimatları Takip Eden Bir LLaMA Modeli.

Meta’nın LLaMA veya Stanford Alpaca projesinin reprodüksiyonlarının listesi;

  • Alpaca.cpp
  • Alpaca-LoRA
  • Baize
  • Cabrita
  • Chinese-Vicuna
  • GPT4-x-Alpaca
  • GPT4All
  • GPTQ-for-LLaMA
  • Koala
  • llama.cpp
  • LLaMA-Adapter V2
  • Lit-LLaMA
  • OpenLLaMA
  • StackLLaMA
  • StableVicuna
  • The Bloke alpaca-lora-65B-GGML
  • Vicuna
  • WizardLM

Alpaca.cpp

Cihazınızda yerel olarak ChatGPT benzeri hızlı bir model çalıştırabilirsiniz.

Alpaca-LoRA

Düşük dereceli uyarlama (LoRA), önceki yöntemlere göre bazı avantajları olan modellere ince ayar yapmak için kullanılan bir tekniktir.

Özellikleri:

  • Daha hızlıdır ve daha az bellek kullanır, bu da tüketici donanımında çalışabileceği anlamına gelir.
  • Çıktı çok daha küçüktür (gigabayt değil, megabayt).
  • Çalışma zamanında birden çok ince ayarlı modeli bir araya getirebilirsiniz.

Bu repo, düşük sıralı uyarlama (LoRA) kullanarak Stanford Alpaca sonuçlarını yeniden üretmek için kod içerir. Raspberry Pi (araştırma için) üzerinde çalışabilen text-davinci-003 ile benzer kalitede bir Eğitmen modeli sunar ve kod 13b, 30b ve 65b modellerine kolayca genişletilebilir.

Baize

Baize, LoRA ile ince ayarlanmış açık kaynaklı bir sohbet modelidir. ChatGPT’nin kendisiyle sohbet etmesine izin vererek oluşturulan 100 bin diyaloğu kullanır. Performansını artırmak için Alpaca’nın verilerini de kullanır. 7B, 13B ve 30B modellerini yayınlandı.

Cabrita

Doğal dil işlemede kullanılan büyük dil modelidir. Bu model, dil anlama görevlerinde iyi performans gösteren bir pre-trained dil modeli olan BERT’in Portekizce için uyarlanmış bir versiyonudur. Cabrita modeli, Portekizce dilindeki farklı görevler için finetuning yapılmıştır ve geniş bir yelpazedeki doğal dil işleme görevlerinde başarılı sonuçlar vermiştir. Özellikle, bu model, çeviri, anlamsal benzerlik, sınıflandırma ve etiketleme gibi görevlerde kullanılmıştır.

Chinese-Vicuna

Nvidia RTX-2080TI üzerinde çalışabilen ve talimatları takip eden bir Çin LLaMA modelidir.

GPT4-x-Alpaca

GPT4-x-Alpaca, GPT4 konuşmaları koleksiyonu olan GPTeacher ile ince ayarı yapılmış bir LLaMA 13B modelidir. Eğitimi ve performansı hakkında çok fazla bilgi yoktur.

GPT4All

LLaMA tabanlı ~ 800 kG PT-3,5 Turbo Nesillere sahip asistan tarzı büyük bir dil modelini eğitmek için demo, veri ve kod.

GPTQ-for-LLaMA

GPTQ-for-LLaMA, GPTQ adı verilen tek atışlı ağırlık niceleme yöntemi kullanılarak LLaMA modelinin 4 bit kuantizasyonunu gerçekleştiren bir çalışmadır. Bu çalışma, modelin boyutunu küçültmek ve çalışma hızını artırmak için tasarlanmıştır.

GPTQ, tek atışlı ağırlık niceleme yöntemlerinin son zamanlarda popüler hale gelmesiyle geliştirilmiş bir yöntemdir. Bu yöntem, önceden belirlenmiş bir nicelik skalasında tüm ağırlıkları nicelendirir ve daha sonra bu niceliklere göre ağırlıkları düzeltir. Bu şekilde, daha küçük bir sayıda nicelik kullanarak, modelin boyutunu ve hesaplama maliyetini azaltmanız mümkün.

GPTQ-for-LLaMA, LLaMA modelinin doğruluğunu hafifçe düşürerek boyutunu %40 azaltmayı başarmıştır. Ayrıca, modelin çalışma hızını artırmıştır. Ancak, bu nicelendirme yöntemi bazı bilgi kaybına neden olabileceğinden, bu yöntemin performansı her zaman en iyi sonuçları vermeyebilir.

Koala

Koala, LLaMA’nın üzerine ince ayar yapılmış bir dil modelidir. Blog yazısına göz atın! Bu dokümantasyon, Koala model ağırlıklarının indirilmesi, kurtarılması ve Koala sohbet botunun yerel olarak çalıştırılması sürecini açıklayacaktır.

llama.cpp

LLaMA modelinin saf C/C++ cinsinden çıkarımı. Llama.cpp, LLM’ler için C dilinde yazılmış bir çalışma zamanıdır. Ağırlıkları 4 bit’e kadar sayısallaştırarak, M1 Mac’te büyük LLM’leri gerçekçi sürede çıkarmak mümkündür.

LLaMA-Adapter V2

Yapay zeka alanında, büyük dil modelleri (LLM’ler) doğal dil anlayışı üzerinde önemli bir etki yaratmıştır. Bununla birlikte, bu güçlü LLM’leri talimatları takip edecek ve görsel girdileri ele alacak şekilde uyarlama zorluğu devam ediyor. LLaMA-Adapter V2, çok modlu akıl yürütme yeteneklerinde önemli iyileştirmeler sunarak bu sorunu çözmeyi ve bu sorunu sahada önemli bir gelişme haline getirmeyi amaçlamaktadır.

Gerçek Dünya Uygulamaları: Genişleyen Kullanım Durumları

LLaMA-Adapter V2'nin potansiyel uygulamaları, aşağıdakiler de dahil olmak üzere çeşitli alanları kapsar:

Lit-LLaMA

Apache 2.0 lisansı altında tamamen açık kaynak olan bağımsız LLaMA uygulamasıdır. Bu uygulama nanoGPT üzerine inşa edilmiştir. Ağırlıklar Meta tarafından sadece araştırma lisansı altında dağıtılmaktadır. Topluluk, Yapay zekanın tamamen açık kaynak olması ve kolektif bilginin bir parçası olması gerektiğine inanıyor.

Orijinal LLaMA kodu GPL lisanslıdır, bu da onu kullanan herhangi bir projenin de GPL altında yayınlanması gerektiği anlamına gelir. Bu, diğer tüm kodları “lekeliyor” ve ekosistemin geri kalanıyla entegrasyonu engelliyor. Lit-LLaMA bunu tamamen çözmeyi amaçlar.

OpenLLaMA

Bu repoda, Meta AI’nin LLaMA büyük dil modelinin izinli lisanslı açık kaynaklı bir çoğaltmasını yer alır. Bu sürümde, 200 milyar token eğitilmiş ve 7B OpenLLaMA modelinin genel bir önizlemesini yayınlanmıştır. Önceden eğitilmiş OpenLLaMA modellerinin PyTorch ve Jax ağırlıklarının yanı sıra değerlendirme sonuçları ve orijinal LLaMA modelleriyle bir karşılaştırmasını bulmanız mümkün. Güncellemeler için Github repolarını takip edebilirsiniz.

StableVicuna

İnsan geri bildiriminden güçlendirilmiş öğrenme (RHLF) yoluyla eğitilen ilk büyük ölçekli açık kaynaklı sohbet robotu olan StableVicuna. StableVicuna, Vicuna v0 13b’nin talimatlara göre ince ayarlanmış ve RLHF ile eğitilmiş bir versiyonudur ve talimatlara göre ince ayarlanmış bir LLaMA 13b modelidir. İlgilenen okuyucular için Vicuna hakkında daha fazla bilgiye aşağıdaki linklerden ulaşabilirsiniz.

StackLLaMA

Bir LlaMa modeli, RLHF ile Stack Exchange’deki cevaplar ve sorular üzerinde aşağıdakilerin bir kombinasyonu yoluyla eğitilmiştir:

  • Denetimli İnce Ayar (SFT)
  • Ödül/tercih modellemesi (RM)
  • İnsan Geri Bildiriminden Takviyeli Öğrenme (RLHF)

Website: https://huggingface.co/blog/stackllama

The Bloke alpaca-lora-65B-GGML

llama.cpp ile CPU çıkarımı için changsung’un alpaca-lora-65B’sinin nicelleştirilmiş 4bit ve 2bit GGML’leri.

Vicuna (FastChat)

ShareGPT’den toplanan kullanıcı paylaşımlı konuşmaları kullanan yeni açık kaynaklı sohbet robotu ince ayarlı LLaMA olan Vicuna-13B başlangıç noktası olarak LLaMA-13B ağırlıklarını kullanır.

UC Berkeley, CMU, Standford ve UC San Diego’daki öğrencilerden oluşan ekip, ChatGPT’ye kıyasla yaklaşık %90 oranında doğru olduğunu iddia ediyor. Vicuna-13B eğitiminin maliyeti 300 dolar civarında. Kod ve ağırlıklar, çevrimiçi bir demo ile birlikte, ticari olmayan kullanım için halka açıktır.

WizardLM

Evol-Instruct Kullanarak Talimat Takip Eden Bir LLM. Karmaşık Talimatları Takip Etmek için Önceden Eğitilmiş Büyük Dil Modellerini Güçlendirme.

BLOOM (BigScience)

BigScience Büyük Açık bilim Açık erişim Çok Dilli Dil Modelidir.

  • BLOOM durumunda 176 milyar parametre olmak üzere çok sayıda parametre üzerinde eğitilmiş dil modelleri.
  • Sonuçlar sıfır atış veya az atış öğrenme ile elde edilebilir. Başka bir deyişle, şaşırtıcı sonuçlar öğrenme/eğitim olmadan veya sadece birkaç cümle talimatla elde edilebilir.
  • LLM’ler donanım kapasitesi, işleme ve depolama açısından kaynak yoğundur.
  • Değişen derecelerde karmaşıklıkta ince ayar mevcuttur.
  • LLM’ler genellikle oluşturma (diğer adıyla tamamlama), özetleme, gömmeler (verileri kümeleme ve görsel olarak temsil etme), Sınıflandırma, anlamsal arama ve dil çevirisi için kullanılır.

BLOOM, 46 dilde ve 13 programlama dilinde metin üretebilir. Model, endüstriyel ölçekli hesaplama kaynakları kullanılarak çok miktarda metin verisi üzerinde eğitilmiştir.

BLOOM projesinin reprodüksiyonlarının bir listesi:

  • BLOOM-LoRA
  • Petals

BLOOM-LoRA

Çeşitli Instruct-Tuning veri kümeleri için Low-Rank uyarlaması.

Petals

Dağıtılmış 176B parametreli BLOOM veya BLOOMZ kullanarak metin oluşturabilir ve kendi görevleriniz için ince ayar yapabilirsiniz.

Cerebras-GPT (Cerebras)

Açık, Hesaplama Verimli, Büyük Dil Modelleri Ailesi. Cerebras, 111 milyon ila 13 milyar parametre arasında yedi GPT-4 modelini açık kaynak olarak sunuyor. Chinchilla formülü kullanılarak eğitilen bu modeller, doğruluk ve hesaplama verimliliği açısından yeni ölçütler belirliyor.

Flamingo (Google/Deepmind)

Tek bir görsel dil modeliyle birden fazla görevin üstesinden gelebilirsiniz.

Flamingo projesinin reprodüksiyonlarının listesi:

  • Flamingo — Pytorch
  • OpenFlamingo

Flamingo — Pytorch

Pytorch’ta son teknoloji ürünü az sayıda görsel soru cevaplama dikkat ağı olan Flamingo’nun uygulanması. Algılayıcı yeniden örnekleyiciyi (öğrenilen sorguların, medya katıştırmalarına ek olarak katılacak anahtarlara / değerlere katkıda bulunduğu şema dahil), özel maskeli çapraz dikkat bloklarını ve son olarak çapraz dikkat + karşılık gelen ileri besleme bloklarının uçlarındaki “tanh” geçidini içerir.

OpenFlamingo

DeepMind’ın Flamingo modelinin açık kaynak sürümüdür. Bu repoda, OpenFlamingo modellerini eğitmek ve değerlendirmek için bir PyTorch uygulaması hakkında detaylı bilgiler bulabilirsiniz. Ayrıca yeni bir Multimodal C4 veri seti üzerinde eğitilmiş ilk OpenFlamingo 9B modelini de duyurulacak(çok yakında).

FLAN (Google)

Bu depo, talimat ayarlama veri kümesi koleksiyonları oluşturmak için kod içerir. Birincisi, Finetuned Language Models are Zero-Shot Learners’da belgelenen orijinal Flan 2021, ikincisi ise The Flan Collection’da açıklanan Flan Collection adlı genişletilmiş sürümdür: Etkili Talimat Ayarlaması için Veri ve Yöntem Tasarlama ve Flan-T5 ve Flan-PaLM’yi üretmek için kullanılmıştır.

FLAN projesine ait reprodüksiyonların bir listesi:

  • FastChat-T5
  • Flan-Alpaca
  • Flan-UL2

FastChat-T5

FastChat-T5 modeli, NLP alanında özellikle sohbet botları gibi uygulamalarda kullanılmak üzere tasarlanmıştır. Bu model, soru-cevap sistemleri ve metin üretimi gibi görevleri yerine getirebilir. FastChat-T5 modeli, hızlı bir şekilde çalışmak için özel olarak optimize edilmiştir. Bu modele ayrıca, eğitim verilerini etkin bir şekilde kullanmak için özel bir veri önişleme işlemi de dahil edilmiştir.

Flan-Alpaca

İnsanlardan ve Makinelerden Talimat Ayarlama. Bu depo, Stanford Alpaca sentetik komut ayarlamasını Flan-T5 gibi mevcut komut ayarlı modellere genişletmek için kod içerir. Önceden eğitilmiş modeller ve demolar HuggingFace’te mevcuttur.

Flan-UL2

Flan-UL2, T5 mimarisine dayanan bir kodlayıcı kod çözücü modelidir. Geçen yılın başlarında piyasaya sürülen UL2 modeliyle aynı yapılandırmayı kullanır. “Flan” hızlı ayarlama ve veri seti toplama kullanılarak ince ayar yapılmıştır.

GALACTICA

GALACTICA modeli, nasıl eğitildiği ve amaçlanan kullanım durumları hakkında bilgi vermektedir. Modelin nasıl eğitildiği ve değerlendirildiği ile ilgili tüm ayrıntıları aşağıdaki dokümantasyon’ dan bulabilirsiniz.

GALACTICA projesinin reprodüksiyonlarının listesi:

  • Galpaca

GALACTICA 30B Alpaca veri setinde ince ayar yapıldı.

GLM (General Language Model)

GLM, otoregresif boşluk doldurma hedefi ile önceden eğitilmiş bir Genel Dil Modelidir ve çeşitli doğal dil anlama ve oluşturma görevlerinde ince ayar yapılabilir.

GLM: Tsinghua Üniversitesi, Pekin Yapay Zeka Akademisi (BAAI), MIT CSAIL ve Şangay Qi Zhi Enstitüsü tarafından Otomatik Gerici Boş Doldurma ile Genel Dil Modeli Ön Eğitimi, GLM,

  • Genel Dil Modeli (GLM), otoregresif boş dolguya dayalı olarak önerilmektedir.
  • GLM, 2D konumsal kodlamalar ekleyerek ve açıklıkları tahmin etmek için keyfi bir düzene izin vererek boş doldurma ön eğitimini geliştirir.
  • Bu arada, GLM, boşlukların sayısını ve uzunluklarını değiştirerek farklı görev türleri için önceden eğitilebilir.
  • Daha sonra, GLM-130B GLM’ye Dayalı Olarak Üretildi ve 2023 ICLR’de Kabul Edildi.

GLM projesinin reprodüksiyonlarının listesi:

  • ChatGLM-6B

ChatGLM-6B

ChatGLM-6B, 6,2 milyar parametre ile Genel Dil Modeli (GLM) çerçevesine dayanan açık bir iki dilli dil modelidir. Niceleme tekniği ile kullanıcılar yerel olarak tüketici sınıfı grafik kartlarına dağıtabilirler (INT4 niceleme seviyesinde sadece 6GB GPU belleği gereklidir).

ChatGLM-6B, Çince QA ve diyalog için optimize edilmiş ChatGPT’ye benzer bir teknoloji kullanır. Model, denetimli ince ayar, geri bildirim önyükleme ve insan geri bildirimi ile pekiştirmeli öğrenme ile desteklenen yaklaşık 1T Çince ve İngilizce külliyat için eğitilmiştir. Model, yalnızca yaklaşık 6,2 milyar parametre ile insan tercihlerine uygun yanıtlar üretebilmektedir.

GPT-J

GPT-J, EleutherAI tarafından geliştirilen açık kaynaklı bir yapay zeka dil modelidir.

[1] GPT-J, çeşitli sıfır atışlı aşağı akış görevlerinde OpenAI’nin GPT-3'üne çok benzer performans gösterir ve hatta kod oluşturma görevlerinde ondan daha iyi performans gösterebilir. [2] En yeni sürüm olan GPT-J-6B, The Pile adlı bir veri setine dayanan bir dil modelidir.[3] The Pile, 22 küçük veri setine bölünmüş açık kaynaklı 825 gibibyte’lık bir dil modelleme veri setidir.[4] GPT-J, bir sohbet botu olarak değil, yalnızca bir metin tahmincisi olarak işlev görmesine rağmen, yetenek açısından ChatGPT’ye benzer.[5]

GPT-J projesinin yeniden üretimlerinin listesi:

  • Dolly
  • GPT-J-6B instruction-tuned on Alpaca-GPT4

Dolly (Databricks)

Databricks Makine Öğrenimi Platformu üzerinde eğitilen büyük bir dil modeli olan Databricks Dolly, iki yıllık bir açık kaynak modelinin (GPT-J), 50 bin kayıttan oluşan odaklanmış bir derlem (Stanford Alpaca) üzerinde sadece 30 dakikalık ince ayarlara tabi tutulduğunda, dayandığı temel modelin karakteristiği olmayan davranışları takip ederek şaşırtıcı derecede yüksek kaliteli talimatlar sergileyebileceğini göstermektedir. Bu bulgunun önemli olduğuna inanmak istiyoruz çünkü güçlü yapay zeka teknolojileri yaratma becerisinin daha önce fark edilenden çok daha erişilebilir olduğunu gösteriyor.

GPT-J-6B instruction-tuned on Alpaca-GPT4

Bu model, dört V100S’de 7 saatten fazla süren 30.000 adım (128 parti boyutu) için LoRA kullanılarak Alpaca istemlerinin GPT-4 nesilleri üzerinde ince ayarlanmıştır.

GPT4All-J

GPT-J tabanlı açık kaynak asistan tarzı büyük dil modelini eğitmek için demo, veri ve kod.

GPT-NeoX

Bu repo, EleutherAI’nin GPU’larda büyük ölçekli dil modellerini eğitmeye yönelik bir kütüphanesidir. Mevcut çerçeve NVIDIA’nın Megatron Dil Modeline dayanmaktadır ve DeepSpeed’den alınan tekniklerin yanı sıra bazı yeni optimizasyonlarla zenginleştirilmiştir. Bu repo, büyük ölçekli otoregresif dil modellerini eğitmeye yönelik teknikleri bir araya getirmek ve büyük ölçekli eğitim araştırmalarını hızlandırmak için merkezi ve erişilebilir bir yer haline getirmeyi amaçlamıştır.

h2oGPT

Bu model “amacımız dünyanın en iyi açık kaynak GPT’sini yapmak!” sloganı ile piyasaya çıkmıştır ve şu an geliştirilmeye devam etmektedir.

HuggingGPT

HuggingGPT, denetleyici olarak bir LLM ve işbirlikçi yürütücüler olarak çok sayıda uzman modelden oluşan işbirlikçi bir sistemdir (HuggingFace Hub’dan).

OpenAssistant Models

Herkes için diyalogsal yapay zeka.

Palmyra Base 5B (Writer)

Palmyra Base öncelikle İngilizce metinlerle önceden eğitilmiştir. CommonCrawl aracılığıyla erişilen eğitim derleminde hala eser miktarda İngilizce olmayan veri bulunduğunu unutmayın. Modelin ön eğitim sürecinde nedensel bir dil modelleme (CLM) hedefi kullanılmıştır.

GPT-3'e benzer şekilde Palmyra Base de yalnızca kod çözücü içeren aynı model ailesinin bir üyesidir. Sonuç olarak, kendi kendine denetimli nedensel dil modelleme hedefi kullanılarak ön eğitime tabi tutulmuştur. Palmyra Base, GPT-3'e göre değerlendirmesini yapmak için GPT-3'teki istemleri ve genel deney düzeneğini kullanır.

Palmyra Base projesinin reprodüksiyonlarının listesi:

  • Camel 5B

Camel 🐪 5B

Olağanüstü performans ve çok yönlülük sunmak üzere tasarlanmış, son teknoloji ürünü talimat takip eden büyük dil modeli Camel-5b ile tanışın. Palmyra-Base’in temel mimarisinden türetilen Camel-5b, gelişmiş doğal dil işleme ve anlama yeteneklerine yönelik artan talebi karşılamak için özel olarak tasarlanmıştır.

Polyglot

Çok Dilde İyi Dengelenmiş Yeterliliğin Büyük Dil Modelleri. mBERT, BLOOM ve XGLM gibi çeşitli çok dilli modeller piyasaya sürülmüştür. Mevcut çok dilli modellerin İngilizce dışındaki dillerdeki performansından duyulan memnuniyetsizlik üzerine piyasaya çıkmıştır. Daha yüksek İngilizce dışı dil performansına sahip çok dilli modeller yapmaya devam edilmektedir. Yeniden çok dilli modellere ‘Polyglot’ adını verilmesinin nedeni budur.

Pythia

Zaman ve Ölçek Boyunca Otoregresif Dönüşümlerin Yorumlanması.

Pythia projesinin reprodüksiyonlarının listesi.

  • Dolly 2.0

Dolly 2.0 (Databricks)

Dolly 2.0, EleutherAI pythia model ailesine dayanan 12B parametreli bir dil modelidir ve yalnızca Databricks çalışanları arasında kitle kaynaklı yeni, yüksek kaliteli insan yapımı talimat takip veri kümesi üzerinde ince ayar yapılmıştır.

The RWKV Language Model

RWKV: Transformatör düzeyinde LLM Performansı ile Paralelleştirilebilir RNN (“RwaKuv” olarak telaffuz edilir, 4 ana parametre: R W K V)

Segment Anything

Segment Anything Model (SAM), nokta veya kutu gibi girdi istemlerinden yüksek kaliteli nesne maskeleri üretir ve bir görüntüdeki tüm nesneler için maske üretmek için kullanılabilir. SAM, 11 milyon görüntü ve 1,1 milyar maskeden oluşan bir veri kümesi üzerinde eğitilmiştir ve çeşitli segmentasyon görevlerinde güçlü sıfır atış performansına sahiptir.

StableLM

Yeni bir açık kaynak dil modeli, StableLM. Modelin Alfa sürümü 3 milyar ve 7 milyar parametreli olarak mevcuttur ve bunu 15 milyar ila 65 milyar parametreli modeller takip edecektir. Geliştiriciler, CC BY-SA-4.0 lisansının şartlarına tabi olarak, StableLM temel modellerimizi ticari veya araştırma amaçlı olarak serbestçe inceleyebilir, kullanabilir ve uyarlayabilir.

StableLM, The Pile üzerine inşa edilmiş, ancak 1,5 trilyon token içerikle üç kat daha büyük olan yeni bir deneysel veri kümesi üzerinde eğitilmiştir. Veri setiyle ilgili ayrıntılar şu ana kadar açıklanmadı. Bu veri setinin zenginliği, 3 ila 7 milyar parametreden oluşan küçük boyutuna rağmen StableLM’ye konuşma ve kodlama görevlerinde şaşırtıcı derecede yüksek performans sağlar (karşılaştırma yapmak gerekirse, GPT-3 175 milyar parametreye sahiptir)

XGLM

XGLM modeli Çok Dilli Dil Modelleri ile Az Atışlı Öğrenme’de önerilmiştir.

GitHub:https://github.com/facebookresearch/fairseq/tree/main/examples/xglm

Hugging Face: https://huggingface.co/docs/transformers/model_doc/xglm

Other Repositories

couchpotato888

Umarım bu makaleyi beğenmişsinizdir. Herhangi bir sorunuz veya yorumunuz varsa, lütfen buradan iletin.

Tüm Temel Modellerinin Listesi

Kaynak: 1 Milyardan Fazla Parametreli LLM’lerin Listesi (matt-rickard.com)

  • GPT-J (6B) (EleutherAI)
  • GPT-Neo (1.3B, 2.7B, 20B) (EleutherAI)
  • Pythia (1B, 1.4B, 2.8B, 6.9B, 12B) (EleutherAI)
  • Polyglot (1.3B, 3.8B, 5.8B) (EleutherAI)
  • J1/Jurassic-1 (7.5B, 17B, 178B) (AI21)
  • J2/Jurassic-2 (Large, Grande, and Jumbo) (AI21)
  • LLaMa (7B, 13B, 33B, 65B) (Meta)
  • OPT (1.3B, 2.7B, 13B, 30B, 66B, 175B) (Meta)
  • Fairseq (1.3B, 2.7B, 6.7B, 13B) (Meta)
  • GLM-130B YaLM (100B) (Yandex)
  • UL2 20B (Google)
  • PanGu-α (200B) (Huawei)
  • Cohere (Medium, XLarge)
  • Claude (instant-v1.0, v1.2) (Anthropic)
  • CodeGen (2B, 6B, 16B) (Salesforce)
  • RWKV (14B)
  • BLOOM (1B, 3B, 7B)
  • GPT-4 (OpenAI)
  • GPT-3.5 (OpenAI)
  • GPT-3 (ada, babbage, curie, davinci) (OpenAI)
  • Codex (cushman, davinci) (OpenAI)
  • T5 (11B) (Google)
  • CPM-Bee (10B)
  • Cerebras-GPT

Kaynaklar:

--

--

Gürdal Yaman
Academy Team

Data Analyst | Machine Learning Engineer | Specializing in Computer Vision and NLP