Açık Kaynaklı İnce Ayarlı Büyük Dil Modelleri (LLM) Listesi
Bilgisayarınızda local olarak çalıştırabileceğiniz açık kaynaklı ince ayarlı Büyük Dil Modellerinin (LLM) güncel listesi.
Bilgisayarınızda local arak çalıştırabileceğiniz açık kaynaklı ince ayarlı Büyük Dil Modellerinin (LLM) güncel listesi.
Bu liste, local bilgisayarınızda kullanabileceğiniz açık kaynaklı ince ayarlı Büyük Dil Modellerinin eksik bir derlemesidir. Bunun nedeni ise her gün üçten fazla modelin duyurulmasıdır. Şimdilik bu listeyi en güncel hali ile sizlerle paylaşıyorum.
Hepsini listelemedim çünkü bu modelleri tam anlamıyla $100 daha az bir fiyata oluşturabilirsiniz. Burada listelenen modellerden biri olan Cabrita modeli $8 oluşturuldu — bu gerçekten şaşırtıcı değil mi?
Belgelere göre, bu modelleri farklı donanım seviyelerine sahip bir bilgisayarda çalıştırabilmeniz mümkün. Şimdilik herkes için en iyi seçenek llama.cpp’ dir. Çünkü 7 modeli destekler ve orta düzeyde özelliklere sahip bilgisayarlarda çalışabilir.
Listeyi oluştururken bulundukları Temel Modellere (Base Model) göre gruplandırmaya çalıştım.
- LLaMA | Alpaca | GPT4All | Chinese LLaMA/Alpaca | Vigogne (French) | Vicuna | Koala | OpenBuddy (Multilingual)LLaMA
Bu listedeki modeller, Temel Modellerin yeniden üretimi olan veya bunlara dayanan projelerin listesine göre alt gruplara ayrılmıştır.
- BigCode’s StarCoder | BigScience’s BLOOM | Cerebras’ Cerebras-GPT | EleutherAI’s GPT-J, GPT-NeoX, Polyglot, and Pythia | GLM | Google’s Flamingo, and FLAN | H2O.ai’s h2ogpt | Meta’s GALACTICA, LLaMA, and XGLM | Mosaic ML’s MPT | Nvidia’s GPT-2 and Megatron | OpenLLaMA | Replit’s Code | RWKV | StabilityAI’s StableLM.
Updates:
- 03/31/2023: Added HuggingGPT and Vicuna/FastChat (I have not tried GPT4All, but Vicuna/FastChat is pretty good)
- 04/02/2023: Added “A Survey of Large Language Models” and “LLMMaps — A Visual Metaphor for Stratified Evaluation of Large Language Models” to the Resources section.
- 04/04/2023: Added Baize and Koala.
- 04/05/2023: Added Segment Anything (Not really LLM, but it will be really helpful in CV pipeline.)
- 04/09/2023: Added Galpaca, GPT-J-6B instruction-tuned on Alpaca-GPT4, GPTQ-for-LLaMA, and List of all Foundation Models
- 04/11/2023: Added Dolly 2.0, StackLLaMA, and GPT4All-J
- 04/17/2023: Added Palmyra Base 5B and Camel 🐪 5B
- 04/19/2023: Added StableLM (I really hope this is good), h2oGPT, and The Bloke alpaca-lora-65B-GGML
- 04/25/2023: Added OpenAssistant Models (A nice collection of reproductions of or based on models). OpenAssistant LLaMa 30B SFT 6 also powers https://hf.co/chat.
- 04/28/2023: Added StableVicuna and FastChat-T5
- 04/30/2023: Added couchpotato888, GPT4-x-Alpaca, LLaMA Adapter V2, WizardLM, and A brief history of LLaMA models (Resources section)
- 05/02/2023:Added OpenLLaMA
- 05/04/2023: Added BigCode StarCoder (Hugging Face + ServiceNow), Replit-Code (Replit), Pygmalion-7b, AlpacaGPT4-LoRA-7B-OpenLLaMA, Nvidia GPT-2B-001, The Bloke’s StableVicuna-13B-GPTQ, OpenAlpaca, crumb’s Hugging Face website, Teknium’s Hugging Face website, and Knut Jägersberg’s Hugging Face website (in Other Repositories section)
Alpaca / LLaMA (Meta/Stanford)
Stanford Alpaca: Talimatları Takip Eden Bir LLaMA Modeli.
- Alpaka Web Sitesi: https://crfm.stanford.edu/2023/03/13/alpaca.html
- Alpaka GitHub: https://github.com/tatsu-lab/stanford_alpaca
- Ticari Kullanım: Hayır
Meta’nın LLaMA veya Stanford Alpaca projesinin reprodüksiyonlarının listesi;
- Alpaca.cpp
- Alpaca-LoRA
- Baize
- Cabrita
- Chinese-Vicuna
- GPT4-x-Alpaca
- GPT4All
- GPTQ-for-LLaMA
- Koala
- llama.cpp
- LLaMA-Adapter V2
- Lit-LLaMA ️
- OpenLLaMA
- StackLLaMA
- StableVicuna
- The Bloke alpaca-lora-65B-GGML
- Vicuna
- WizardLM
Alpaca.cpp
Cihazınızda yerel olarak ChatGPT benzeri hızlı bir model çalıştırabilirsiniz.
Alpaca-LoRA
Düşük dereceli uyarlama (LoRA), önceki yöntemlere göre bazı avantajları olan modellere ince ayar yapmak için kullanılan bir tekniktir.
Özellikleri:
- Daha hızlıdır ve daha az bellek kullanır, bu da tüketici donanımında çalışabileceği anlamına gelir.
- Çıktı çok daha küçüktür (gigabayt değil, megabayt).
- Çalışma zamanında birden çok ince ayarlı modeli bir araya getirebilirsiniz.
Bu repo, düşük sıralı uyarlama (LoRA) kullanarak Stanford Alpaca sonuçlarını yeniden üretmek için kod içerir. Raspberry Pi (araştırma için) üzerinde çalışabilen text-davinci-003
ile benzer kalitede bir Eğitmen modeli sunar ve kod 13b
, 30b
ve 65b
modellerine kolayca genişletilebilir.
- GitHub: tloen/alpaca-lora: Instruct-tune LLaMA on consumer hardware (github.com)
- Demo: Alpaca-LoRA — a Hugging Face Space by tloen
Baize
Baize, LoRA ile ince ayarlanmış açık kaynaklı bir sohbet modelidir. ChatGPT’nin kendisiyle sohbet etmesine izin vererek oluşturulan 100 bin diyaloğu kullanır. Performansını artırmak için Alpaca’nın verilerini de kullanır. 7B, 13B ve 30B modellerini yayınlandı.
- GitHub: project-baize/baize: Baize is an open-source chatbot trained with ChatGPT self-chatting data, developed by researchers at UCSD and Sun Yat-sen University. (github.com)
- Paper: 2304.01196.pdf (arxiv.org)
Cabrita
Doğal dil işlemede kullanılan büyük dil modelidir. Bu model, dil anlama görevlerinde iyi performans gösteren bir pre-trained dil modeli olan BERT’in Portekizce için uyarlanmış bir versiyonudur. Cabrita modeli, Portekizce dilindeki farklı görevler için finetuning yapılmıştır ve geniş bir yelpazedeki doğal dil işleme görevlerinde başarılı sonuçlar vermiştir. Özellikle, bu model, çeviri, anlamsal benzerlik, sınıflandırma ve etiketleme gibi görevlerde kullanılmıştır.
Chinese-Vicuna
Nvidia RTX-2080TI üzerinde çalışabilen ve talimatları takip eden bir Çin LLaMA modelidir.
GPT4-x-Alpaca
GPT4-x-Alpaca, GPT4 konuşmaları koleksiyonu olan GPTeacher ile ince ayarı yapılmış bir LLaMA 13B modelidir. Eğitimi ve performansı hakkında çok fazla bilgi yoktur.
- Hugging Face: chavinlo/gpt4-x-alpaca · Hugging Face
GPT4All
LLaMA tabanlı ~ 800 kG PT-3,5 Turbo Nesillere sahip asistan tarzı büyük bir dil modelini eğitmek için demo, veri ve kod.
- GitHub: nomic-ai/gpt4all: gpt4all: a chatbot trained on a massive collection of clean assistant data including code, stories and dialogue (github.com)
- GitHub: nomic-ai/pyllamacpp: Official supported Python bindings for llama.cpp + gpt4all (github.com)
- Review: Is GPT4All your new personal ChatGPT? — YouTube
GPTQ-for-LLaMA
GPTQ-for-LLaMA, GPTQ adı verilen tek atışlı ağırlık niceleme yöntemi kullanılarak LLaMA modelinin 4 bit kuantizasyonunu gerçekleştiren bir çalışmadır. Bu çalışma, modelin boyutunu küçültmek ve çalışma hızını artırmak için tasarlanmıştır.
GPTQ, tek atışlı ağırlık niceleme yöntemlerinin son zamanlarda popüler hale gelmesiyle geliştirilmiş bir yöntemdir. Bu yöntem, önceden belirlenmiş bir nicelik skalasında tüm ağırlıkları nicelendirir ve daha sonra bu niceliklere göre ağırlıkları düzeltir. Bu şekilde, daha küçük bir sayıda nicelik kullanarak, modelin boyutunu ve hesaplama maliyetini azaltmanız mümkün.
GPTQ-for-LLaMA, LLaMA modelinin doğruluğunu hafifçe düşürerek boyutunu %40 azaltmayı başarmıştır. Ayrıca, modelin çalışma hızını artırmıştır. Ancak, bu nicelendirme yöntemi bazı bilgi kaybına neden olabileceğinden, bu yöntemin performansı her zaman en iyi sonuçları vermeyebilir.
Koala
Koala, LLaMA’nın üzerine ince ayar yapılmış bir dil modelidir. Blog yazısına göz atın! Bu dokümantasyon, Koala model ağırlıklarının indirilmesi, kurtarılması ve Koala sohbet botunun yerel olarak çalıştırılması sürecini açıklayacaktır.
- Blog: Koala: A Dialogue Model for Academic Research — The Berkeley Artificial Intelligence Research Blog
- GitHub: EasyLM/koala.md at main · young-geng/EasyLM (github.com)
- Demo: FastChat (lmsys.org)
- Review: Investigating Koala a ChatGPT style Dialogue Model — YouTube
- Review: Running Koala for free in Colab. Your own personal ChatGPT? — YouTube
llama.cpp
LLaMA modelinin saf C/C++ cinsinden çıkarımı. Llama.cpp, LLM’ler için C dilinde yazılmış bir çalışma zamanıdır. Ağırlıkları 4 bit’e kadar sayısallaştırarak, M1 Mac’te büyük LLM’leri gerçekçi sürede çıkarmak mümkündür.
- GitHub: ggerganov/llama.cpp: Port of Facebook’s LLaMA model in C/C++ (github.com)
- Supports three models: LLaMA, Alpaca, and GPT4All
LLaMA-Adapter V2
Yapay zeka alanında, büyük dil modelleri (LLM’ler) doğal dil anlayışı üzerinde önemli bir etki yaratmıştır. Bununla birlikte, bu güçlü LLM’leri talimatları takip edecek ve görsel girdileri ele alacak şekilde uyarlama zorluğu devam ediyor. LLaMA-Adapter V2, çok modlu akıl yürütme yeteneklerinde önemli iyileştirmeler sunarak bu sorunu çözmeyi ve bu sorunu sahada önemli bir gelişme haline getirmeyi amaçlamaktadır.
Gerçek Dünya Uygulamaları: Genişleyen Kullanım Durumları
LLaMA-Adapter V2'nin potansiyel uygulamaları, aşağıdakiler de dahil olmak üzere çeşitli alanları kapsar:
- Geliştirilmiş erişilebilirlik için ayrıntılı görüntü açıklamaları oluşturma.
- Görsel anlayışa yanıt vermek, nüanslı akıl yürütme için istemler.
- Chatbot sistemlerine image- ile ilgili sorgularda yardımcı olmak, context-aware bilgi veya öneriler sunmak.
- GitHub: ZrrSkywalker/LLaMA-Adapter: Fine-tuning LLaMA to follow Instructions within 1 Hour and 1.2M Parameters (github.com)
Lit-LLaMA ️
Apache 2.0 lisansı altında tamamen açık kaynak olan bağımsız LLaMA uygulamasıdır. Bu uygulama nanoGPT üzerine inşa edilmiştir. Ağırlıklar Meta tarafından sadece araştırma lisansı altında dağıtılmaktadır. Topluluk, Yapay zekanın tamamen açık kaynak olması ve kolektif bilginin bir parçası olması gerektiğine inanıyor.
Orijinal LLaMA kodu GPL lisanslıdır, bu da onu kullanan herhangi bir projenin de GPL altında yayınlanması gerektiği anlamına gelir. Bu, diğer tüm kodları “lekeliyor” ve ekosistemin geri kalanıyla entegrasyonu engelliyor. Lit-LLaMA bunu tamamen çözmeyi amaçlar.
OpenLLaMA
Bu repoda, Meta AI’nin LLaMA büyük dil modelinin izinli lisanslı açık kaynaklı bir çoğaltmasını yer alır. Bu sürümde, 200 milyar token eğitilmiş ve 7B OpenLLaMA modelinin genel bir önizlemesini yayınlanmıştır. Önceden eğitilmiş OpenLLaMA modellerinin PyTorch ve Jax ağırlıklarının yanı sıra değerlendirme sonuçları ve orijinal LLaMA modelleriyle bir karşılaştırmasını bulmanız mümkün. Güncellemeler için Github repolarını takip edebilirsiniz.
StableVicuna
İnsan geri bildiriminden güçlendirilmiş öğrenme (RHLF) yoluyla eğitilen ilk büyük ölçekli açık kaynaklı sohbet robotu olan StableVicuna. StableVicuna, Vicuna v0 13b’nin talimatlara göre ince ayarlanmış ve RLHF ile eğitilmiş bir versiyonudur ve talimatlara göre ince ayarlanmış bir LLaMA 13b modelidir. İlgilenen okuyucular için Vicuna hakkında daha fazla bilgiye aşağıdaki linklerden ulaşabilirsiniz.
- Website: Stability AI releases StableVicuna, the AI World’s First Open Source RLHF LLM Chatbot — Stability AI
- Hugging Face: StableVicuna — a Hugging Face Space by CarperAI
- Review: StableVicuna: The New King of Open ChatGPTs? — YouTube
StackLLaMA
Bir LlaMa modeli, RLHF ile Stack Exchange’deki cevaplar ve sorular üzerinde aşağıdakilerin bir kombinasyonu yoluyla eğitilmiştir:
- Denetimli İnce Ayar (SFT)
- Ödül/tercih modellemesi (RM)
- İnsan Geri Bildiriminden Takviyeli Öğrenme (RLHF)
Website: https://huggingface.co/blog/stackllama
The Bloke alpaca-lora-65B-GGML
llama.cpp ile CPU çıkarımı için changsung’un alpaca-lora-65B’sinin nicelleştirilmiş 4bit ve 2bit GGML’leri.
- Hugging Face: TheBloke/alpaca-lora-65B-GGML · Hugging Face
Vicuna (FastChat)
ShareGPT’den toplanan kullanıcı paylaşımlı konuşmaları kullanan yeni açık kaynaklı sohbet robotu ince ayarlı LLaMA olan Vicuna-13B başlangıç noktası olarak LLaMA-13B ağırlıklarını kullanır.
UC Berkeley, CMU, Standford ve UC San Diego’daki öğrencilerden oluşan ekip, ChatGPT’ye kıyasla yaklaşık %90 oranında doğru olduğunu iddia ediyor. Vicuna-13B eğitiminin maliyeti 300 dolar civarında. Kod ve ağırlıklar, çevrimiçi bir demo ile birlikte, ticari olmayan kullanım için halka açıktır.
- GitHub: lm-sys/FastChat: The release repo for “Vicuna: An Open Chatbot Impressing GPT-4” (github.com)
- Review: Vicuna — 90% of ChatGPT quality by using a new dataset? — YouTube
WizardLM
Evol-Instruct Kullanarak Talimat Takip Eden Bir LLM. Karmaşık Talimatları Takip Etmek için Önceden Eğitilmiş Büyük Dil Modellerini Güçlendirme.
- GitHub: nlpxucan/WizardLM: WizardLM: Empowering Large Pre-Trained Language Models to Follow Complex Instructions (github.com)
- Review: WizardLM: Evolving Instruction Datasets to Create a Better Model — YouTube
BLOOM (BigScience)
BigScience Büyük Açık bilim Açık erişim Çok Dilli Dil Modelidir.
- BLOOM durumunda 176 milyar parametre olmak üzere çok sayıda parametre üzerinde eğitilmiş dil modelleri.
- Sonuçlar sıfır atış veya az atış öğrenme ile elde edilebilir. Başka bir deyişle, şaşırtıcı sonuçlar öğrenme/eğitim olmadan veya sadece birkaç cümle talimatla elde edilebilir.
- LLM’ler donanım kapasitesi, işleme ve depolama açısından kaynak yoğundur.
- Değişen derecelerde karmaşıklıkta ince ayar mevcuttur.
- LLM’ler genellikle oluşturma (diğer adıyla tamamlama), özetleme, gömmeler (verileri kümeleme ve görsel olarak temsil etme), Sınıflandırma, anlamsal arama ve dil çevirisi için kullanılır.
BLOOM, 46 dilde ve 13 programlama dilinde metin üretebilir. Model, endüstriyel ölçekli hesaplama kaynakları kullanılarak çok miktarda metin verisi üzerinde eğitilmiştir.
- Hugging Face: bigscience/bloom · Hugging Face
- Hugging Face Demo: Bloom Demo — a Hugging Face Space by huggingface
BLOOM projesinin reprodüksiyonlarının bir listesi:
- BLOOM-LoRA
- Petals
BLOOM-LoRA
Çeşitli Instruct-Tuning veri kümeleri için Low-Rank uyarlaması.
Petals
Dağıtılmış 176B parametreli BLOOM veya BLOOMZ kullanarak metin oluşturabilir ve kendi görevleriniz için ince ayar yapabilirsiniz.
Cerebras-GPT (Cerebras)
Açık, Hesaplama Verimli, Büyük Dil Modelleri Ailesi. Cerebras, 111 milyon ila 13 milyar parametre arasında yedi GPT-4 modelini açık kaynak olarak sunuyor. Chinchilla formülü kullanılarak eğitilen bu modeller, doğruluk ve hesaplama verimliliği açısından yeni ölçütler belirliyor.
- Website: Cerebras-GPT: A Family of Open, Compute-efficient, Large Language Models — Cerebras
- Hugging Face: cerebras (Cerebras) (huggingface.co)
- Review: Checking out the Cerebras-GPT family of models — YouTube
Flamingo (Google/Deepmind)
Tek bir görsel dil modeliyle birden fazla görevin üstesinden gelebilirsiniz.
Flamingo projesinin reprodüksiyonlarının listesi:
- Flamingo — Pytorch
- OpenFlamingo
Flamingo — Pytorch
Pytorch’ta son teknoloji ürünü az sayıda görsel soru cevaplama dikkat ağı olan Flamingo’nun uygulanması. Algılayıcı yeniden örnekleyiciyi (öğrenilen sorguların, medya katıştırmalarına ek olarak katılacak anahtarlara / değerlere katkıda bulunduğu şema dahil), özel maskeli çapraz dikkat bloklarını ve son olarak çapraz dikkat + karşılık gelen ileri besleme bloklarının uçlarındaki “tanh” geçidini içerir.
OpenFlamingo
DeepMind’ın Flamingo modelinin açık kaynak sürümüdür. Bu repoda, OpenFlamingo modellerini eğitmek ve değerlendirmek için bir PyTorch uygulaması hakkında detaylı bilgiler bulabilirsiniz. Ayrıca yeni bir Multimodal C4 veri seti üzerinde eğitilmiş ilk OpenFlamingo 9B modelini de duyurulacak(çok yakında).
FLAN (Google)
Bu depo, talimat ayarlama veri kümesi koleksiyonları oluşturmak için kod içerir. Birincisi, Finetuned Language Models are Zero-Shot Learners’da belgelenen orijinal Flan 2021, ikincisi ise The Flan Collection’da açıklanan Flan Collection adlı genişletilmiş sürümdür: Etkili Talimat Ayarlaması için Veri ve Yöntem Tasarlama ve Flan-T5 ve Flan-PaLM’yi üretmek için kullanılmıştır.
FLAN projesine ait reprodüksiyonların bir listesi:
- FastChat-T5
- Flan-Alpaca
- Flan-UL2
FastChat-T5
FastChat-T5 modeli, NLP alanında özellikle sohbet botları gibi uygulamalarda kullanılmak üzere tasarlanmıştır. Bu model, soru-cevap sistemleri ve metin üretimi gibi görevleri yerine getirebilir. FastChat-T5 modeli, hızlı bir şekilde çalışmak için özel olarak optimize edilmiştir. Bu modele ayrıca, eğitim verilerini etkin bir şekilde kullanmak için özel bir veri önişleme işlemi de dahil edilmiştir.
- Flan-T5’ten ince ayarlanmış, ticari kullanıma hazır!
- 4 kat daha az parametre ile Dolly-V2'den daha iyi performans gösterir.
- GitHub: lm-sys/FastChat: The release repo for “Vicuna: An Open Chatbot Impressing GPT-4” (github.com)
- Hugging Face: https://github.com/lm-sys/FastChat/blob/main/fastchat/serve/huggingface_api.py
Flan-Alpaca
İnsanlardan ve Makinelerden Talimat Ayarlama. Bu depo, Stanford Alpaca sentetik komut ayarlamasını Flan-T5 gibi mevcut komut ayarlı modellere genişletmek için kod içerir. Önceden eğitilmiş modeller ve demolar HuggingFace’te mevcuttur.
Flan-UL2
Flan-UL2, T5 mimarisine dayanan bir kodlayıcı kod çözücü modelidir. Geçen yılın başlarında piyasaya sürülen UL2 modeliyle aynı yapılandırmayı kullanır. “Flan” hızlı ayarlama ve veri seti toplama kullanılarak ince ayar yapılmıştır.
- Hugging Face: google/flan-ul2 · Hugging Face
- Review: Trying Out Flan 20B with UL2 — Working in Colab with 8Bit Inference — YouTube
GALACTICA
GALACTICA modeli, nasıl eğitildiği ve amaçlanan kullanım durumları hakkında bilgi vermektedir. Modelin nasıl eğitildiği ve değerlendirildiği ile ilgili tüm ayrıntıları aşağıdaki dokümantasyon’ dan bulabilirsiniz.
GALACTICA projesinin reprodüksiyonlarının listesi:
- Galpaca
GALACTICA 30B Alpaca veri setinde ince ayar yapıldı.
- Hugging Face: GeorgiaTechResearchInstitute/galpaca-30b · Hugging Face
- Hugging Face: TheBloke/galpaca-30B-GPTQ-4bit-128g · Hugging Face
GLM (General Language Model)
GLM, otoregresif boşluk doldurma hedefi ile önceden eğitilmiş bir Genel Dil Modelidir ve çeşitli doğal dil anlama ve oluşturma görevlerinde ince ayar yapılabilir.
GLM: Tsinghua Üniversitesi, Pekin Yapay Zeka Akademisi (BAAI), MIT CSAIL ve Şangay Qi Zhi Enstitüsü tarafından Otomatik Gerici Boş Doldurma ile Genel Dil Modeli Ön Eğitimi, GLM,
- Genel Dil Modeli (GLM), otoregresif boş dolguya dayalı olarak önerilmektedir.
- GLM, 2D konumsal kodlamalar ekleyerek ve açıklıkları tahmin etmek için keyfi bir düzene izin vererek boş doldurma ön eğitimini geliştirir.
- Bu arada, GLM, boşlukların sayısını ve uzunluklarını değiştirerek farklı görev türleri için önceden eğitilebilir.
- Daha sonra, GLM-130B GLM’ye Dayalı Olarak Üretildi ve 2023 ICLR’de Kabul Edildi.
GLM projesinin reprodüksiyonlarının listesi:
- ChatGLM-6B
ChatGLM-6B
ChatGLM-6B, 6,2 milyar parametre ile Genel Dil Modeli (GLM) çerçevesine dayanan açık bir iki dilli dil modelidir. Niceleme tekniği ile kullanıcılar yerel olarak tüketici sınıfı grafik kartlarına dağıtabilirler (INT4 niceleme seviyesinde sadece 6GB GPU belleği gereklidir).
ChatGLM-6B, Çince QA ve diyalog için optimize edilmiş ChatGPT’ye benzer bir teknoloji kullanır. Model, denetimli ince ayar, geri bildirim önyükleme ve insan geri bildirimi ile pekiştirmeli öğrenme ile desteklenen yaklaşık 1T Çince ve İngilizce külliyat için eğitilmiştir. Model, yalnızca yaklaşık 6,2 milyar parametre ile insan tercihlerine uygun yanıtlar üretebilmektedir.
- GitHub: THUDM/ChatGLM-6B: ChatGLM-6B:开源双语对话语言模型 | An Open Bilingual Dialogue Language Model (github.com)
GPT-J
GPT-J, EleutherAI tarafından geliştirilen açık kaynaklı bir yapay zeka dil modelidir.
[1] GPT-J, çeşitli sıfır atışlı aşağı akış görevlerinde OpenAI’nin GPT-3'üne çok benzer performans gösterir ve hatta kod oluşturma görevlerinde ondan daha iyi performans gösterebilir. [2] En yeni sürüm olan GPT-J-6B, The Pile adlı bir veri setine dayanan bir dil modelidir.[3] The Pile, 22 küçük veri setine bölünmüş açık kaynaklı 825 gibibyte’lık bir dil modelleme veri setidir.[4] GPT-J, bir sohbet botu olarak değil, yalnızca bir metin tahmincisi olarak işlev görmesine rağmen, yetenek açısından ChatGPT’ye benzer.[5]
GPT-J projesinin yeniden üretimlerinin listesi:
- Dolly
- GPT-J-6B instruction-tuned on Alpaca-GPT4
Dolly (Databricks)
Databricks Makine Öğrenimi Platformu üzerinde eğitilen büyük bir dil modeli olan Databricks Dolly, iki yıllık bir açık kaynak modelinin (GPT-J), 50 bin kayıttan oluşan odaklanmış bir derlem (Stanford Alpaca) üzerinde sadece 30 dakikalık ince ayarlara tabi tutulduğunda, dayandığı temel modelin karakteristiği olmayan davranışları takip ederek şaşırtıcı derecede yüksek kaliteli talimatlar sergileyebileceğini göstermektedir. Bu bulgunun önemli olduğuna inanmak istiyoruz çünkü güçlü yapay zeka teknolojileri yaratma becerisinin daha önce fark edilenden çok daha erişilebilir olduğunu gösteriyor.
- GitHub: databrickslabs/dolly: Databricks’ Dolly, a large language model trained on the Databricks Machine Learning Platform (github.com)
- Review: Meet Dolly the new Alpaca model — YouTube
GPT-J-6B instruction-tuned on Alpaca-GPT4
Bu model, dört V100S’de 7 saatten fazla süren 30.000 adım (128 parti boyutu) için LoRA kullanılarak Alpaca istemlerinin GPT-4 nesilleri üzerinde ince ayarlanmıştır.
- Hugging Face: vicgalle/gpt-j-6B-alpaca-gpt4 · Hugging Face
GPT4All-J
GPT-J tabanlı açık kaynak asistan tarzı büyük dil modelini eğitmek için demo, veri ve kod.
- GitHub: nomic-ai/gpt4all: gpt4all: an ecosystem of open-source chatbots trained on a massive collections of clean assistant data including code, stories and dialogue (github.com)
- Review: GPT4ALLv2: The Improvements and Drawbacks You Need to Know! — YouTube
GPT-NeoX
Bu repo, EleutherAI’nin GPU’larda büyük ölçekli dil modellerini eğitmeye yönelik bir kütüphanesidir. Mevcut çerçeve NVIDIA’nın Megatron Dil Modeline dayanmaktadır ve DeepSpeed’den alınan tekniklerin yanı sıra bazı yeni optimizasyonlarla zenginleştirilmiştir. Bu repo, büyük ölçekli otoregresif dil modellerini eğitmeye yönelik teknikleri bir araya getirmek ve büyük ölçekli eğitim araştırmalarını hızlandırmak için merkezi ve erişilebilir bir yer haline getirmeyi amaçlamıştır.
h2oGPT
Bu model “amacımız dünyanın en iyi açık kaynak GPT’sini yapmak!” sloganı ile piyasaya çıkmıştır ve şu an geliştirilmeye devam etmektedir.
- GitHub: h2oai/h2ogpt: Come join the movement to make the world’s best open source GPT led by H2O.ai (github.com)
- Hugging Face: H2ogpt Oasst1 256 6.9b App — a Hugging Face Space by h2oai
HuggingGPT
HuggingGPT, denetleyici olarak bir LLM ve işbirlikçi yürütücüler olarak çok sayıda uzman modelden oluşan işbirlikçi bir sistemdir (HuggingFace Hub’dan).
OpenAssistant Models
Herkes için diyalogsal yapay zeka.
- Website: Open Assistant (open-assistant.io)
- GitHub: LAION-AI/Open-Assistant: OpenAssistant is a chat-based assistant that understands tasks, can interact with third-party systems, and retrieve information dynamically to do so. (github.com)
- Hugging Face: OpenAssistant (OpenAssistant) (huggingface.co)
Palmyra Base 5B (Writer)
Palmyra Base öncelikle İngilizce metinlerle önceden eğitilmiştir. CommonCrawl aracılığıyla erişilen eğitim derleminde hala eser miktarda İngilizce olmayan veri bulunduğunu unutmayın. Modelin ön eğitim sürecinde nedensel bir dil modelleme (CLM) hedefi kullanılmıştır.
GPT-3'e benzer şekilde Palmyra Base de yalnızca kod çözücü içeren aynı model ailesinin bir üyesidir. Sonuç olarak, kendi kendine denetimli nedensel dil modelleme hedefi kullanılarak ön eğitime tabi tutulmuştur. Palmyra Base, GPT-3'e göre değerlendirmesini yapmak için GPT-3'teki istemleri ve genel deney düzeneğini kullanır.
- Hugging Face: Writer/palmyra-base · Hugging Face
Palmyra Base projesinin reprodüksiyonlarının listesi:
- Camel 5B
Camel 🐪 5B
Olağanüstü performans ve çok yönlülük sunmak üzere tasarlanmış, son teknoloji ürünü talimat takip eden büyük dil modeli Camel-5b ile tanışın. Palmyra-Base’in temel mimarisinden türetilen Camel-5b, gelişmiş doğal dil işleme ve anlama yeteneklerine yönelik artan talebi karşılamak için özel olarak tasarlanmıştır.
- Hugging Face: Writer/camel-5b-hf · Hugging Face
Polyglot
Çok Dilde İyi Dengelenmiş Yeterliliğin Büyük Dil Modelleri. mBERT, BLOOM ve XGLM gibi çeşitli çok dilli modeller piyasaya sürülmüştür. Mevcut çok dilli modellerin İngilizce dışındaki dillerdeki performansından duyulan memnuniyetsizlik üzerine piyasaya çıkmıştır. Daha yüksek İngilizce dışı dil performansına sahip çok dilli modeller yapmaya devam edilmektedir. Yeniden çok dilli modellere ‘Polyglot’ adını verilmesinin nedeni budur.
Pythia
Zaman ve Ölçek Boyunca Otoregresif Dönüşümlerin Yorumlanması.
- GitHub: EleutherAI/pythia (github.com)
Pythia projesinin reprodüksiyonlarının listesi.
- Dolly 2.0
Dolly 2.0 (Databricks)
Dolly 2.0, EleutherAI pythia model ailesine dayanan 12B parametreli bir dil modelidir ve yalnızca Databricks çalışanları arasında kitle kaynaklı yeni, yüksek kaliteli insan yapımı talimat takip veri kümesi üzerinde ince ayar yapılmıştır.
- Website: Free Dolly: Introducing the World’s First Open and Commercially Viable Instruction-Tuned LLM — The Databricks Blog
- Hugging Face: databricks (Databricks) (huggingface.co)
- GutHub: dolly/data at master · databrickslabs/dolly (github.com)
- Review: Dolly 2.0 by Databricks: Open for Business but is it Ready to Impress! — YouTube
The RWKV Language Model
RWKV: Transformatör düzeyinde LLM Performansı ile Paralelleştirilebilir RNN (“RwaKuv” olarak telaffuz edilir, 4 ana parametre: R W K V)
- GitHub: BlinkDL/RWKV-LM
- ChatRWKV: with “stream” and “split” strategies and INT8. 3G VRAM is enough to run RWKV 14B :) https://github.com/BlinkDL/ChatRWKV
- Hugging Face Demo: HuggingFace Gradio demo (14B ctx8192)
- Hugging Face Demo: Raven (7B finetuned on Alpaca) Demo
- RWKV pip package: https://pypi.org/project/rwkv/
- Review: Raven — RWKV-7B RNN’s LLM Strikes Back — YouTube
Segment Anything
Segment Anything Model (SAM), nokta veya kutu gibi girdi istemlerinden yüksek kaliteli nesne maskeleri üretir ve bir görüntüdeki tüm nesneler için maske üretmek için kullanılabilir. SAM, 11 milyon görüntü ve 1,1 milyar maskeden oluşan bir veri kümesi üzerinde eğitilmiştir ve çeşitli segmentasyon görevlerinde güçlü sıfır atış performansına sahiptir.
- Website: Introducing Segment Anything: Working toward the first foundation model for image segmentation (facebook.com)
- GitHub: facebookresearch/segment-anything: The repository provides code for running inference with the SegmentAnything Model (SAM), links for downloading the trained model checkpoints, and example notebooks that show how to use the model. (github.com)
StableLM
Yeni bir açık kaynak dil modeli, StableLM. Modelin Alfa sürümü 3 milyar ve 7 milyar parametreli olarak mevcuttur ve bunu 15 milyar ila 65 milyar parametreli modeller takip edecektir. Geliştiriciler, CC BY-SA-4.0 lisansının şartlarına tabi olarak, StableLM temel modellerimizi ticari veya araştırma amaçlı olarak serbestçe inceleyebilir, kullanabilir ve uyarlayabilir.
StableLM, The Pile üzerine inşa edilmiş, ancak 1,5 trilyon token içerikle üç kat daha büyük olan yeni bir deneysel veri kümesi üzerinde eğitilmiştir. Veri setiyle ilgili ayrıntılar şu ana kadar açıklanmadı. Bu veri setinin zenginliği, 3 ila 7 milyar parametreden oluşan küçük boyutuna rağmen StableLM’ye konuşma ve kodlama görevlerinde şaşırtıcı derecede yüksek performans sağlar (karşılaştırma yapmak gerekirse, GPT-3 175 milyar parametreye sahiptir)
- Website: Stability AI Launches the First of its StableLM Suite of Language Models — Stability AI
- GitHub: Stability-AI/StableLM: StableLM: Stability AI Language Models (github.com)
- Hugging Face: Stablelm Tuned Alpha Chat — a Hugging Face Space by stabilityai
- Review: Stable LM 3B — The new tiny kid on the block. — YouTube
XGLM
XGLM modeli Çok Dilli Dil Modelleri ile Az Atışlı Öğrenme’de önerilmiştir.
GitHub:https://github.com/facebookresearch/fairseq/tree/main/examples/xglm
Hugging Face: https://huggingface.co/docs/transformers/model_doc/xglm
Other Repositories
couchpotato888
- Hugging Face: couchpotato888 (Phil Wee) (huggingface.co)
Umarım bu makaleyi beğenmişsinizdir. Herhangi bir sorunuz veya yorumunuz varsa, lütfen buradan iletin.
Tüm Temel Modellerinin Listesi
Kaynak: 1 Milyardan Fazla Parametreli LLM’lerin Listesi (matt-rickard.com)
- GPT-J (6B) (EleutherAI)
- GPT-Neo (1.3B, 2.7B, 20B) (EleutherAI)
- Pythia (1B, 1.4B, 2.8B, 6.9B, 12B) (EleutherAI)
- Polyglot (1.3B, 3.8B, 5.8B) (EleutherAI)
- J1/Jurassic-1 (7.5B, 17B, 178B) (AI21)
- J2/Jurassic-2 (Large, Grande, and Jumbo) (AI21)
- LLaMa (7B, 13B, 33B, 65B) (Meta)
- OPT (1.3B, 2.7B, 13B, 30B, 66B, 175B) (Meta)
- Fairseq (1.3B, 2.7B, 6.7B, 13B) (Meta)
- GLM-130B YaLM (100B) (Yandex)
- UL2 20B (Google)
- PanGu-α (200B) (Huawei)
- Cohere (Medium, XLarge)
- Claude (instant-v1.0, v1.2) (Anthropic)
- CodeGen (2B, 6B, 16B) (Salesforce)
- RWKV (14B)
- BLOOM (1B, 3B, 7B)
- GPT-4 (OpenAI)
- GPT-3.5 (OpenAI)
- GPT-3 (ada, babbage, curie, davinci) (OpenAI)
- Codex (cushman, davinci) (OpenAI)
- T5 (11B) (Google)
- CPM-Bee (10B)
- Cerebras-GPT
Kaynaklar:
- PRIMO.ai Large Language Model (LLM): https://primo.ai/index.php?title=Large_Language_Model_(LLM)
- A Survey of Large Language Models: [2303.18223] A Survey of Large Language Models (arxiv.org)
- LLMMaps — A Visual Metaphor for Stratified Evaluation of Large Language Models: https://arxiv.org/abs/2304.00457
- A brief history of LLaMA models (A brief history of LLaMA models — AGI Sphere (agi-sphere.com))
- Google “We Have No Moat, And Neither Does OpenAI” (https://www.semianalysis.com/p/google-we-have-no-moat-and-neither)
- Chatbot Arena (Chat with Open Large Language Models (lmsys.org))