Comparando capacidades de LLMs (Large Language Models)

Published in

blog do zouza

7 min readNov 30, 2023

Abaixo, um comparativo de alguns dos principais LLM (Large Language Model) do mercado, confiram e contribuam, não encontrou algum aqui, deixe no comentário que adiciono!

Tabela comparativa de LLMs ordenada por janela de contexto (outras abertas | Mixtral-8x7B | Gemma | Phind | Grok (X) | dbrx (databricks) )

Descrevendo um pouco alguns deles:

GPT-4 (código fechado)

GPT-4 é um LLM desenvolvido pela OpenAI que você pode acessar na versão paga do ChatGPT, por meio do acesso à API da OpenAI ou agora por meio do ChatGPT Enterprise.

Tamanho do modelo: GPT-4 tem uma impressionante contagem de parâmetros de 1,76 trilhão, o que é muito maior em comparação com seu antecessor, o GPT-3, que tem 175 bilhões de parâmetros.
Janela de contexto: o GPT-4 suporta a geração e o processamento de até 32.768 tokens, o que permite uma criação de conteúdo ou análise de documentos muito maiores do que os modelos anteriores.
Desempenho: Embora seja menos capaz que os humanos em muitos cenários do mundo real, o GPT-4 apresenta desempenho de nível humano em vários benchmarks profissionais e acadêmicos. Por exemplo, ele passa em um exame simulado da ordem com uma pontuação em torno dos 10% melhores participantes do teste. Também foi relatado que o GPT-4 demonstrou uma melhoria significativa com uma precisão geral de 76,4% em um contexto médico.
Disponibilidade: GPT-4 está atualmente disponível para assinantes do ChatGPT Plus e como uma API para desenvolvedores criarem aplicativos e serviços. Também está disponível no novo serviço ChatGPT Enterprise.

Llama 2 (código aberto)

Llama 2 é um LLM de código aberto desenvolvido pela Meta. Está disponível gratuitamente para pesquisa e uso comercial.

Tamanho do modelo: O Llama 2 vem em vários tamanhos: parâmetros 7B, 13B e 70B. Há também uma variante ajustada para chat, apropriadamente chamada Llama 2-chat, disponível nos tamanhos dos parâmetros 7B, 13B, 34B e 70B.
Janela de contexto: O Llama 2 tem um comprimento de contexto de 4.096 tokens, o dobro de seu antecessor, o Llama 1. Esse comprimento de contexto maior permite uma compreensão e conclusão mais aprofundadas do tarefas e informações relevantes passadas no prompt do usuário.
Desempenho: os modelos Llama 2 demonstraram um desempenho impressionante. Eles superam os modelos de chat de código aberto na maioria dos benchmarks testados. Por exemplo, os modelos Llama-2-chat são otimizados para casos de uso de diálogo e ajustados para interações no estilo chat por meio de ajuste fino supervisionado e aprendizado por reforço com feedback humano (RLHF).
Disponibilidade: Os modelos Llama 2 estão disponíveis em diversas plataformas. Eles estão disponíveis no Microsoft Azure, Amazon Web Services (AWS), Hugging Face e outros provedores. A Qualcomm anunciou que disponibilizará o modelo Llama 2 em dispositivos móveis e desktops com Snapdragon no início de 2024.

Claude 2 (código fechado)

Claude 2 é um LLM desenvolvido pela Anthropic. Sua enorme janela de contexto de 200.000 tokens atualmente o diferencia de outros LLMs.

Tamanho do modelo: Claude 2.1 é treinado em mais de 200 bilhões de parâmetros.
Janela de contexto: Claude 2.1 tem uma grande janela de contexto que pode lidar com até 200.000 tokens em um único prompt, um salto significativo em relação ao limite anterior de 100.000 tokens de Claude 2. 200.000 tokens equivalem a 150.000 palavras.
Recurso de IA ética: Claude 2 é um dos primeiros chatbots de IA constitucionais. Foi treinado para fazer julgamentos com base num conjunto de princípios retirados de documentos, incluindo a Declaração da ONU de 1948 e os termos de serviço da Apple. Isso garante que o modelo possa se expandir para questões éticas no domínio digital.
Desempenho: Claude 2 melhorou o desempenho em diversas áreas, como codificação, matemática e raciocínio. Por exemplo, obteve 76,5% na seção de múltipla escolha do exame da Ordem, acima dos 73,0% de Claude 1,3. Quando comparado aos estudantes universitários que se inscrevem na pós-graduação, Claude 2 pontua acima do percentil 90 nos exames de leitura e redação do GRE, e de forma semelhante à do candidato mediano em raciocínio quantitativo. No Codex HumanEval, um teste de codificação Python, Claude 2 obteve 71,2%, acima dos 56,0% com Claude 1.3.
Disponibilidade: Claude 2 está disponível em versão beta a partir dos EUA e do Reino Unido na Web gratuitamente com uso limitado e por meio de uma API paga (com acesso limitado). A Anthropic está trabalhando para tornar Claude mais disponível globalmente.

Introducing the next generation of Claude 3

Today, we're announcing the Claude 3 model family, which sets new industry benchmarks across a wide range of cognitive…

www.anthropic.com

PaLM 2 (código aberto)

PaLM 2 é um modelo baseado em transformador lançado pelo Google com melhores recursos multilíngues, de raciocínio e de codificação . Também é mais eficiente em termos de computação do que seu antecessor, PaLM.

Tamanho do modelo: o Google disponibilizará o PaLM 2 em quatro tamanhos, do menor ao maior: Gecko, Otter, Bison e Unicorn2. De acordo com o Google, o PaLM tem 540 bilhões de parâmetros, então o “significativamente menor” deve colocar o PaLM 2 entre 10 e 300 bilhões de parâmetros.
Janela de contexto: 32.000 tokens
Desempenho: O PaLM 2 supera significativamente seu antecessor, o PaLM, em algumas tarefas matemáticas, de tradução e de raciocínio. Ele é excelente em tarefas avançadas de raciocínio, incluindo código e matemática, classificação e resposta a perguntas, tradução e proficiência multilíngue e geração de linguagem natural.
Disponibilidade: o PaLM 2 está disponível para desenvolvedores por meio da API PaLM do Google. Também está disponível na Google AI Platform. O menor modelo, Gecko, pode rodar em um dispositivo móvel.

Falcon (código aberto)

Falcon é um LLM desenvolvido pelo Technology Innovation Institute (TII) e hospedado no Hugging Face.

Tamanho do modelo: O Falcon vem em dois modelos básicos: Falcon-40B e Falcon-7B. O modelo principal, Falcon 180B, é um LLM de 180 bilhões de parâmetros.
Janela de contexto: O Falcon LLM tem um tamanho de janela de contexto predefinido de 2048. No entanto, há esforços para estender o comprimento do contexto do Falcon 40B para 10k.
Desempenho: em setembro de 2023, o Falcon 180B foi classificado como o LLM pré-treinado de melhor desempenho na tabela de classificação do Hugging Face Open LLM. Seu desempenho é comparável ao PaLM 2 (Bard) do Google e não fica muito atrás do GPT-4. Ele até supera o GPT-3.5 em alguns benchmarks.
Disponibilidade: Os modelos Falcon estão disponíveis no Catálogo de Modelos na plataforma Azure Machine Learning devido à parceria entre a Microsoft e a Hugging Face.

Mais alguns (código aberto):

Mistral AI | Open-weight models

Frontier AI in your hands

mistral.ai

google/gemma-7b · Hugging Face

We're on a journey to advance and democratize artificial intelligence through open source and open science.

huggingface.co

O que você pode fazer com esses LLMs?

Você tem a capacidade de criar chatbots personalizados, oferecer experiências customizadas ao cliente e explorar novas áreas em análises preditivas. Contudo, como passo inicial, é essencial organizar e centralizar seus dados, identificar os casos de uso de negócios mais relevantes e montar um time de profissionais especializados em IA para integrar Modelos de Linguagem de Grande Escala (LLMs) e outras tecnologias de inteligência artificial.

Vejam também:

Tudo o que você precisa saber sobre LLM (Large Language Model)

Nesta story, vamos explorar em detalhes o que é um LLM (Large Language Model), como ele é aplicado, quais ferramentas…

medium.com

GenAI — O que é Engenharia de Prompt?

Com a explosão no crescimento de usuários com IAs como ChatGPT, Bing AI, Meta AI, Claude AI e Bard do Google , a…

medium.com

Alex Souza on LinkedIn: #genai #prompts #dados #excel #sql #python #dax #dados #dicas

Fala pessoal, montei um e-book com alguns prompts do ChatGPT (não apenas dele) que utilizo no meu dia a dia em análises…

www.linkedin.com

Maritaca AI | Modelos de linguagem

A Maritaca AI é um híbrido de instituto de pesquisa e especialização de modelos de linguagem para o Português. Nossa IA…

www.maritaca.ai .

Sapiens Chat

The most advanced Generative AI in the world

sapienschatapp.com

Phi-2: The surprising power of small language models

Phi-2 is now accessible on the Azure model catalog. Its compact size and new innovations in model scaling and training…

www.microsoft.com

Anthropic Releases Claude 2.1: Revolutionizing Enterprise AI with Extended Context Window and…

While various AI models exist, the recently launched Claude 2.1 by Anthropic addresses some of the prevailing issues…

www.marktechpost.com

Introducing PaLM 2

Today at I/O 2023, Google introduced PaLM 2, a new language model with improved multilingual, reasoning, and coding…

blog.google

Modelos OpenAI

New models and developer products announced at DevDay

GPT-4 Turbo with 128K context and lower prices, the new Assistants API, GPT-4 Turbo with Vision, DALL·E 3 API, and…

openai.com

Introducing GPTs

You can now create custom versions of ChatGPT that combine instructions, extra knowledge, and any combination of…