Comparando capacidades de LLMs (Large Language Models)

Alex Souza
blog do zouza
Published in
7 min readNov 30, 2023

Abaixo, um comparativo de alguns dos principais LLM (Large Language Model) do mercado, confiram e contribuam, não encontrou algum aqui, deixe no comentário que adiciono!

Tabela comparativa de LLMs ordenada por janela de contexto (outras abertas | Mixtral-8x7B | Gemma | Phind | Grok (X) | dbrx (databricks) )

Descrevendo um pouco alguns deles:

GPT-4 (código fechado)

GPT-4 é um LLM desenvolvido pela OpenAI que você pode acessar na versão paga do ChatGPT, por meio do acesso à API da OpenAI ou agora por meio do ChatGPT Enterprise.

  • Tamanho do modelo: GPT-4 tem uma impressionante contagem de parâmetros de 1,76 trilhão, o que é muito maior em comparação com seu antecessor, o GPT-3, que tem 175 bilhões de parâmetros.
  • Janela de contexto: o GPT-4 suporta a geração e o processamento de até 32.768 tokens, o que permite uma criação de conteúdo ou análise de documentos muito maiores do que os modelos anteriores.
  • Desempenho: Embora seja menos capaz que os humanos em muitos cenários do mundo real, o GPT-4 apresenta desempenho de nível humano em vários benchmarks profissionais e acadêmicos. Por exemplo, ele passa em um exame simulado da ordem com uma pontuação em torno dos 10% melhores participantes do teste. Também foi relatado que o GPT-4 demonstrou uma melhoria significativa com uma precisão geral de 76,4% em um contexto médico.
  • Disponibilidade: GPT-4 está atualmente disponível para assinantes do ChatGPT Plus e como uma API para desenvolvedores criarem aplicativos e serviços. Também está disponível no novo serviço ChatGPT Enterprise.

Llama 2 (código aberto)

Llama 2 é um LLM de código aberto desenvolvido pela Meta. Está disponível gratuitamente para pesquisa e uso comercial.

  1. Tamanho do modelo: O Llama 2 vem em vários tamanhos: parâmetros 7B, 13B e 70B. Há também uma variante ajustada para chat, apropriadamente chamada Llama 2-chat, disponível nos tamanhos dos parâmetros 7B, 13B, 34B e 70B.
  2. Janela de contexto: O Llama 2 tem um comprimento de contexto de 4.096 tokens, o dobro de seu antecessor, o Llama 1. Esse comprimento de contexto maior permite uma compreensão e conclusão mais aprofundadas do tarefas e informações relevantes passadas no prompt do usuário.
  3. Desempenho: os modelos Llama 2 demonstraram um desempenho impressionante. Eles superam os modelos de chat de código aberto na maioria dos benchmarks testados. Por exemplo, os modelos Llama-2-chat são otimizados para casos de uso de diálogo e ajustados para interações no estilo chat por meio de ajuste fino supervisionado e aprendizado por reforço com feedback humano (RLHF).
  4. Disponibilidade: Os modelos Llama 2 estão disponíveis em diversas plataformas. Eles estão disponíveis no Microsoft Azure, Amazon Web Services (AWS), Hugging Face e outros provedores. A Qualcomm anunciou que disponibilizará o modelo Llama 2 em dispositivos móveis e desktops com Snapdragon no início de 2024.

Claude 2 (código fechado)

Claude 2 é um LLM desenvolvido pela Anthropic. Sua enorme janela de contexto de 200.000 tokens atualmente o diferencia de outros LLMs.

  1. Tamanho do modelo: Claude 2.1 é treinado em mais de 200 bilhões de parâmetros.
  2. Janela de contexto: Claude 2.1 tem uma grande janela de contexto que pode lidar com até 200.000 tokens em um único prompt, um salto significativo em relação ao limite anterior de 100.000 tokens de Claude 2. 200.000 tokens equivalem a 150.000 palavras.
  3. Recurso de IA ética: Claude 2 é um dos primeiros chatbots de IA constitucionais. Foi treinado para fazer julgamentos com base num conjunto de princípios retirados de documentos, incluindo a Declaração da ONU de 1948 e os termos de serviço da Apple. Isso garante que o modelo possa se expandir para questões éticas no domínio digital.
  4. Desempenho: Claude 2 melhorou o desempenho em diversas áreas, como codificação, matemática e raciocínio. Por exemplo, obteve 76,5% na seção de múltipla escolha do exame da Ordem, acima dos 73,0% de Claude 1,3. Quando comparado aos estudantes universitários que se inscrevem na pós-graduação, Claude 2 pontua acima do percentil 90 nos exames de leitura e redação do GRE, e de forma semelhante à do candidato mediano em raciocínio quantitativo. No Codex HumanEval, um teste de codificação Python, Claude 2 obteve 71,2%, acima dos 56,0% com Claude 1.3.
  5. Disponibilidade: Claude 2 está disponível em versão beta a partir dos EUA e do Reino Unido na Web gratuitamente com uso limitado e por meio de uma API paga (com acesso limitado). A Anthropic está trabalhando para tornar Claude mais disponível globalmente.

PaLM 2 (código aberto)

PaLM 2 é um modelo baseado em transformador lançado pelo Google com melhores recursos multilíngues, de raciocínio e de codificação . Também é mais eficiente em termos de computação do que seu antecessor, PaLM.

  1. Tamanho do modelo: o Google disponibilizará o PaLM 2 em quatro tamanhos, do menor ao maior: Gecko, Otter, Bison e Unicorn2. De acordo com o Google, o PaLM tem 540 bilhões de parâmetros, então o “significativamente menor” deve colocar o PaLM 2 entre 10 e 300 bilhões de parâmetros.
  2. Janela de contexto: 32.000 tokens
  3. Desempenho: O PaLM 2 supera significativamente seu antecessor, o PaLM, em algumas tarefas matemáticas, de tradução e de raciocínio. Ele é excelente em tarefas avançadas de raciocínio, incluindo código e matemática, classificação e resposta a perguntas, tradução e proficiência multilíngue e geração de linguagem natural.
  4. Disponibilidade: o PaLM 2 está disponível para desenvolvedores por meio da API PaLM do Google. Também está disponível na Google AI Platform. O menor modelo, Gecko, pode rodar em um dispositivo móvel.

Falcon (código aberto)

Falcon é um LLM desenvolvido pelo Technology Innovation Institute (TII) e hospedado no Hugging Face.

  1. Tamanho do modelo: O Falcon vem em dois modelos básicos: Falcon-40B e Falcon-7B. O modelo principal, Falcon 180B, é um LLM de 180 bilhões de parâmetros.
  2. Janela de contexto: O Falcon LLM tem um tamanho de janela de contexto predefinido de 2048. No entanto, há esforços para estender o comprimento do contexto do Falcon 40B para 10k.
  3. Desempenho: em setembro de 2023, o Falcon 180B foi classificado como o LLM pré-treinado de melhor desempenho na tabela de classificação do Hugging Face Open LLM. Seu desempenho é comparável ao PaLM 2 (Bard) do Google e não fica muito atrás do GPT-4. Ele até supera o GPT-3.5 em alguns benchmarks.
  4. Disponibilidade: Os modelos Falcon estão disponíveis no Catálogo de Modelos na plataforma Azure Machine Learning devido à parceria entre a Microsoft e a Hugging Face.

O que você pode fazer com esses LLMs?

Você tem a capacidade de criar chatbots personalizados, oferecer experiências customizadas ao cliente e explorar novas áreas em análises preditivas. Contudo, como passo inicial, é essencial organizar e centralizar seus dados, identificar os casos de uso de negócios mais relevantes e montar um time de profissionais especializados em IA para integrar Modelos de Linguagem de Grande Escala (LLMs) e outras tecnologias de inteligência artificial.

Vejam também:

Modelos OpenAI

Agradeço pela leitura e espero que tenha sido útil…

Obrigado! Antes de você ir:

· 👏 Deixe suas palmas o story e me siga para mais assuntos

· 📰 Vejam mais conteúdos como este Blog do Souza

· 📰🚀 Diariamente dicas rápidas sobre dados 👉Alex Souza

· 💰 Venham conhecer a Comunidade de Análise de Dados

· 🔔 Sigam: Twitter (X) | LinkedIn | Instagram | Youtube | mais…

gerada pelo dall-e 3 (openai)

--

--