Alucinações em Generative AI: Os bastidores do post Achados de uma viagem, e o lago que (não) existiu.

Christian Zambra
productmanagerslife
10 min readApr 7, 2024
Imagem por Christian Zambra, a partir da edição de imagens geradas por leonardo.ai.

Alguma vez alguém te falou algo absurdo, mas com tanta convicção que você acreditou?

Esse artigo é para todos que utilizam modelos de Generative AI, como Gemini e ChatGPT. Seja criando soluções a partir desta tecnologia como Data Scientists, Product Managers ou Empreendedores, ou utilizando as ferramentas no seu dia a dia, em pesquisas pessoais ou acadêmicas (quem nunca), esse artigo busca trazer pontos importantes para vocês.

Nós sabemos que essas ferramentas se expandiram de uma maneira tão fenomenal que estão mudando o mundo, mudando a forma como fazemos nossas tarefas cotidianas, e impactando todo o cenário de tecnologia. Porém, nunca devemos nos esquecer que elas são ferramentas. Ferramentas incríveis, que parecem mágica, mas são ferramentas. Ferramentas direcionadas para objetivos bem claros, e que podem falhar.

Conhecer a ferramenta é essencial para fazer um bom trabalho. Aqui, partindo de um exemplo prático de alucinação dos dois sistemas de AI Generativa mais populares do mercado que vivi quando os utilizava para escrever um artigo, buscarei compartilhar algumas informações importantes para compreender esse fenômeno, e utilizar melhor as ferramentas.

Vamos falar de alucinações em modelos de Generative AI:

  • Apresentar exemplos, a partir do que aconteceu quando tentei usar Generative AI (Gemini e ChatGPT) para me ajudar a escrever o último post
  • Elaborar hipóteses sobre o motivo dessas alucinações
  • Falar de soluções, seja para usuários das ferramentas, seja para as próprias ferramentas, vislumbrando aí um pouco do futuro de Generative AI e a importância de Knowledge Graphs.

Exemplo: No meio do caminho tinha um lago?

Mapa de Cartagena (Espanha) em 209 D.C. Imagem simplificada a partir desta, disponível na Wikipedia.

No meu último artigo, eu falei de um lago. Abaixo compartilharei o link do artigo, mas basicamente eu falava de um lago que foi extremamente importante para a história da cidade de Cartagena (Espanha), para a história das Guerras Púnicas, e consequentemente, para a história mundial. Havia lido sobre o lago em diversos lugares, e apesar dele não existir mais, visitei parte de seu leito. Pois bem, para ilustrar o artigo, eu queria entender exatamente a posição e os limites do lago, assim fui pedir ajuda aos sistemas de Generative AI Gemini e ChatGPT.

Ao perguntar pro Gemini sobre o lago, ele disse que não existia. Na verdade, no início da conversa ele citou o lago, e logo após, disse que não existia. E quando apresentei provas do lago, tentou me convencer que que o lago poderia não existir (Alucina e não desiste).

Ao perguntar para o ChatGPT sobre o lago, ele também disse que não existia. Mas quando apresentei provas, ele pediu desculpas.

Vou colocar abaixo os prints e resumir em português logo abaixo os diálogos. Mas o artigo não acaba, após esse monte de imagens, vou colocar info que me convenceu de que não sou louco e o lago por onde andei existe, e tentar explicar o porque das alucinações.

Conversa com Gemini

Print 01 — Conversa com Gemini.

Veja que inicialmente o Gemini cita o lago, em “Exploiting the Lagoon”.

Print 02 — Conversa com o Gemini.

Aqui, o sistema se desmente, dizendo que não havia um lago.

Print 3 — Conversa com o Gemini.

Aqui o sistema alucina de vez, rs* Ao perguntar onde, caso existisse, o lago poderia estar localizado, ele sugere o porto, ou Mar Menor. Pela própria história da Batalha de Cartago (veja meu post anterior) o lago não pode ser no Porto, ele é oposto ao porto. E Mar Menor é outra cidade. Uma cidade linda, de praias incríveis, mas é razoavelmente distante de Cartagena.

Print 4 — Conversa com o Gemini.

E o toque final: Eu compartilhei com o Gemini o link da Wikipedia provando a existência do lago. E o sistema tenta… descredenciar a wikipedia…..

Conversa com ChatGPT

Print 1 — Conversa com ChatGPT

Aqui o ChatGPT afirma categoricamente que não existia um lago em Cartagena, em especial no contexto da batalha que eu cite.

Print 2 — Conversa com ChatGPT

Aqui eu indico para o sistema a referência histórica da existência do lago, e ele (diferente do anterior) se desculpa.

E havia um lago ou a alucinação foi minha?

Pra minha felicidade, eu estava escrevendo um artigo sobre um assunto que gosto muito, que pesquisei muito, e onde eu tive a felicidade de visitar a cidade histórica que foi palco dos fatos. Assim, mesmo com dois sistemas de Generative AI falando o contrário, eu acreditava que existia o lago. Por isso, voltando a ferramentas anteriores à Era de Generative AI eu:

“À Moda Antiga”, Consultei a Wikipedia:

Cerco de Cartagena (Cartago Nova). Wikipedia.

Pelo artigo sobre o Cerco de Cartagena, e pelo mapa, claramente vemos um lago ao norte. Como falei no artigo, eu andei pelo que fui na antiguidade a lateral deste lago, e o leito do rio que o alimentava. A alucinação não foi minha, foi de Generative AI.

“À moda antiga, consultei um livro”

Contexto histórico: Muitos dos que vão ler esse texto podem não saber, mas há muito tempo atrás existia um objeto físico, com textos escritos nele (como um kindle que não precisa de baterias!) e nós obtinhamos informações a partir dele. Existiam até lugares para pesquisar esses objetos chamados bibliotecas!

Pois bem, e eu consultei o livro físico que citei para o ChatGPT. Abaixo a capa do livro, e o principal: O desenho do lago!!! Ainda sobre contexto, o Professor Doutor Richard A. Gabriel, Autor do livro, dá aulas no Royal Military College of Canada e já foi professor no U.S. Army War College e Marine Corps University, sendo portanto uma fonte confiável de informações a respeito do tema.

Scipius Africanus — Richard A. Gabriel. Página 96.

Pelo mapa, notamos o lago ao norte.

Scipius Africanus. Richard A. Gabriel. Página 97.

E pelo texto, vemos a clara descrição feita pelo autor da existência do lago, e da importância dele.

Assim, fechando esse capítulo, entendo que:

Eu não alucinei, o autor do livro não alucinou e nem a wikipedia alucinou. Quem alucinou foram os dois modelos de AI mais populares do mercado.

Mas… Por que? Vamos tentar entender no próximo capítulo.

Hipóteses: Por que o sistema de AI Generativa alucinou?

Não há como saber. A primeira coisa a dizer é que não há como eu saber exatamente porque os dois sistemas alucinaram, e provavelmente nem os engenheiros que o fizeram podem dizer com certeza pois… são sistemas de AI, redes neurais autônomas, não tem histórico de tudo que a rede processou pra chegar na resposta que me enviou. Porém, baseado em diversos artigos científicos que postarei no final, e em uma palestra incrível (que também postarei o link), podemos levantar duas hipoteses, que logo a seguir serão detalhadas: (1) Problemas nos dados de treino (2) Priorização de Informações Estatísticas versus Buscas Reais.

Problemas nos dados de treino.

“Entra lixo, sai lixo”

Como podemos ver nos artigos científicos citados ao final deste artigo, em geral a principal hipótese para alucinações de modelos de Generative AI, assim como modelos de AI em geral, é o treino. Se em algum momento o modelo foi treinado com informações incorretas, ou ainda desbalanceadas, ele pode dar respostas erradas. Para essa hipótese, eu posso indicar uma informação interessante:

  • O lago não existe hoje.

Se você for hoje à Cartagena (Espanha) o lago citado não existe. Ele existiu historicamente, porém hoje não existe. Isso poderia confundir o sistema, mas por si só não explica o erro. Por isso, creio num detalhamento dessa hipótese, que inclusive é para onde as pesquisas mais recentes apontam.

Informações estatísticas são mais baratas que informações reais

“Para que pesquisar se eu posso adivinhar?”

Vamos ser honestos, a pergunta que eu fiz não é simples de responder. É possível inclusive que boa parte dos leitores desse artigo nem sabiam que existia uma Cartagena na Espanha. A Cartagena da Índias, que fica na Colômbia, é muito mais famosa. Sendo mais famosa, é mais pesquisada, e os sistemas de AI recebem mais perguntas sobre ela. O ponto famoso do meu último artigo não é a Geografia, a cidade. É a história, a história das Guerras Púnicas, de Cipião, que está até na letra do hino da Itália.

E quanto mais famoso o assunto, mais pesquisado nos sistemas de AI, mais eles tem incentivo de não errar, de ir buscar a informação. Essa busca é cara. Exige esforço, exige ler e interpretar textos e imagens. Veja que pedi pro sistema ir na Wikipedia e ler pra mim. Porém existe algo mais barato que a busca: Adivinhar. Calcular. Estatística. São só hipóteses, mas veja nas respostas do Gemini:

Perguntei sobre as Guerras Púnicas (que milhares de estudantes devem perguntar também) e ele trouxe a informação do lago. Ele trouxe a informação no contexto histórico das guerras púnicas.

Quando perguntei do lago na cidade, aí ficou diferente. Era uma pergunta sobre Geografia. Geografia de uma cidade que quase ninguém pergunta. E pior, não a geografia de hoje, a de séculos atrás. Quem mais faria essa pergunta?

Se o objetivo do sistema era me agradar, ele quis dar uma resposta. E para dar essa resposta da maneira mais barata, ele tentou adivinhar. Se hoje não tem lago, é provável que antes não tivesse também. Tá dada a resposta. Errada, mas tá dada. E isso é muito importante para todos que vão utilizar o ChatGPT: Ele vai te responder como se fosse uma pessoa, mas não necessariamente vai te dar a resposta certa. O objetivo dele é falar com você como se fosse uma pessoa, não trazer as informações corretas.

Soluções: Quais os caminhos para evitar alucinações?

Na dúvida, pergunte pra mais de uma pessoa

Soluções para usuários:

Vocês já receberam aquele conselho de vovó: Se você estiver perdido num lugar desconhecido pergunte sempre a mais de uma pessoa? Pois bem, aqui é super válido, em especial para assuntos relevantes. Se você vai usar os sistemas de Generative AI para coisas importantes como estudos, opiniões, pesquisas… consulte outras fontes. No exemplo do texto eu consultei a internet e até um livro físico, além da ferramenta de Generative AI.

E veja, eu com certeza sou super a favor de Generative AI, eu trabalho com AI, acompanho o avanço dessas tecnologias desde o início e acredito profundamente que elas vão mudar o mundo para melhor. Mas é extremamente importante usá-las como são: Uma ferramenta. Não são um oráculo, não são a fonte da verdade. São uma ferramenta, que pode ajudar em muito a vida de todos.

Soluções para os sistemas de Generative AI. Para onde caminhamos?

Existem diversos estudos sendo feitos para “baratear” as buscas dos modelos de AI Generativa, e assim permitir que eles busquem informações corretas. Uma linha clara está na organização da informação, e por isso tem se pesquisado muito a respeito de Knowledge Graphs, formas de utilizar grafos para organizar a informação e facilitar as buscas. Outras ideias que tem surgido é a de modelos específicos por tarefa. Os modelos de AI generativa atuais são gerais, você conversa com eles sobre qualquer tema. Logo, eles tem que buscar bases sobre qualquer tema. Se fossem modelos específicos, a busca se reduziria e seria mais barato. Veja que no exemplo, eu mesmo fiz o sistema pesquisar informações sobre história, e logo em seguida sobre geografia.

Assim, para empreendedores, product managers e data scientists que pretendem trabalhar com Generative AI, meu conselho é se aprofundar em alucinações, indicadores de qualidade e estruturação de bases de dados usando Knowledge Graphs. Além é claro, do clássico conselho a quem trabalha com modelos de Machine Learning e AI: Preste atenção nos dados de treino. Pense em todas as formas como eles podem desviar seu modelo, e corrijam a base.

Conclusões

O lago existiu. Gemini e ChatGPT erraram. Livros ainda tem utilidade.

De uma forma bem resumida, acho que os principais ensinamentos que tirei dessa experiência são os seguintes:

  • Modelos de AI Generativa não são a fonte da verdade. Por diversos fatores, inclusive de desenho do sistema, eles estão sujeitos à alucinações, em especial em temas menos comuns.
  • Se não conhecemos o assunto, ele pode nos convencer de que a alucinação é real. A interface deles busca se parecer com um ser humano, busca agradar o usuário e ser convincente. Por isso o cuidado com as informações é importante, pois caso não tenhamos profundidade no assunto fica fácil acreditar. O antidoto para isso é ganhar profundidade, buscar outras fontes.
  • Use a ferramenta com o que ela faz de melhor. Ferramentas de Generative AI são ótimas para comunicação. Tão boas que até nos convencem de que alucinações são reais, mas isso pode ser seu maior trunfo. Elas podem nos ajudar a comunicar bem, a ajustar fluidez de texto, SEO, regras gramaticais, e muito mais.

Toda ferramenta pode ser incrível desde que saibamos como utilizá-la. As ferramentas de Generative AI são provavelmente as mais incríveis de nosso tempo, até o momento, e com elas podemos fazer coisas realmente incríveis. Mas para isso, precisamos conhecê-las, entender seus pontos fortes e limitações, e dominá-las, para poder tirar o máximo valor delas.

Bibliografia

O artigo de que falei no texto: https://medium.com/productmanagerslife/achados-de-viagem-o-que-uma-muralha-e-um-lago-podem-nos-dizer-sobre-estrat%C3%A9gia-e-sobre-o-dilema-b5bc73cae186

Knowledge Graphs — https://youtu.be/ww99npDh4cg?si=AnDQPtQpfLPjs1QS

Buchanan, J., Hill, S., & Shapoval, O. (2024). ChatGPT Hallucinates Non-existent Citations: Evidence from Economics. The American Economist, 69(1), 80–87.

Alkaissi H, McFarlane SI. Artificial Hallucinations in ChatGPT: Implications in Scientific Writing. Cureus. 2023 Feb 19;15(2):e35179.

Salamin, A. D., Russo, D., & Rueger, D. (2023). ChatGPT, an excellent liar: how conversational agent hallucinations impact learning and teaching. In Proceedings of the 7th International Conference on Teaching, Learning and Education.

Guan, X., Liu, Y., Lin, H., Lu, Y., He, B., Han, X., & Sun, L. (2024, March). Mitigating large language model hallucinations via autonomous knowledge graph-based retrofitting. In Proceedings of the AAAI Conference on Artificial Intelligence (Vol. 38, №16, pp. 18126–18134).

Agrawal, G., Kumarage, T., Alghami, Z., & Liu, H. (2023). Can knowledge graphs reduce hallucinations in LLMs?: A survey. arXiv preprint arXiv:2311.07914.

--

--

Christian Zambra
productmanagerslife

Passionate to learn; believes that new products are made to change people’s life for better; Fuzzy AND Techie :) B. Engineering & Advertising. Alma Matter: USP