Alcune FAQ su ChatGPT, Bing e Large Language Models

Marco Basaldella
11 min readMar 20, 2023

--

Un disegno generato da StableDiffusion di un  robot che scrive in una stanza vittoriana.
Immagine generata con Stable Diffusion. Prompt: “A drawing of a robot writing on paper, using a quill, in a Victorian setting.”

La curiosità e l’entusiasmo per ChatGPT, e per i nuovi chatbot di Google e Microsoft, sono molto positive. Da persona che lavora nell’ambito, mi fa piacere vedere che finalmente l’intelligenza artificiale si sta avvicinando alla massa e che questi strumenti permettono a chiunque di dialogare con una rete neurale. Ci sono però anche i potenziali problemi: le scuole iniziano a bloccare l’accesso a questi siti, professionisti iniziano a temere (o proporre!) di essere sostituiti dall’intelligenza artificiale, e i più catastrofisti vedono già Skynet dominare il mondo. Ho provato a scrivere una serie di FAQ su questi modelli per cercare di demistificare ChatGPT, GPT-4, il nuovo Bing, e gli altri chatbot basati sull’Intelligenza Artificiale.

Cos’è ChatGPT?

ChatGPT è un “Large Language Model” (LLM). Cosa vuol dire? Un “Language Model” è un modello che “assegna probabilità a sequenze di parole” [1]. Chiaro, vero? No. Allora pensate alla tastiera predittiva del vostro telefono: quando scrivete “ciao, come” all’inizio di un messaggio, il vostro telefono vi proporrà per esempio “stai” o “va”. L’algoritmo che vi fa queste proposte è proprio un Language Model: questo LM, guardando le parole che avete scritto in precedenza nel messaggio, e se è più avanzato usando anche le vostre conversazioni passate, è in grado di suggerirvi delle parole per completare il messaggio. ChatGPT è un “Large” Language Model: non c’è una definizione precisa, che io sappia, per definire i LLMs, ma possiamo definirli come LMs basati su reti neurali molto grandi, con miliardi di neuroni (un “neurone” è il componente alla base delle reti neurali, e prende il nome dai neuroni nel nostro cervello, al quale le reti neurali sono ispirate).

Che tecnologia c’è dietro ChatGPT, il nuovo Bing, e il nuovo Google Bard?

Nel 2017, alcuni ricercatori di Google hanno pubblicato il paper “Attention is all you need” [6], che introduce una particolare architettura di reti neurali chiamata “Transformer”. Questa architettura e le sue evoluzioni sono alla base di tutti i recenti chatbot, e della stragrande maggioranza delle pubblicazioni scientifiche nell’ambito della linguistica computazionale degli ultimi anni. Per esempio, “GPT” in ChatGPT sta per “Generative Pre-trained Transformer”, e BERT (vedi sotto) sta per “Bidirectional Encoder Representations from Transformers”.

Cosa distingue ChatGPT, il nuovo Bing, e il nuovo Google Bard dagli altri chatbot?

La loro tecnologia — come detto sopra, sono tutti “Transformer” — e, soprattutto, la loro dimensione. ChatGPT è un modello con 175 miliardi di neuroni, addestrato su 500 miliardi di parole [2]. LaMDA, il modello alla base del nuovo Chatbot di Google, chiamato Bard, ha 137 miliardi di neuroni [3]. BERT [4], uno dei primi modelli basati sui Transformer, nonché il modello alla base di Google Search [5], ha “solo” 340 milioni di neuroni ed è addestrato su 3.5 miliardi di parole. Infine, vengono addestrati con una tecnica chiamata Reinforcement Learning for Human Feedback (RLHF), che descrivo più in dettaglio qui sotto.

Come sono addestrati ChatGPT, Bing, e Google Bard?

È importante ricordare che questi chatbot non sono programmati esplicitamente per eseguire una serie di istruzioni, ma “imparano” a comportarsi guardando degli esempi e producendo testo di conseguenza. In particolare, questi modelli sono addestrati in due fasi [7]. Nella prima fase, il modello riceve testo preso da internet e libri, e viene addestrato “semplicemente” a predire del testo a partire dal contesto (come l’esempio del “ciao, come” sopra).

Nella seconda fase, il modello viene specializzato a conversare usando RLHF. Inizialmente viene addestrato un secondo modello, chiamato reward model (letteralmente “modello premiale”), che cerca solo di prevedere quanto una risposta del chatbot potrebbe essere apprezzata dagli umani che conversano con esso. Successivamente, il LLM viene “rifinito” addestrandolo su conversazioni, facendogli prevedere le risposte più adatte al contesto; la qualità della risposta viene giudicata del modello premiale, che appunto “premia” il LLM se genera risposte giuste lo “punisce” se genera risposte sbagliate.

Infine, prima di essere reso disponibile al pubblico, vengono impartite delle “direttive” al modello per cercare di migliorare il suo comportamento [8], per esempio: “evita di dare risposte vaghe, controverse, o fuori tema”.

Uno screenshot di ChatGPT che spiega cos’è RLHF.
Conversazione con ChatGPT. Prompt: “puoi spiegarmi il reinforcement learning for human feedback nel modo più semplice possibile?”. Direi che lo spiega quasi meglio di me, ma manca il dettaglio che nel RLHF l’agente non è un vero essere umano, ma un secondo modello addestrato a mimare le preferenze degli esseri umani.

Che differenza c’è tra ChatGPT e i chatbot di Bing e Google?

ChatGPT è più semplice; “conosce” solo i dati visti durante l’addestramento. Per esempio, non possiamo chiedere a ChatGPT i risultati delle elezioni regionali italiane del 2023, perché il suo addestramento è basato su dati fino al 2021 [9]. Bard è basato su LaMDA [3], e il nuovo Bing probabilmente su una tecnologia simile; questi chatbot sono chiamati “Augmented Language Models”, ovvero sono dei LM in grado di usare strumenti esterni per aiutare la generazione delle risposte [16]. In particolare, LaMDA funziona lasciando generare al chatbot una risposta, e poi cercando su Internet dei contenuti presi dalla conversazione per verificare che la risposta sia corretta. Se lo è, la fornisce all’utente, altrimenti genera una risposta nuova usando l’informazione trovata su internet. Del nuovo Bing, invece, non conosciamo ancora i dettagli tecnici, ma molto probabilmente usa una tecnologia simile.

Una conversazione con il nuovo Bing che mostra come questo cerca informazioni su Internet prima di rispondere, al contrario di ChatGPT.
Al contrario di ChatGPT, il nuovo Bing cerca informazioni su Internet quando non sa la risposta, e poi le rielabora per presentarle all’utente in maniera discorsiva.

Perché Microsoft ha lanciato il nuovo Bing, mentre gli altri competitor stanno a guardare? Google non ha aperto Bard al pubblico, e nessun altro grosso nome sembra in procinto di lanciare il proprio chatbot.

Ovviamente non ho una risposta precisa per questa domanda — non lavoro in Google, e anche nel mio lavoro, non sono un manager, non prendo decisioni di questo tipo, e se le prendessi sicuramente non potrei parlarne qui! :) A titolo pienamente personale, però, quello che posso fare è ripetere le parole di Jeff Dean [12], leader di Google AI: rilasciare un chatbot che risponde ai suoi utenti con falsità, imprecisioni, volgarità, insulti, e teorie del complotto — tutte cose che abbiamo visto Bing e ChatGPT fare — porta a un rischio reputazionale troppo grande. Google, come quasi tutti gli altri in Big Tech, non può permettersi che un utente cerchi qualcosa sul suo motore di ricerca o parli col suo telefono per ricevere in risposta insulti o falsità. Microsoft, invece, da “inseguitore”, può permettersi più rischi, visto che Bing è un prodotto di nicchia, e al massimo rischia di guadagnare utenti incuriositi dal nuovo servizio.

Questo non vuol dire che però i competitor di Microsoft non stiano lavorando in segreto al loro ChatGPT; Google ha già parzialmente scoperto le carte, anche se l’integrazione del suo chatbot, “Bard”, con il motore di ricerca, per ora non è pubblica, e probabilmente anche altri grossi nomi stanno lavorando a tecnologie simili.

Questi chatbot sono senzienti?

No. Qualche tempo fa ha fatto scalpore la storia di Blake Lemoine, un ingegnere di Google, che si è convinto che LaMDA fosse senziente [10]. Come abbiamo visto, però, questi modelli sono “semplicemente” dei modelli statistici che mimano il comportamento umano, e possono quindi dare l’impressione di essere senzienti. Non vuol dire che questi modelli non siano capaci di fare ragionamenti, anche complessi; ma sicuramente non hanno autocoscienza.

Questi chatbot sono intelligenti?

Secondo l’Enciclopedia Treccani, l’intelligenza è un “complesso di facoltà psichiche e mentali che consentono di pensare, comprendere o spiegare i fatti o le azioni, elaborare modelli astratti della realtà, intendere e farsi intendere dagli altri, giudicare, e adattarsi all’ambiente.” ChatGPT e i suoi fratelli sono sicuramente in grado di comprendere o spiegare fatti [19]. Sono in grado di elaborare modelli astratti della realtà; se chiedete a uno di questi chatbot “inventa una storia dove una farfalla vince il festival di Sanremo”, questo sarà perfettamente in grado di inventare una storia di fantasia dove, appunto, una farfalla canterina vince Sanremo. Intendere e farsi intendere sono ovviamente inclusi nella risposta precedente; che si “adattino all’ambiente” è dimostrato da come siano in grado di seguire le direttive che gli vengono date, vedi l’esempio sul chatbot di Bing citato sopra. Se come metrica per l’intelligenza usiamo il Turing Test, che stabilisce che un computer è intelligente se riesce a far credere al suo interlocutore di essere un umano, è evidente come il caso di Lemoine sia la prova che questi chatbot riescono a far credere ai propri utenti di essere senzienti, come gli umani!

ChatGPT quindi è intelligente? Si e no. L’intelligenza ovviamente è qualcosa di molto più complicato rispetto alla definizione qui sopra. Alcune definizioni dell’intelligenza includono l’autocoscienza, che abbiamo appena escluso; inoltre, questi chatbot non hanno grosse abilità di pianificazione, e come dimostrato dal carattere lunatico di Bing, difettano in intelligenza emotiva.

Che rilevanza scientifica hanno questi chatbot?

Una bella metafora è stata data recentemente da Steven Piantadosi, neuroscienziato e linguista dell’Università di Berkeley: “lo stato [della linguistica moderna] è in qualche modo simile alla storia della medicina, dove le persone scoprivano che cure funzionavano (per esempio, i limoni curano lo scorbuto) senza capirne i meccanismi sottostanti” [17]. Il fatto è che per ora le teorie su come gli esseri umani elaborano il linguaggio sono, appunto, teorie. Inoltre, i LLM sono ispirati a modelli biologici, ma ovviamente non ne sono una rappresentazione fedele. Analizzando come imparano la lingua, però, possiamo vedere per esempio come questi modelli, al loro interno, usano delle strutture gerarchiche (dette alberi sintattici) [20], suggerendo che effettivamente il modo in cui imparano la lingua potrebbe simile a quello usato dagli umani [21], allineandosi alle ipotesi sull’uso di gerarchie nell’apprendimento della lingua nella psicologia cognitiva [17].

Alcuni linguisti però non vedono di buon grado questi modelli, perché confutano la teoria dell’innatismo di Chomsky, che sostiene che alcuni modelli linguistici siano “innati” nel cervello umano, inclusa una “grammatica universale” applicabile a tutte le lingue. Senza scendere nel dettaglio, voglio solo che dire che questo dibattito va avanti da decenni: nel 1969, Chomsky scrisse che “la nozione di ‘probabilità di una frase’ è completamente inutile, sotto ogni possibile interpretazione” [22], rincarando poi la dose dicendo che “se consideriamo la probabilità rispetto a una situazione non cambia nulla” (i.e. le probabilità sono sempre inutili). Gli LLM, che come abbiamo visto all’inizio sono completamente basati sul concetto di probabilità, hanno evidentemente provato che queste affermazioni sono sbagliate. D’altro canto, nonostante si comportino in maniera simile a alcune teorie, non provano nulla sul funzionamento della mente umana, e c’è chiaramente qualcosa che deve distinguere gli esseri umani per renderli in grado di imparare le lingue [23], quindi la battaglia sull’innatismo per ora rimane più che aperta..

Posso usare un chatbot per fare il mio lavoro/i miei compiti per casa al posto mio?

Senza dubbio, puoi! Ma sappi che ad oggi rischi di dover fare più lavoro che facendo da solo, o di prendere un brutto voto. Infatti, un chatbot come ChatGPT non è in grado di fornirti informazioni accurate, e anche Google Bard e Bing sono stati colti in fragrante a inventarsi fatti inesistenti, causando persino un crollo in borsa del valore di 100 miliardi per Google [14]. Per task che non richiedono conoscenze specifiche, come per esempio scrivere una lettera, questi chatbot possono già darti un grande aiuto, ma per compiti che richiedono un certo livello di ragionamento — come, per esempio, la matematica — non mi fiderei troppo. Oppure puoi chiedere a ChatGPT una ricetta da cucinare con gli ingredienti che hai in casa… io non ci ho provato, ma chi l’ha fatto [15] dice che i piatti vengono buoni!

Un chatbot ruberà il mio lavoro?

Dipende da che lavoro fai. La risposta è, in ogni caso, probabilmente no; ma magari lo renderà più facile, aiutandoti in quello che fai, magari riassumendo un articolo per te, cercando per te informazioni su internet e presentandole in modo conciso e comprensibile, o scrivendo delle email al posto tuo. Per ora, è importante ricordare che quando sistemi simili sono stati messi a fare i giornalisti [11], non si sono dimostrati all’altezza delle aspettative, plagiando contenuti e richiedendo comunque intervento umano, fino al punto di essere “licenziati” (anche per questioni di trasparenza). È anche importante ricordare che questi chatbot sono, per ora, imprevedibili e inaffidabili, e non possono certamente sostituire un avvocato, uno psicologo, o un giornalista. Io stesso li ho provati per scrivere codice e ogni tanto funzionano molto bene… e ogni tanto molto, ma molto male. In un futuro prossimo, è probabile che diventeranno più accurati, ma rimarrà sempre un margine d’errore che li renderà impossibili da usare autonomamente, senza supporto umano, in ambito professionale.

Cosa ci aspetta il futuro?

Chi lo sa? L’ambito dell’Intelligenza Artificiale legato alla linguistica computazionale ha già subito due rivoluzioni di recente; nel 2013, è entrato nell’era del “Deep Learning” grazie a word2vec [13], un algoritmo che ha permesso alle reti neurali di rappresentare il linguaggio in maniera efficiente e compatta, rivoluzionando il campo; nel 2017, come già detto sopra, sono nati i Transformer, che hanno a loro volta rivoluzionato l’intelligenza artificiale diventando il nuovo punto di riferimento nelle reti neurali per il linguaggio (e non solo). Secondo qualcuno, ChatGPT e il nuovo Bing sono forse il nuovo “momento iPhone”, il momento in cui una nuova tecnologia, entrando sul mercato, sbaraglia la concorrenza e cambia il modo di pensare e lavorare delle persone — come, appunto, gli iPhone e gli smartphone in generale cambiarono il mercato della telefonia, e la vita delle persone, quando vennero rilasciati. Se è vero o meno, o se è solo entusiasmo mal riposto, direi che lo scopriremo in pochi mesi, quando più prodotti basati su LLM saranno entrati nella vita di tutti i giorni.

In ogni caso, i prodotti che arrivano e arriveranno a breve sul mercato sono evoluzioni di word2vec e Transformers, e nonostante siano impressionanti rispetto alla tecnologia di appena 10 anni fa, sono ancora molto lontani dalla chimera dell’“AGI”, l’intelligenza artificiale “generale” in grado di fare qualsiasi cosa. Serviranno nuove scoperte, grandi e piccole, per avere intelligenze artificiali “generali” e veramente affidabili, ed è impossibile dire con certezza quando questo succederà.

Concludendo, i modelli di oggi come abbiamo visto sono già relativamente capaci a svolgere compiti più o meno semplici. Sicuramente, però, gli avanzamenti scientifici e tecnologici che renderanno possibile usare questi e altri modelli in telefoni, televisori, automobili e non solo porteranno il machine learning sempre di più nella nostra vita quotidiana; nel mentre, la ricerca renderà li renderà sempre più potenti, in grado di affiancare e aiutare studenti e professionisti, ed è per questo che è importante essere in grado di riconoscere il loro potenziale e i loro, numerosi, limiti.

Riferimenti

[1] Daniel Jurafsky & James H. Martin. Speech and Language Processing, Capitolo 3. https://web.stanford.edu/~jurafsky/slp3/3.pdf

[2] Brown et al, Language Models are Few-Shot Learners. https://arxiv.org/pdf/2005.14165.pdf

[3] Thoppilan et al, LaMDA: Language Models for Dialog Applications. https://arxiv.org/abs/2201.08239

[4] Devlin et al, BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. https://arxiv.org/abs/1810.04805

[5] https://blog.google/products/search/search-language-understanding-bert/

[6] Vaswani et al, Attention is all you need. https://arxiv.org/abs/1706.03762

[7] https://openai.com/blog/how-should-ai-systems-behave/

[8] https://www.theverge.com/23599441/microsoft-bing-ai-sydney-secret-rules

[9] https://help.openai.com/en/articles/6783457-chatgpt-general-faq

[10] https://cajundiscordian.medium.com/is-lamda-sentient-an-interview-ea64d916d917

[11] https://www.theverge.com/2023/1/20/23564311/cnet-pausing-ai-articles-bot-red-ventures

[12] https://www.wired.com/story/chatbots-got-big-and-their-ethical-red-flags-got-bigger/

[13] https://en.wikipedia.org/wiki/Word2vec

[14] https://www.reuters.com/technology/google-ai-chatbot-bard-offers-inaccurate-information-company-ad-2023-02-08/

[15] https://www.finedininglovers.com/article/chat-gpt-recipes

[16] Mialon et al, Augmented Language Models: A Survey. https://arxiv.org/pdf/2302.07842.pdf

[17] Piantadosi, Modern language models refute Chomsky’s approach to language. https://lingbuzz.net/lingbuzz/007180/v2.pdf

[18] https://www.treccani.it/enciclopedia/intelligenza

[19] https://ai.googleblog.com/2022/05/language-models-perform-reasoning-via.html

[20] Hewitt and Manning, A Structural Probe for Finding Syntax in Word Representations. https://nlp.stanford.edu/pubs/hewitt2019structural.pdf

[21] Mahowald et al, Dissociating language and thought in large language models: a cognitive perspective. https://arxiv.org/pdf/2301.06627.pdf

[22] Chomsky, Quine’s empirical assumptions.

[23] Innateness and Language, https://plato.stanford.edu/entries/innateness-language/

--

--

Marco Basaldella

Applied Scientist @ Amazon Alexa AI; Affiliated Lectuerer @ University of Cambridge